第一章

√模式

√中文:“模”和“式”意思相近,就是一种规律;

√英文: Pattern有两重含义,一是代表事物的模板或原型,二是表征事物特点的特征或性状的组合;

√在学科中:可以看作对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在确定性或随机性规律的对象、过程或事件的集合

√识别

√中文:就是把对象分门别类地认出来;

√英文:recognition是对以前见过的对象的再认识。

√模式识别

√就是对模式的区分和认识,把对象根据其特征归到若干类别中适当的一类。

 

监督学习与非监督学习

√在要解决的模式识别问题中,已知要划分的类别,并且能够获得一定数量的类别已知的样本,这样情况下建立分类器的问题属于监督学习问题,称作监督模式识别。因为我们有训练样本来作为学习过程的“导师”。

在面对未知的对象时,通过考察这些对象之间的相似性将他们分开,通过这些对象具有的特征的规律将其最合理的分为机组,这种类别发现问题就是非监督学习,这种学习方式成为非监督模式识别,在统计学中通常被称为聚类。

 

 

模式识别的研究方法

·基于知识的方法

√主要指专家系统为代表的方法,一般归于人工智能范畴。

√基本思想是:根据人们已知的关于研究对象的知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,对未知样本通过这些知识推理决策其类别。

基于数据的方法

√在确定了描述样本所采用的特征后,这些方法并不是依靠人们对所研究的对象的认识来建立分类系统,而是收集一定数量的已知样本,用这些作为训练集(training set)来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类。

两大类方法对比

√基于数据的方法是以统计为基础的,根据样本对各种特征进行统计得到分类器,整个过程我们可以不依赖于专家知识,我们只知道某些特征与分类结果是有联系的,但我们没必要确切知道这些联系具体是怎样的。反过来,这也恰恰是它的缺点,有时我们想确切知道特征与分类直接的内在关系,但这时却无能为力,主要是基于数据方法的模型的内在机理还未被研究透彻,它更像是一个黑盒,而且还存在样本差异性和问题不确定性等。

基于知识的方法则让分类结果有明确的解释,而且如果我们已经明确知道特征和分类之间的关系,那么直接使用基于知识的方法一般来说效果会更加好,因为专家知识是明确的。很多时候前提不存在,而且这类方法抗干扰能力较差性能效果目前也不如基去数据的方法

 

第二章

贝叶斯决策:最小错误率,最小风险。

 

第三章

最大似然估计

 

第四章

只要一个样本集线性可分,就一定存在无数多解。哪个解更好?

从直观上我们希望正负样本分得越开越好,也就是正负样本之间的几何间隔越大越好。这是因为距离分类超平面越近的样本,分类的置信度越低。

 

最优分类超平面

一个分类超平面,如果它能将训练样本没有错误地分开且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则这个超平面称作最优分类超平面(optimal seperating hyperplane),简称最优超平面(optimal hyperplane)。

-两类样本中离分类面最近的样本到分类面的距离称作分类间隔(margin)

-最优超平面也称作最大间隔超平面

 

由于最优超平面的解最后是完全由支持向量决定的,所以这种方法最后被称作支持向量机,简写为SVM或SV机。

 

简述 SVM 的基本思想?SVM?

支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分类,分类的原理是间隔最大化,最终转化为一个凸二次规划问题来求解,由简至繁的模型包括:

当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;

当训练样本近似线性可分时,通过软间隔最大化,学习一个线性可分的支持向量机;

当训练样本线性不可分时,通过核函数和软间隔最大化,学习一个非线性支持向量机;

 

第五章

反向传播算法是确定权重的最常用的方法之一。

优点:简单且普适。

缺点:收敛慢且易陷于局部最优。

 

第六章

非数值特征的量化

一名义特征:正交编码

例如颜色、形状、性别、职业、字符串中的字符等

一序数特征:等同于名义特征处理或转化为数值特征

例如序号、分级,不能看作是欧氏空间中的数值

一区间特征:通过设定阈值变成二值特征或序数特征

与研究目标之间的关系呈现出明显的非线性。

取值是实数,可以比较大小,但是没有一个“自然的”零,比值没有意义

例如年龄、温度、考试成绩等

 

 

 

 

集成学习的概念

√将多个性能一般的普通模型进行有效集成,形成一个性能优良的集成模型

√通常将这种性能一般的普通模型称为个体学习器

√如果所有个体学习器都属于同类模型,则称由这些个体学习器产生的集成模型为同质集成模型,并称这些属于同类模型的个体学习器为基学习器

√反之,将属于不同类型的个体学习器进行组合产生的集成模型称为异质集成模型

 

√理论上来看,学习器结合会带来3个方面的好处:

√统计方面:一般学习任务搜索的假设空间巨大,可以通过集成使得各个假设和目标假设间的误差一定程度抵消

√计算方面:学习器算法往往会陷入局部最优解。多个学习器的结合有助于降低陷入局部最优解风险,从而提高整体达的泛化性能。

√表示方面:多个学习器结合有助于扩大假设区间,可能学得更好的近似。

 

总体来说,集成的泛化能力是远大于单个学习器的泛化能力的。但是同时我们也知道有木桶理论这样理论的存在。所以我们关注两个重要的概念:准确性和多样性。

√准确性:个体学习器不能太差,要有一定的准确度(即不能有一个太短的短板)

√多样性:个体学习器之间的输出要具有差异性(各有所长的意思,不能所有的学习器的优点都是一样的)

 

集成学习主流方法:

Boosting:Boosting是一族可以将弱学习器提升为强学习器的算法。这是一种串行的思想,序列化进行。

Bagging: Bagging是一种并行的集成学习方法, 基学习器的训练没有先后顺序,同时进行。

随机森林(Random Forest, RF):RF是Bagging的一个变体。它的基学习器固定是决策树,所以多棵树就叫做森林。而”随机”体现在属性选择的随机性上。

随机森林和bagging的对比

√与Bagging相比,RF由于随机属性引入的多样性,使得基学习器个体之间差异变大,增加了多样性,提高了集成的泛化性能;

√相比于Bagging,由于属性扰动的加入,其初始泛化性能较差(基决策树的准确度有一定的下降),但是随着集成数自的增多,其往往可以收敛到更低的泛化误差。同时RF,由于属性选择,训练效率更高。

 

相比于Boosting,Bagging和随机森林就简洁了许多。

集成学习的核心是产生并组合“好而不同”的个体学习器,所以是在保证准确性的前提下,尽量的提高多样性。而Bagging和RF,都是通过“自主采样”的方法来增加多样性。

 

CNN三个基本概念

局部感受野(Local Receptive Fields)共享权值(Shared Weights) 池化(Pooling)

我们人类对外界的认知一般是从局部到全局,先对局部有感知的认识,再逐步对全体有认知,这是人类认识模式。在图像中的空间联系也是类似,局部范围内的像素之间联系较为紧密,而距离较远的像素则相关性较弱。

每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数数目的重要神器:局部感受野

共享权值:在卷积神经网络的卷积层中,神经元对应的权值是相同的,由于权值相同,因此可以减少训练的参数量。共享的权值和偏置也被称作卷积核。

池化是卷积神经网络中另一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。

最大池化是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。

一般地,CNN的卷积层之间都会周期性地插入池化层。池化层通常会分别作用于每个输入的特征并减小其大小。池化层的引入是仿照人的视觉系统对视觉输入对象进行降维和抽象。

 

 

K-means 算法的步骤?如何确定 K 的值?

无监督聚类方法

基本步骤:

(1)从数据中选择 k 个对象作为初始聚类中心;

(2)将样本集按照最小距离原则分配到最邻近聚类;

(3)使用每个聚类的样本均值更新聚类中心;

(4)重复步骤(2)、(3),直到聚类中心不再发生变化;

(5)输出最终的聚类中心和 k 个簇划分;

K 如何确定: K-means中K值的选取

首先采用手肘法或者轮廓系数法决定结果簇的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类。

 

原文地址:http://www.cnblogs.com/tavee/p/16817502.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性