数据挖掘理论与算法，随笔1

资源：b站

本系列课程主要是启发为主，不会介绍很多很多的算法，适合初学者。

一、学习资源

书籍：

国际会议：

International Conference on Data Mining

International Conference on Data Engineering

International Conference on Machine Learning

International Joint Conference on Artificial Intelligence

Pacific-Asia Conference on Knowledge Discovery and Data Mining

ACM SIGKDD Conference on Knowledge Discovery and Data Mining

期刊：

学术领头人举例：

搜索引擎和软件：

不要闭门造车，闷头看书，要时常到外面看一看，你做的一些东西可能有人以前早就做过。

二、怎么学好这门课程

上课思考讨论，课后【动手】练习，找一些数据做一下比单纯听课有用。

三、数据寻找

四、从数据到智能

数据是最底层的东西，数据通过处理成为信息，信息处理后成为知识，知识加工后成为decision support

通常数据存放在不同的数据源中，所有数据进行融合（ETL），装在数据仓库中，再去做分析。

从抽象层面看，流程如图所示：

五、分类问题

1、Given a training set: {(x1, y1), …, (xn, yn)}, produce a classifier (function) that maps any unknown object xi to its class label yi.（给一些训练集训练模型，再来一些未知的数据集可以做预测）

2、分类问题包括的一些算法：决策树、KNN、神经网络、支持向量机，以后慢慢介绍

3、classification说白了就是一个分界面问题，把n维空间中的一个点划分到不同的空间

4、做分类的时候数据要分成两部分，一部分是training set用来生成训练模型，另一部分是test set用来检测，检测结果不好要重新训练。training set和test set不能完全重合的

5、混淆矩阵confusion matrix

假设两分类问题，一类是正类positive，另一类是negative

TP指的是样本本身是positive，预测为positive

FP指的是样本本身是negative，预测为positive

FN指的是样本本身是positive，预测为negative

TN指的是样本本身是negative，预测为negative

模型的准确率accuracy=（TP+TN）/（P+N）

TPR=TP/（TP+FN）

TNR=TN/（TN+FP）

6、ROC曲线

这个图可以解释为男人、女人和身高

横坐标是身高，两个高斯代表男人和女人，通常来讲男人比女人高，但是这不是绝对的，中间这条线就是阈值。

如果说阈值设置的特别小，比如设置为一米，宏观上所有男人身高都会超过一米，所以所有男人都会被预测为男人，即TP为100%，但是所有女人也会被预测为男人，即FN为100%，对应右上角那个点；

如果说阈值设置的特别大，比如设置为三米，宏观上所有女人身高都不超过三米，所以所有女人都会被预测为女人，即FP为100%，但是所有男人也会被预测为女人，即TN为100%，对应左下角那个点。

阈值在最大和最小之间滑动的时候对应的就是曲线，理论上曲线越高越好，怎么衡量这条曲线好？人们定义了一个AUC，就是曲线下方的面积，AUC越高越好。

7、在混淆矩阵中有两种错误：FP和FN，把男人判定为女人和把女人判定为男人，但是在实际应用中，两种错误造成的危害可能不一样，比如把有病的人判定为没病，把没病的人判定为有病等等。所以在实际应用中，所有问题都是带权重的。

六、聚类及其他数据挖掘问题

1、Clustering is the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense.（分成一组一组的）

2、聚类和分类的区别？聚类中是没有标签的，这是跟分类的区别，分类是监督学习，聚类是无监督学习

3、怎么样衡量两个点远近，相似不相似之类的东西？要靠距离度量，比如，欧式距离，曼哈顿距离，马氏距离

4、算法比如，K-Means ，Sequential Leader， Affinity Propagation

七、关联规则

商店购物，买了某种物品的有可能会买另一种东西

八、回归

线性回归中线性是指参数和变量之间是线性的（x和y是线性的），不是指拟合出来的线是线性的。（不一定拟合出来是直线，也可以是曲线等等）

九、数据预处理

实际数据挖掘过程中，最麻烦的就是数据预处理步骤

问题：Missing Attribute Values，Different Coding/Naming Schemes，Infeasible Values，Inconsistent Data，Outliers

操作：后面介绍

原文地址：http://www.cnblogs.com/jiezstudy/p/16925902.html

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！ 2. 分享目的仅供大家学习和交流，请务用于商业用途! 3. 如果你也有好源码或者教程，可以到用户中心发布，分享有积分奖励和额外收入！ 4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！ 5. 如有链接无法下载、失效或广告，请联系管理员处理！ 6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！ 7. 如遇到加密压缩包，默认解压密码为"gltf",如遇到无法解压的请联系管理员！ 8. 因为资源和程序源码均为可复制品，所以不支持任何理由的退款兑现，请斟酌后支付下载声明：如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性

数据挖掘理论与算法，随笔1

排行榜展示

3D打印机glb模型下载-机械glb模型

树glb模型下载-树2

水稻glb模型下载-水稻1

变电箱1glb模型下载-机械glb模型

树glb模型下载-树3

模型

3D打印机glb模型下载-机械glb模型

树glb模型下载-树2

变电箱1glb模型下载-机械glb模型

树glb模型下载-树1

树glb模型下载-树3

水稻glb模型下载-水稻1