1.1 什么是大数据

IBM用3V(Volume、Variety、Velocity)来描述大数据所拥有的特点。

大容量(Volume),是指数据体量巨大。

多形式(Variety),是从数据的类型角度来看的,数据的存在形式从过去的以结构化数据为主转换为形式多种多样,既包含传统的结构化数据,也包含可便于搜索的半结构化数据,如文本数据,还包含更多的非结构化数据,如图片、音频和视频数据。

高速率(Velocity)则是从数据产生效率的实时性角度来衡量的,数据以非常高的速率产生,比如大量传感器生成的实时数据。

之后,IBM又在3V的基础上,增加了Value这个维度,即价值密度低的数据称为大数据,意指大数据伴随着从低价值的原始数据中进行深度挖掘和计算,从海量且形式各异的数据源中抽取出富含价值的信息。

 

从维克多·迈尔·舍恩伯格所著的《大数据时代》中,可以看到大数据时代的思维变革。

(1)不是随机样本,而是全体数据。

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

(2)不是精确性,而是混杂性。

数据多比少好,更多数据比算法系统更智能还要重要。社会从“大数据”中所能得到的益处,并非来自运行更快的芯片或更好的算法,而是来自更多的数据。大数据的简单算法比小数据的复杂算法更有效。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。那些精确的系统试图让我们接受一个贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上,现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

(3)不是因果关系,而是相关关系。

在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。通过给我们找到一个现象的良好关联物,相关关系可以帮助我们捕捉现在和预测未来。在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。

 

原文地址:http://www.cnblogs.com/ooo0/p/16831341.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性