首页技术文章正文

云计算大数据培训之10个常见误解:算法即预言家、大数据必干净(上)

更新时间:2017-08-31 来源:黑马程序员云计算大数据培训学院 浏览量:

为了确保你组织的大数据计划保持正轨,你需要消除以下10种常见的误解。


1. 大数据就是“很多数据”

大数据从其核心来讲,它描述了结构化或非结构化数据如何结合社交媒体分析,物联网的数据和其他外部来源,来讲述一个”更大的故事”。该故事可能是一个组织运营的宏观描述,或者是无法用传统的分析方法捕获的大局观。从情报收集的角度来看,其所涉及的数据的大小是微不足道的。


2. 大数据必须非常干净

在商业分析的世界里,没有“太快”之类的东西。相反,在IT世界里,没有“进垃圾出金子”这样的东西,你的数据有多干净?一种方法是运行你的分析应用程序,它可以识别数据集中的弱点。一旦这些弱点得到解决,再次运行分析以突出 “清理过的” 区域。


3. 所有人类分析人员会被机器算法取代

数据科学家的建议并不总是被前线的业务经理们执行。行业高管Arijit Sengupta在TechRepublic 的一篇文章中指出,这些建议往往比科学项目更难实施。然而,过分依赖机器学习算法也同样具有挑战性。Sengupta说,机器算法告诉你该怎么做,但它们没有解释你为什么要这么做。这使得很难将数据分析与公司战略规划的其余部分结合起来。




预测算法的范围从相对简单的线性算法到更复杂的基于树的算法,最后是极其复杂的神经网络。


来源:dataiku,dataconomy。


4. 数据湖是必不可少的

据丰田研究所数据科学家Jim Adler说,对于巨量存储库,一些IT经理们设想用它来存储大量结构化和非结构化数据,根本就不存在。企业机构不会不加区分地将所有数据存放到一个共享池中。Adler说,这些数据是 “精心规划”的,存储于独立的部门数据库中,鼓励”专注的专业知识”。这是实现合规和其他治理要求所需的透明度和问责制的唯一途径。

本文版权归黑马程序员云计算大数据学院所有,欢迎转载,转载请注明作者出处。谢谢!
作者:黑马程序员云计算大数据培训学院
首发:http://cloud.itheima.com/

分享到:
在线咨询 我要报名
和我们在线交谈!