-
译言网
经济学人为你讲解:反对大数据
“一派胡言”,剑桥教授说到。“自以为是”,哈佛研究员写道。“大数据就是胡扯”,帮助奥巴马重新竞选的精算师如是说。几年前几乎没人听说过“大数据”,而今天想不碰到这个词dou nan,结果计算机专家们热衷于声讨它。《连线》、《时代周刊》、《哈佛商业评论》和其他出版物迫不及待地在其终结前翩翩起舞。《金融时报》问,“大数据:我们在犯一个大错误吗?” 《纽约时报》说,“八个(不,九个!)大数据的问题”。反对大数据的声浪该如何解释?
大数据的概念是,社会可以用大量的数据来做一些只有少量数据时做不了的事情。十年前这个词最初应用于天体物理学、基因组学和互联网搜索引擎,以及机器学习系统(比如用于语音识别和翻译)等依赖大量数据来工作的领域。现在它指从零售到人力资源等新领域进行数据分析和统计的应用。反对大数据始于3月中旬(2014年3月—译者注),哈佛大学和东北大学的大卫·拉泽等人在《科学》杂志上发表的一篇文章中提出了这一观点。文中说,大数据的经典案例—Google流感趋势(2009年的项目,只用搜索数量确定流感爆发),与疾病控制中心的报告数据比,它高估了四年来的病例数量。这导致了对大数据概念更广泛的攻击。
批评集中于三个方面,不是大数据本身固有,而是在数据分析中很常见的问题,它们有一些价值。第一,不能忽视从数据中获得的偏见,事实如此,不容否认。第二,一些大数据的拥护者声称理论(比如,世界运行的通用模型)过时了。实际上,即使处理大数据集,仍然需要学科领域知识。第三,有了更多数据之后,那些似是而非的相互关系(从数据统计上看这些关联性很强健,但只是偶然发生)带来的风险提高了。尽管有新的统计技术来识别和排除似是而非的相互关系,比如对数据子集进行很多测试,但这永远是个问题。
换句话说,这些唱反调的案例有其价值,但这些批评并不意味着大数据分析就一无是处了。就算是抨击大数据说它“自以为是”的哈佛研究员在《科学》杂志上也承认,把Google流感趋势分析和疾病控制中心的数据结合起来提升了总体预测准确度,这表明大数据实际上可作为一个有用的工具。在4月17日公众科学库《计算生物学》杂志上发表的研究报告显示,可以通过维基百科与流感相关文章的访问量估计出流感的流行程度。f d大数据的背后是典型的炒作周期,一项技术的早期拥护者说些华而不实的大话,当这些承诺没有兑现的时候人们就开始放箭,但那项技术最终会改变世界,虽然不一定是以专家们希望的方式实现的。在此之前这已经发生在网络、电视、广播、电影和电报上。现在不过是轮到大数据来面对那些发牢骚的人了。
译者:cyal8er 原作者:The Economist 来源:译言网
扫一扫 加微信
hrtechchina