• 潘璠
    【知识学堂】打死也不说”的大数据秘密 一不留神之间,我们已经汇入浩瀚的大数据洪流之中 大数据时代来了,大家的起点差不多,中国的机会也来了 推特上的情绪变化曲线,与道琼斯股票的指数变化曲线高度相关 作为一种现象 大数据的洪流都容纳了什么? 还记得当年谷歌和百度以“大数据”为关键词的搜索曲线吗?那两幅图热烈地反映了大数据受关注的程度。谷歌从2011年到2012年,百度从2012年到2013年,都有一个明显甚至是陡然的上升。而在中文搜索曲线陡然上升的同时,统计工作中有关大数据的应用研究也已经同步开始了。 “大数据”作为一个词语,或许是一个发现,而不是一个发明。但是,“大数据”作为一种现象,或是许多发明的结果、聚集和延续,是科学技术、生产力水平发展到一定程度后的必然。银行系统有海量的储户个人信息及存储信息,商场、超市有庞杂的商品信息及价格信息,机场记录着许多乘客的出行情况,医院记录着许多病人的检查和治疗情况;门户网站每一条新闻下面的留言,汇集成对许多现象和问题的民意;实名注册微博中的喜怒哀乐,则都是情感和态度的表达;百度、谷歌引擎的每一次使用,都可以说明IP那端键盘操作者到底想要什么;透过大气层中弥漫着的无数手机短信,足以掌握无数手机使用者“打死也不说”的秘密。从我们不变的属性到可变的态度,很多都已经在一不留神之间,汇入了浩瀚的大数据洪流之中。 以往历次技术革命,中国跟在别人后面亦步亦趋。大数据时代来了,大家的起点都差不多,中国能不能在大数据应用方面与发达国家并驾齐驱,乃至做出一些贡献呢? 著名的《大数据》一书的作者涂子沛先生曾是中国基层政府的一名工作人员,后来去了美国,在最恰当的时候写出了这样一本书籍。我们请他做过一场报告,而半年之后,再请他作报告就非常困难了。据《中国青年报》报道,涂子沛去年6月时进行第四次国内巡讲之旅,连早餐时间都被占满了。从《大数据》一书出版后,每当这位在美国供职的中国程序员回到国内,都会受到热烈的追捧。6月16日,他在招商银行深圳总部大楼与刚卸任的原行长马蔚华共进早餐。和马蔚华共进早餐的第二天,他在江苏常州就“教育与大数据”的话题进行了一场听众超过1000人的讲座。其间,他与某公司董事长吃了一顿午饭。这时,要请他讲课,只能找他的秘书安排了。这个变化,恰恰是大数据现象快速发展变化的一个缩影。 演进和发展 不说不做也难,因为已经唯此为大 一年多以前,在我们刚刚开始研究大数据及其对统计数据和统计工作带来的影响时,一位年轻同仁在我的博客上留下一段英文:“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it。”我不敢妄加直译,放到在线翻译系统上走了一下,结果显示:“大数据就像青少年性行为:每个人都在谈论它,没有人真的知道如何去做,每个人都认为别人在做,所以每个人都声称他们正在做。”于是,我回复说:“很经典。但是不说不做也难,因为已经唯此为大了。” 归纳起来,对大数据现象和概念追根溯源,大致可以分为三个阶段。 一是20世纪80年代至90年代中期,这是大数据认知的萌芽阶段。1980年,美国著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中将大数据盛赞为“第三次浪潮的华彩乐章”。1996年,美通社在介绍高性能平行节点技术时也提到中央处理器集群以及大数据应用。这时提到的大数据,仅是字面意义,仅指数据量大,并不涉及类型、存储方式、处理技术等。 二,20世纪90年代中期到21世纪前10年,是大数据广受各界关注的阶段。数量经济学家迪博尔德2000年在《大数据,宏观经济度量与预测动态因素模型》一文中,讨论了如何使用大数据进行经济度量和预测。美国高德纳公司的分析师道格拉斯·兰尼2001年首次从大数据特征的角度对其进行了相对明确的定义,他强调大数据必须具备3V特征,即容量大、多样化和速度快。 三是2010年至今,是大数据战略应用被提上日程并迅速发展的阶段。2010年,美国总统科学技术顾问委员会在呈给奥巴马总统和国会的报告《规划数字化的未来》,将大数据列为现有科技领域面临的挑战之首,并要求联邦政府的每一个机构和部门都制定一个应对大数据的战略。这是全球首次在政府层面将大数据作为国家战略的里程碑事件。 2011年,麦肯锡公司发布了《大数据:创新、竞争和生产力的下一个前沿》,详列了大数据的核心技术,分析了大数据在不同行业的应用,提出了政府和企业决策者应对大数据发展的策略。 2012年1月,在瑞士达沃斯世界经济论坛上,大数据处理技术被视为“2012 年最应该关注的科学技术”,被誉为“改变世界的第一位科学技术”。论坛发布的《大数据 大影响》报告中有一段著名的论述,即“大数据已经成为一种新的经济资产类别,就像货币或黄金一样”。 2012年3月29日,美国奥巴马政府颁布了《大数据的研究和发展计划》,拟通过提高从大型复杂的数据集中提取知识和观点的能力,进而加快美国科技进步的步伐,加强国家安全,并改进教学与研究。该战略涉及美国联邦政府的六个部门。 2012年5月,联合国秘书长执行办公室发布了《大数据促发展:挑战与机遇》的报告,分析了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,系统给出了在应用过程中正确运用大数据的策略建议。 2012年6月,经合组织OECD召开统计委员会第9届会议,发布《使用大数据作决策》研究报告,阐述了大数据现象对决策的潜在重要性和支撑作用,并特别分析了大数据对官方统计带来的各种挑战。 2012年,中国计算机协会决定成立“大数据专家委员会”,推动大数据的发展。同年6月,阿里巴巴集团宣布,将在集团层面设立首席数据官,负责全面推进“数据分享平台”战略。同年7月,“第二届大数据世界论坛”在北京召开。同月,首届中国大数据应用论坛在北京大学召开。 2013年7月,“大数据时代统计学:机遇与挑战—中国统计学高端论坛”在上海财经大学举办。全国统计学专家学者齐聚一堂,共同探讨在大数据时代统计学面临的机遇与挑战。同年,第十七次全国统计科学讨论会在杭州举行,会议的主题是“大数据背景下的统计”。这是国内第一次研究大数据与统计工作的科学研讨会。11月19日,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议,共同在分享、开发、利用大数据方面进行合作,以推动促进大数据实现大价值,使之更好地服务于社会。这标志着在统计工作中应用大数据,已经从研究转向实操层面。 两朵细小浪花 从“喝醉的海盗”到斯诺登的“泄密” 舍恩伯格先生告诉我们这样一个故事:史黛西·施奈德最大的梦想是成为一名教师。2006年春天,她完成了自己的学业,并对未来充满期待。但她心仪的学校明确拒绝她,理由是她的行为与一名教师不相称,因为她的个人网页上有一张取名“喝醉的海盗”的照片。 照片里的她头戴一顶海盗帽子,举着塑料杯轻轻啜饮着。她曾将这张照片放在 MySpace并且取名为“喝醉的海盗”。这张照片她是给朋友看的,也许只是为了搞怪而已。但她实习的大学里,一位教师发现了这张照片,并上报给校方,校方认为网上的这张照片是不符合教师这个职业的,因为学生可能会因看到教师喝酒的照片而受到不良影响。于是,史黛西打算将这张照片从她的个人网页上删除。但是危害已经发生了:她的个人网页已被搜索引擎编录,而且,她的照片已经被网络爬虫程序存档了。 斯诺登披露的棱镜门事件更加清晰地揭示,当我们个人的行动乃至心动都融入浩瀚的大数据洪流,成为其中的一朵细小浪花后,一切已皆在掌握之中。 当人们揣着手机从一个地区到达另一个地区,马上会接到来自运营商的欢迎短信。而每一部手机都是名副其实的跟踪器和定位仪,可以精确锁定到某一座建筑物内。如果调查者和运营商联手,不用填写问卷,就可以既精准又及时地掌握所需要的信息。 当人们通过博客、微博、微信、飞信表达自己情感上的喜怒哀乐的时候,通过网上留言、跟帖表达自己对不同事物的态度和意愿的时候,通过关键词的输入搜索自己需要和感兴趣的结果时,不仅留下了不可磨灭的痕迹,也为后台的汇总与分析提供了最具基础性的依据。当人们坐在电脑前轻点鼠标、轻松完成一次又一次购物的时候,不仅切实感受到网购商品的物美价廉,还能享受到送货上门的方便和快捷。但与此同时,每一个网购者也不得不把自己的银行账号及其他相关信息,交给一双或几双看不见的手去掌握、控制和操作…… 尽管如此,人类社会毕竟还是要向前发展的,我们不可能再退回到没有网络、没有手机的年代。其实,即使倒退半个世纪,隐私安全问题也依然存在。因为我们毕竟要到银行存款,到医院看病,通过邮局寄信,通过单位电话或公用电话沟通。只是大数据时代的到来,使这个问题变得更加复杂和突出罢了。 在大数据时代保护个人隐私,既要靠技术,也要靠法律。技术层面,一是要防止不法分子侵入个人系统,盗取个人信息;二是要限制个人信息掌握者的权限,使每个层级的相关人员只能掌握有限的信息。更重要的是法律层面。生成、处理、分享和利用大数据,可以创造大量有价值的信息,服务于广大民众,服务于经济与社会发展。而从法律着眼,则既要为依法合理地搜集处理大数据信息提供保障,也要确保信息处理过程中个人隐私不被泄露、不被用于服务和统计以外的目的。因此,法律需要针对两方面情况作出相应的规定。 一种比较普遍的情况是,对很多自动生成的大数据信息进行搜集处理,可以生成很多有价值的统计信息。如通过对网上交易情况的处理,可以得出很多价格和交易方面的信息;对大量临床电子病历的处理,可以进行流行病学分析,并进行医学研究;对工资收入信息的汇总分析,可以为收入分配制度的调整提供有价值的依据……法律既要保障这些合法的开发利用,也要明确指出在此过程中个人和企业信息既不得向国家统计部门以外的任何第三方提供,也不得用来对个人和企业进行处罚,更不得对社会发布。法律要细化处罚条款,一旦发生上述情况,不仅必须承担法律责任,而且要付出一生付不起的代价。另一种比较特殊的情况则是,为了国家安全或查处犯罪行为,需要采取一些特殊手段,但这也必须在法律的框架内进行。在证据和理由充分的情况下,仅针对特定的目标,并经过必要的法律程序,等等。总之,尽快立法以适应大数据时代保护公民隐私的需要,不是未雨绸缪,而是迫在眉睫了。 应用与实践 电影搜索曲线与电影票房曲线高度相似 美国麻省理工学院承担的“十亿价格项目”,基于学术研究方法对全世界海量网上零售价格进行价格指数计算。每天实时收取50万条互联网上的商品信息,是美国政府统计收集的5倍。由于价格信息不是用访问数千座实体商店的传统方法获得,因此成本很低。“每日网上价格指数”每天更新,研究人员和政策制定者在官方统计数据发布之前就能够判断价格涨幅形势。该指数并非用于预测官方公布的通胀率,而是为判断通胀趋势提供实时信息。2008年9月美国雷曼倒闭时,“每日网上价格指数”很快显示出价格下降的趋势,而官方统计的CPI直到11月才显示出下降趋势。 联合国全球脉冲计划与Crimson Hexagon分析公司合作,分析了美国和印度尼西亚1400万Twitter用户中与食物、燃料和住房相关的数据,以更好地理解人们关注点。分析者以“负担”等为关键词,根据人们交谈主题和关键词数量的变动研究人们的行为特点。结果发现,印尼Twitter用户提到大米价格的数量变化与实际食品价格通胀指数(官方公布的数据)密切相关。 类似的例子还有很多。如2012年,谷歌的电影搜索曲线与电影票房曲线高度相似;巴西发生登革热时,谷歌关于该病的搜索曲线与该病实际发生的曲线也高度一致;社交平台推特上人们交流时的情绪变化曲线,与道琼斯股票的指数变化曲线高度相关,不知是情绪影响了股市,还是股市影响了情绪,或两者互为影响。 国内最典型的例子,就是马云的阿里巴巴集团推出的淘宝网络零售价格指数(简称淘宝ISPI)。在阿里巴巴公司的淘宝网上,许许多多的店主开了许许多多的网店,经营着各种各样的商品。于是,一个综合性的淘宝价格指数应运而生。采用淘宝商品小类目平均价格,权重是淘宝网支付宝成交金额的比例。结果显示,淘宝价格指数曲线与统计部门的商品零售价格指数曲线高度相似,但因为是实时的,所以淘宝曲线趋势的出现要早于统计部门的价格指数曲线。 随着大数据时代的到来,政府统计部门不再是唯一的海量数据的拥有者,互联网上每时每刻都生成着大量的交易和价格信息。你看还是不看,数据就在那里,用还是不用,数据总是越来越多。大数据是一场大变革。应对大数据带来的挑战,统计工作必须变革和创新。 春江水暖鸭先知,得大数据者得天下。在大数据与日俱增的情况下,必然有越来越多的大数据转化成统计数据,并在此过程中实现更大的社会价值。 作者:潘璠(国家统计局统计科学研究所所长)
    潘璠
    2014年06月18日