• 大数据
    世行专家:大数据征信不靠谱!那我们的大数据个人背调怎么办? 当然这个主要是针对金融来谈的,我们抛砖下,另外个人征信的8家试运行机构都没过关。。也就是个人征信牌照还是hold着在。。。   近年在中国,个人征信业务备受新兴互联网公司追捧,并创造出 “大数据征信” 的概念,比如供应链征信、小贷征信、互联网征信等名称五花八门。4月21日,在“个人信息保护与征信管理”国际研讨会上,多位外国征信行业的资深专家对此表示,“在国际上,并没有大数据征信这个概念,比如知名美国信用评分公司Fico在美国不会称自己是一家征信公司,更不会说是大数据征信公司,而是一家数据分析和风险管理服务公司;目前也没有任何人使用大数据用于征信。” 世界银行集团旗下国际金融公司(IFC)东亚及太平洋区金融基础设施技术援助负责人赖金昌对此强调。 欧洲个人信用信息服务商协会(ACCIS))主席Neil Munroe亦对此表示,目前协会的会员虽然对大数据也很关注,但尚无一家提供大数据的征信产品,“因为要确保这些大数据的准确性,以及是否符合征信行业的基本原则。” “坦白说,世界上只有在中国才看到利用大数据来开发信用评分的这种现象,”世界银行集团全球金融基础设施建设技术援助负责人Tony Lythgoe表示,利用大数据来开发信用评分产品前提是,首先要确保这个数据的准确性,包括数据模型的准确性以及这个模型运作的准确性,“但是从社交网络采集的这些信息是由个人提供的,很难保证数据是客观准确的。” Tony Lythgo 强调。 目前世界银行已帮助包括中国在内的全球几十个国家了建立征信体系,积累了丰富经验,同时也持续追踪或者参股一些具有创新技术的前沿公司。 Tony Lythgo同时指出,传统的征信机构有明确规范哪些数据可以使用,并适用于什么样用途。比如在美国,性别、宗教、血型等信息是不可以征集的,你也可以检查到它的确没有征集到这些信息。“但是大数据是一个黑箱操作,你不知道它到底征集的那些信息,你很难检查到它征集的哪些数据不能用。” “请谨慎使用 ‘征信’ 这个字眼,” 赖金昌在前述场合对此呼吁,“并不是大数据里面的数据都不能用于征信,只有少部分符合国务院的《征信业管理条例》的数据可以用,其基本要求是数据来源明确、客观、准确。” 征信信息使用范围有限 赖金昌介绍说,对征信市场的认识涉及两个基本框架,第一个框架是商业数据信息的使用范围。 这可以分成三个层次:第一个层次是最广的范围,是普通商用数据;其中包涵用于金融服务的数据,特别是用于信贷方面,这是第二个层次;第三个层次是征信数据,也是其中最窄的范围。 赖金昌用打车APP举例称,比如王小二从国贸到明珠饭店,该打车APP收集乘车人乘车习惯的数据,用来研究市民的日常行为,这属于普通的商用数据;事后王小二针对司机的行为表现,在打车App上给司机打了一个好评,该打车APP所在公司号称打造了一个出行司机的内部共享信用系统,用于该打车软件公司的内部监测与奖惩司机的依据,“但这个信用系统不是征信系统,是用于企业内部管理;这类信息也属于普通商用信息,即前述第一个范围的信息。” 此打车软件是从A移动通讯公司入网的,是先使用后付费,这是类信贷行为,因为这个移动公司是给了消费者一个先使用后付费的商业信用;A收集这些信息后,会把这些信息卖给一些小贷公司,后者可以根据该乘客的打车频率、用的是哪一种车等,以此推测借款人收入水平,这属于前述第二个层次的数据,是用于信贷的数据。“该数据收集行为是否合法,是另一问题,目前中国还没有数据保护法。” 移动公司也是征信体系的会员,有权利查询其客户的信息,它也须按照征信规则进行查询,查询目的是用来审核那些先使用后付费客户的入网申请,类似于查询一个信贷申请。那么A通信公司作为信贷机构,按照征信系统的要求,将通讯支付信息上传给征信机构,“不是上传所有的信息,只是按照统一的数据模板上传;这类数据就是属于征信数据,属于前述第三个层次。” 赖金昌强调。 谈到征信信息的适用范围,赖金昌表示,征信领域的信息即前述第三类信息的管理是最严格的,由于涉及金融领域的违约率,涉及钱的损失,所以对数据保护的要求更高。“所以征信收集的数据范围是非常有限的,其目的也是很有限的,它提供的服务仅限于征信系统的会员。” “征信机构的信息也是债务催收公司的第一大数据来源;第二个来源是从社会合法渠道购买。 ” 赖金昌介绍说,在国际上,这些催收公司属于高技术公司,债务催收可联系到的客户比例是20%到30%,所以必须有其他的数据来源,这还需要有一个正常的数据保护框架,以便于其合法取得其他的信息来源。” 征信机构有限 第二个框架是数据信息的适用规制。 赖金昌介绍说,征信机构提供大数据服务时也要遵循一系列法律,比如《合同法》、涉及金融业领域或医疗领域等要遵循数据保护方面的法律;还涉及个人数据保护、公平性等,“比如是否存在歧视你的数据主体?不该收集的东西你是不是收集了?。” 第一类信息即普通商用信息适用一般合同法,这也涉及隐私问题和数据安全问题,其专门法律是《个人数据保护法》。 第二类信息用于信贷类的金融服务,要遵守的规则除了前述条法,还涉及专门的金融消费者保护方面的规则,其监管机构可能是普通的隐私保护机构,也可能是金融监管机关。“从性质上来说,金融业的数据比大部分的普通商用数据要重要、严谨得多,因为金融机构要依赖这些数据提供金融服务,还有保护存款人利益的外部性因素、金融稳定因素等。” 赖金昌表示,根据国际经验,中国将来的征信市场可能分为A、B、C三类结构。A类是综合性全面征信机构,这类机构不可能存在太多,估计也就3家左右,包括人民银行征信中心。比如菲律宾的发征信市场,从最初的6家征信机构到目前剩下4家,预计将来还会整合成三家或两家。“征信行业主要是数据的汇合和整理,强调数据的全面性和准确性,市场规模有限。” 富国银行负责数据风险管理和中小企业信贷的高级副总裁王强曾称,目前美国的三大征信局Experian(益百利)、 Equifax(艾可菲)、 TransUnion(全联)加上FICO评分公司的总市值是约365亿美元。如果今天中国征信信息覆盖的人口像美国一样接近80%,通过征信使金融业务审查批准过程减少三个小时人工,据此推算,中国征信机构的市场价格应该是美国的一半左右。“即使和美国的市场价值一样,中国征信机构的市场价值也只有约350亿美元,不足一家手机服务商小米手机的市场估值。” B类机构是专业征信机构,专业征信机构从第一类全面的征信机构那里取得数据,再加上专业征信机构自身的专长数据,再加工之后卖给客户。专业征信机构指在某些领域有专长,比如保险领域、信用卡领域、零售信贷信贷等,实际上是帮助分销全面征信机构的数据产品。 C类机构是数据服务公司或风险管理服务商,C类机构客观上是帮助分销A和B类机构的产品,这种类型的数据公司可以有n多种,没有数量限制,他们应该符合相关法律要求。目前来中国还没有《个人数据保护法》或者《个人信息保护法》,对这一类机构也没有任何监管。 “用大数据来帮助放贷是没有问题的,但并非是大数据征信的概念;在美国的征信机构,有正常的征信业务,但除此之外也提供很多市场营销服务,为客户画像提供数据,帮助零售商能够更低成本的找到客户,但这并不是征信业务。” 赖金昌强调。 作者:张宇哲 来源:财新网
    大数据
    2017年04月24日
  • 大数据
    基于企业校招大数据,“小贤才”想从过程化服务切入招聘市场   来源:猎云网(微信:ilieyun)文/张雅楠 又是一年春招季,“企业招聘难”与“学生就业难”现象并存。据统计,全国招聘市场估值近千亿,其中校园招聘渠道价值在百亿以上,并且呈逐年增长的态势。因此,校园招聘也成为创业者所看好的市场。 针对大学生群体的招聘平台不在少数,如以实习为切入口的实习僧、实习狗、实习委员等实习招聘平台;以兼职为切入口的口袋兼职、001兼职网、兼果等兼职招聘平台。记者今天要介绍的“小贤才”则是以校园招聘过程化服务为切入口,基于校园招聘服务大数据应用,为学生、高校及企业提供精准匹配服务的校园招聘平台。 传统的校招模式仅体现在线下的招聘会和宣讲会层面,“小贤才”通过校园招聘过程化服务、移动互联技术应用,实现了对传统校招模式的突破。将原本每次校招“一对一”的重复工作方式,通过优化整合,形成“一企对多校、一生对多企、一校对多地”的工作模式,打通了校际之间的招聘信息孤岛,大大提高了企业校招的覆盖面,节约了企业校招的成本。 “小贤才”通过校园招聘大数据的应用,提供了学生能力、求职意愿与企业岗位需求的匹配度指数,实现了学生能力及求职需求与岗位需求的精准匹配,实时双向推送岗位和求职者,大幅度提高了校园招聘的实效性。 基于企业校招大数据,针对于专业需求、技术热点、岗位技术要求等进行数据分析,为高校提供实时数据报告,将数据应用反馈于教学,在招生规模、实践课程设置、实习实训、就业指导中贴近于企业需求,将学校就业工作前置。 合伙人杨林向猎云网介绍,大学生大多缺乏工作、求职经验,对简历的处理也略显粗糙与稚嫩,“小贤才”通过多样化的简历模板技术实现了简历制作、一键投递的功能。“小贤才”为学生用户提供定制化职业生涯规划和求职服务。平台通过专业的测评,为学生的职业能力、企业岗位需求进行分值量化,进行精准匹配。 “小贤才”将会为其提供职业分析报告,引导学生的职业技能提升方向。 信息匹配的精准度还取决于用户介入的多寡。杨林向我们透露, “小贤才”正式运营4个月,已注册学生已超过5万,入住企业7000+,介入高校18所。 随着入住企业数量的增长,平台对企业资质与招聘信息真实性的审核也越来越严格。“我们首先要确保企业真正有用人需求,然后对它的企业资质与岗位信息等进行审核,此外,还会参考企业的历史信用评价,对那些曾有过夸大宣传、虚假招聘、报名参会却爽约的企业会被列入平台的黑名单。” 对于下一阶段的规划,杨林透露,上半年希望可以对接投资机构,快速打通上下游产业链。在高校布局上,以山东为核心,辐射全国。“市面上同类平台大多集中在北上广地区,选择多、竞争大,我们的模式在山东已经得到验证,下一步扩张可能更倾向于西北、内蒙、东北等北方地区。” “小贤才”为鲁东大学的创业团队,隶属于山东新位来教育科技有限公司,公司成立于2016年7月,位于鲁东大学创业孵化基地。团队目前20余人,创始成员既有来自鲁东大学的教授、专家,又有曾任职于华为、腾讯、新浪等多家科技公司的技术和运营人员。执行总监杨林拥有10年工作经验,曾任职海信智能商用、海尔商用计算机与台湾的商业系统公司。 据了解,小贤才目前正在寻求天使融资,更偏向于资源型、战略型的投资机构。
    大数据
    2017年03月30日
  • 大数据
    2017年大数据发展的十大趋势预测 来源|199IT 编辑|陈光 网址|www.xtecher.com 微信公众号ID|Xtecher 2016年,近40%的公司开始或正在实施和扩展大数据技术应用,另有30%的公司计划在未来12个月内采用大数据技术。2016年NewVantage Partners的大数据管理调查发现,62.5%的公司现在至少有一个大数据项目投入生产,只有5.4%的公司没有大数据应用计划,或者是没有正在进行的大数据项目。 2017将会有越来越多的公司加速采用大数据技术。互联网数据中心(IDC)预测,到2020年大数据和分析技术市场,将从今年的1301亿美元增加至2030亿美元。“公司对数据可用性要求的提高,新一代技术的出现与发展,以及数据驱动决策带来的文化转变,都继续刺激着市场对大数据和分析技术服务的需求“,IDC副总裁Dan Vesset表示。 “2015年该市场全球收入为1,220亿美元,预计到2016年,这一数字将增长11.3%,并预计在2020年以11.7%的复合年增长率(CAGR)继续增长。” 虽然大数据市场将会继续增长这一点毋庸置疑,但企业应该如何应用大数据呢?目前还没有一个清楚的答案。新的大数据技术正在进入市场,而一些旧技术的使用还在继续增长。本文涵盖大数据未来发展的十大趋势,机器学习、预测分析、物联网和边缘计算等这些趋势都可能对2017年及以后的大数据市场产生极大影响。 一、开放源码 Apache 、Hadoop、Spark等开源应用程序已经在大数据领域占据了主导地位。 一项调查发现,预计到今年年底,近60%企业的Hadoop集群将投入生产。佛瑞斯特的研究显示,Hadoop的使用率正以每年32.9%的速度增长。专家表示,2017年许多企业将继续扩大他们的Hadoop和NoSQL技术应用,并寻找方法来提高处理大数据的速度。 二、内存技术 很多公司正试图加速大数据处理过程,它们采用的一项技术就是内存技术。在传统数据库中,数据存储在配备有硬盘驱动器或固态驱动器(SSD)的存储系统中。而现代内存技术将数据存储在RAM中,这样大大提高了数据存储的速度。佛瑞斯特研究的报告中预测,内存数据架构每年将增长29.2%。目前,有很多企业提供内存数据库技术,最著名的有SAP、IBM和Pivotal。 三、机器学习 随着大数据分析能力的不断提高,很多企业开始投资机器学习(ML)。机器学习是人工智能的一项分支,允许计算机在没有明确编码的情况下学习新事物。换句话说,就是分析大数据以得出结论。高德纳咨询公司(Gartner)称,机器学习是2017年十大战略技术趋势之一。它指出,当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。 四、预测分析 预测分析与机器学习密切相关,事实上ML系统通常为预测分析软件提供动力。在早期大数据分析中,企业通过审查他们的数据来发现过去发生了什么,后来他们开始使用分析工具来调查这些事情发生的原因。预测分析则更进一步,使用大数据分析预测未来会发生什么。普华永道(PwC)2016年调查显示,目前仅为29%的公司使用预测分析技术,这个数量并不多。同时,许多供应商最近都推出了预测分析工具。随着企业越来越意识到预测分析工具的强大功能,这一数字在未来几年可能会出现激增。 五、智能App 企业使用机器学习和AI技术的另一种方式是创建智能应用程序这些应用程序采用大数据分析技术来分析用户过往的行为,为用户提供个性化的服务。推荐引擎就是一个大家非常熟悉的例子。在2017年十大战略技术趋势列表中,高德纳公司把智能应用列在了第二位。高德纳公司副总裁大卫·希尔里(David Cearley)说:“未来10年,几乎每个app,每个应用程序和服务都将一定程度上应用AI。 六、智能安保 许多企业也将大数据分析纳入安全战略。企业的安全日志数据提供了以往未遂的网络攻击信息,企业可以利用这些数据来预测并防止未来可能发生的攻击,以减少攻击造成的损失。一些公司正将其安全信息和事件管理软件(SIEM)与大数据平台(如Hadoop)结合起来。还有一些公司选择向能够提供大数据分析能力产品的公司求助。 七、物联网 物联网也可能对大数据产生相当大的影响。根据IDC 2016年9月的报告,“31.4%的受访公司推出了物联网解决方案,另有43%希望在未来12个月内部署物联网解决方案。”随着这些新设备和应用程序上线,许多公司需要新的技术和系统,才能够处理和感知来自物联网的大量数据。 八、边缘计算 边缘计算是一种可以帮助公司处理物联网大数据的新技术。 在边缘计算中,大数据分析非常接近物联网设备和传感器,而不是数据中心或云。对于企业来说,这种方式的优点显而易见。因为在网络上流动的数据较少,可以提高网络性能并节省云计算成本。它还允许公司删除过期的和无价值的物联网数据,从而降低存储和基础架构成本。边缘计算还可以加快分析过程,使决策者能够更快地洞察情况并采取行动。 九、高新职业 对于IT工作者来说,大数据的发展意味着大数据技能人才的高需求。IDC称,“到2018年,美国将有181,000个深度分析岗位,是数据管理和数据解读相关技能岗位数量的五倍。” 由于人才缺口过大,罗伯特·哈夫技术公司预测,到2017年数据科学家的平均薪资将增长6.5%,年薪在116,000美元到163,500美元之间(当然这是美国的标准,中国国内目前尚未统计)。同样,明年大数据工程师的薪资也将增长5.8%,在135,000美元到196,000美元之间。 十、自助服务 由于聘请高级专家的成本过高,许多公司开始转向数据分析工具。 IDC先前预测,“视觉数据发现工具的增长速度将比其他商业智能(BI)市场快2.5倍,到2018年,所有企业都将投资终端用户自助服务。 一些大数据供应商已经推出了具有“自助服务”能力的大数据分析工具,专家预计这种趋势将持续到2017年及以后。数据分析过程中,信息技术的参与将越来越少,大数据分析将越来越多地融入到所有部门工作人员的工作方式之中。
    大数据
    2017年01月03日
  • 大数据
    大数据的创业时机到了吗? 编者按:本文首发于微信公众号“蓝驰创投”(ID:lanchichuangtou), 如需转载请联系微信公共号“蓝驰创投”,相关BP请发至邮箱:china@brv.com.cn 在蓝驰大数据论坛上,蓝驰创投合伙人朱天宇就大数据创业进行发表了演讲。以下为PPT内容和现场演讲实录: 我的题目是大数据的创业时机到了吗?有很多人说,现在大家都在谈人工智能了,都在谈机器人了,都在谈AR/VR了,你怎么还谈大数据呢,好像这个概念上不是最先进的。我其实想留这个问题给大家。 我们今天讲三个部分: 第一是时机,在座的都是很多创业者,一定相信也知道,时机是很多创业里最关键的一个因素。 第二,在应对大数据创业领域可能面临的挑战方面的思考。 第三,蓝驰已经在做的布局和思考以及看重的创业机会。 其实说到大数据行业的创业时机,最基本的是两个方面,第一,行业内部内生的一些需求,第二,政策的拉动。这两方面都构成了我们认为目前大数据创业这个时机已经呼之欲出的一个原因。 首先说行业内部自己的需求,其实说大数据创业首先要说到企业服务。中国过去这么十年、十五年以来,消费者,就是以互联网为代表的消费互联网服务已经如火如荼这么多年,现在大家说红利已经差不多了。 企业服务的春天到了 大家为什么在讨论,可能过去半年都在讨论企业服务的春天到了。春天到了的原因是大数据行业的创业时机会比以前无论是在需求还是在赚钱的可能性更高。 我们都知道,中国过去二三十年改革过来,每个行业效率递进,其实在大部分行业,除了我们比较熟悉的互联网行业,它是做到了精细化。大部分经济体内大部分行业的效率依然还是比较粗放,精细化运作依然是缺少的。 很大的原因是说,在中国经济体有很多行业的龙头企业,比如超大型国企,一些国资委管理的企业,它们本身对于效率的追求是不够的。这些行业的龙头企业对于效率追求的动力的不足导致了在每个行业链条的企业没有把效率作为企业发展的核心目标。 所以导致这里我们看到身边很多企业都是以关系寻租型在做生意,而不是追求精细化运作。当然我相信这么多年改革其实有很多的私营企业,其实在这方面已经做的非常好了。但是我们必须看到这个经济体里的成分依然有大量的在体验上的洼地,在效益上的洼地。所以这是目前大数据我们看到的一个春天。 因为在接下来的执政周期来看,从供给侧的提法来看,其实本届政府对于企业在效率方面提升所创造的红利是非常关注的。所以那些龙头的国企已经受到很大的压力,这个压力会不会传到中下游的中小企业身上?这样会不会让更多成本效率型企业跑出来? 当它们关注成本效率的时候,我们作为企业服务,给它提供削减成本,忧虑消化的模式,这个工具和服务是不是会比以前卖的更好?所以这是我们看到春天来的一个最大的动因。这个动因根本首先它是一个政治问题,而不是经济问题。 企业洼地率先成为大数据的沉积地 我看到信息化的企业洼地率先成为大数据的沉积地。这是什么意思?我们看到本届政府提到大数据作为国策之一,国务院也发布了很多大数据发展纲要。但是中国政府提的大数据里,其实它的含义本身是信息化的问题。因为很多企业信息化还没有达到,在这里有很多洼地。 先不要提大数据,先把企业是不是真正按照数据的方式进行驱动的经营管理以及企业流程业务生产系统当中业务流程当中那些数字是不是能真的抓出来、真正把这些数据拿去做效率优化的改进作为一个关注点,但答案是并没有。 这些空白实际上也是我们创业公司的机会,就是说大数据创业的起点很大程度上从信息化开始的,但是只做信息化肯定是远远不够的,后面会讲到每个层级的递进。虽然我们从信息化洼地开始,但是它们会率先成为大数据的沉积地。像医院的病例数据并没有得到很好的处理,但是现在如果有很好的技术我们把它抓起来,形成医学大脑,这个速度可能会比其他行业大数据业务发展的还要快。 什么是跨越式发展?这类似于中国九十年代开始去重新布线程控电话,但是当时美国的电话资产已经积累了很多年,其实程控电话发展比美国还要快,就是直接跳过了一代技术直接往后。我们发现这就是在行业机会上的判断。 我们发现在有些行业上,如果那个行业真的非常落后,甚至我们可能用很创新的技术,颠覆性的直接把这个行业的机会拿下,比别人走的更快,比别人拿的数据更多。这是我看到目前行业内生需求的几个特征。 另外,政策是从自下而上的一个需求。刚才提到了大数据的潜台词是信息化,但很多地方还没有做好。为什么出大数据纲要,其实我们与很多在座的创业者都有交流和探讨,真正国内的大数据要真正走到大数据层面还有很长的路,但是我们先从信息化开始。 这里包括后面会提到的2015年的《大数据发展纲要》,但是它强调的是政府间的数据共享。这里存在着巨大的空间。还有为什么把数据放到这么高的高度,因为这是国家竞争力的战略制高点。 《奇点临近》描绘到,当人工智能逐步成熟,当所有的经济体的业务都根植于数字化之上,数据产生之大、之先进、之高都有可能会严重的改变原有的政治、军事,甚至经济的格局。这块有一个推论是数据会比我们现在看到的石油、货币更重要,是更致命的战略资源。我们政府其实也很清晰地认识到,说我们现在如果不去培植这方面的经济成分的话,我们从数据获取这块就有可能落后。 过去WTO刚刚入世的时候大家讨论我们的猪肉、大豆都被外资控制,我们的物价会不会也控制?其实我们可以做这样的类比,当我们的数据也没有自己很好的掌握的话,这块的战略要地其实也是在政治层面非常关键的一个制高点。 所以从这个角度来讲,可以毋庸置疑,本届政府对这个事的重视。一旦国策在推进的时候,其实地方上都会有相应的结构配合支持。我们看到这些政策推动的时候,我们看到一些关键数据源的开放。国务院首先自上而下有这样一个行动纲要,接下来它推进的就是中央部位,科研机构,国企等等各方面都要做数据共享。我们已经接触到很多创业公司已经跟工商、税务、三会一行、公安部、能源等等全部在做数据业务的开放性的尝试。 大家都知道贵州大数据会议、贵州省政府,包括今天也有过来的清华大数据研究院,它们整合了各个院系相关的研究形成一个整体,要统筹在大数据方面的拓展。2015年气象局出台了《气象信息服务管理办法》,首次把气象数据开放出来。商业气象服务本身也是一个很大的市场,在国外也是很成熟的市场,航空、航海等等都需要。 当这些数据出来的时候就是创业者最好的机会。创业机会最关键的点就是在别人没有看到的时候你就能看到,你就能扑进去做起来,而且做的比别人好。所以我们看到在行业需求和政策两方面自下而上,自下而上都在拉动这个行业走。 大数据创业里头我们可能遇到的挑战 接下来想分享一下在大数据创业里头我们可能遇到的挑战,因为看到机会只是刚刚开始。 首先我们看到三个层次的挑战,我们经常说做大数据创业首先解决数据冷启动的问题。我们说从0到1创业维艰。但是在大数据创业来讲不光是从O到2,而是从负1到0的问题,这就是我说的数据冷启动的问题。 因为没有数据,拿不到数据,大数据创业、大数据价值创造从何而来呢?举个例子,像去哪儿的庄成超,在他创业早期的时候,我们之间是有一些比较掏心窝的对话。他说,我觉得我这个选择的方向是不是太苦了?去哪儿开始跟中航信合作,它其实是中国的GTS的核心,里面有大量的清华、北大的博士。但是它作为国企没有动力真正把这个事情做好。所以当去哪儿想做一个搜索引擎的时候,发现搜索引擎核心的基础,就是中航信这样的基础做的非常之差。去哪儿还要帮它打补丁,打了很多补丁之后,啃了很多硬骨头之后,去哪儿才有可能把机票的信息顺利地接到自己的搜索引擎上,开始利用这个行业的数据去做它想去做的业务。 再往前推,像大家看到的很多在线支付行业起步的时候,快捷虽然想复制Paypal,但是做半年、一年才发现,在中国首先要做的事情是帮银行补课。而这个在美国市场,在五六十年代已经开始逐步的电子化、信息化,到八十年代信息化已经非常成熟了,到了九十年代互联网一上来立刻互联网化效率很快的提升,再往后移动互联网。 而在中国会发现,这几个阶段可能要两三步并做一步去走。这种超常的跨越式发展,一方面对于创业者挑战非常大,但是一方面对大家来讲也是机会。如果你识别出这样的空白,识别出这样超常跨越式机会,你就会站到这个行业的潮头。我们说数据冷启动往往被迫从信息化开始,要被迫做非常苦、非常累的活,才有可能拿到数据,才能开始数据炼金的路。 有了数据怎么赚钱? 接下来有了数据,你怎么赚钱?有了数据就能赚到钱了吗?其实并不如此。这里很关键的点,就是怎么理解行业客户的应用场景。因为数据本身并不是能产生价值,你能给客户解决问题才能产生价值,而用户的真实需求在在哪里呢?在一线工作人员和部门的老总,和公司的老总需求是一样的吗,他们的需求都能说出来吗?说不出来或者能说出来但是又不想说。能把这些话套出来,才是把真实的需求套出来。 因为这跟做消费者、跟to C的业务不一样,to B面临的不是一个消费者,消费者简单,你把体验做到极致就搞定了,但是面对一个企业的时候克服的挑战更多。再加上,这里提到的商业产品思维。之前我们说产品经理,互联网思维其实都很简单,作为研究美食的产品经理要先把用户弄明白。 但是互联网行业配合了大量的商业产品经理,关键的是你拿到数据和需求之后能不能将其变成好的产品呈现出来,给企业一个很好的体验,或者给企业一个愿意买单的机会,这里理解行业应用场景,甚至比数据冷启动更难的一件事情。我们觉得在金融、安全、物联网、农业、物流等行业上可能率先会有比较典型的应用场景。 有了场景,有了商业产品和服务之后,再上一层楼,我们的收费模式是怎样的?对于企业服务而言的话,是按项目收费,还是按服务量收费?大家比较熟悉的是按项目收费,我提供一个数据服务,像SaaS一样,你付我多少钱。但是这是大数据商业模式的真正本质吗?我们这里关注的是能不能按服务量收费? 就是你手里有很多数据和工具,用户在你这里跑一次,你能不能吐出一些给企业有用的结果,能够创造一些新的价值的结果,能有一些让他不得不花钱买单的结果,这个可能是一次数字的检验,也可能像授信、征信的核查一下,或者是一个问题的搜索。当按服务量收费的时候,这个模式的收费能力和按项目收费的能力会完全不一样,而且这才真正体现了我们拿到了一个有价值的大数据的收费服务。所以在这块也是我们进一步的一个挑战和思考。 说了这么多创业的机会,我觉得刚才那三个层次是针对每一个创业者可能都要去思考的问题,但是对于投资者来讲,我们肯定是在众多的创业项目当中去挑选我们认为可能成长性最好,最有价值的公司。 这里也想跟大家分享一个角度,我们是怎么去看这个赛道,我们之前经常说独角兽,但是最近这个词大家都慎用,独角兽甚至变成一个负面的词汇了。所以我们谈最顶级创业机会在哪儿?我引入一个词,定价权。什么是定价权?说白了,就是你说卖多少钱就是多少钱,人家还得买你的。定价权并不是代表你定价,而是企业针对的客户和上下游的溢价能力是什么,而且这种议价能力是不可替代的,你怎么达到这样的程度。当你达到这种程度的时候,你一定会成为众多投资者争相追捧的。 回到大数据这个赛道上,真正能够拥有强定价权的商业模式有什么样的特征呢?我这里讲两个方面,因为数据的生意说到底就是两件事:一个是卖数据的,一个是卖数据服务的。对于卖数据这块来讲,数据源的质量、数量、覆盖率都很关键,因为要真正大。 很多创业者说我这儿搜集了几百万用户的兴趣标签,说大数据。其实这个从技术上我们经常会有一些标准,数据到什么程度才是真正有价值的数据源,每个人都有判断出来。当然除此之外,还包括数据实时更新程度,这决定了你的数据源是静态的还是动态的。 你怎么获取动态的数据源?你跟你数据上游建立什么样的关系,才能保证数据源不仅仅是静态的,不仅仅是现有的质量和数量,而且是动态的,能不断滚动、发展,在质量、数量上能不断滚动发展的。在数据分析能力这块,我们大家都比较熟悉的统计分析,把这个数据拉过来,做一个图表,再高级一点的可以做交叉分析,可视化。 但是统计只是数据应用最基础的层面。再往上大家现在也看到了很多模式事业的,把这个数据拉过来做几个模型,给我预警。像医疗影像,可能符合早期癌症判断的话就预警了。或者征信里有一些规则,这个人用户的数据一跑就报警了,这个身不能授信,这个是识别。 这与统计模式上可能高级一点。但是这还是中级阶段。我觉得更往上的是能够做预测,对未来即将发生的和还没有意识到的一些问题做预测。我们的创业者在自己的核心竞争力打造上到底是朝向哪个级别去努力的?你的数据源到底是在这些维度上能达到什么程度?这可能都是我们会去关注的。你达到什么样的阶段才可能达到皇冠上的宝石,这个赛道上最肥的一块肉,这可能是大家需要思考的问题。 这里简单跟大家说一下数据源,例如现在看到的国家行业与公信力层级的数据如身份、征信、房产、车产等等。这里想重点说一下企业实体和用户实体。用户实体大家都比较理解,但是之前说了那么多年用户行为,这个产生的价值并不多,因为数据维度还是不够多。像提到的时间和空间数据是我们之前在用户数据上还缺失的地方。时间和空间的数据在谁那儿,哪儿有那样的数据,而且还是实时更新的。 这里讲一下企业的实体数据,如果把企业看成一个用户的话,它是什么性格的人,什么特征的人,我们怎么用这个角度去识别一个企业?因为今后很多的企业是要对人和企业做判断,它的行为数据能不能衡量出来?它的数据可能在各个方面,比如在企业自己的价值创造的每个环节:从研发到生产,到客服,也可能跟上下游供应商,包括跟它所有的利益合作方,像工商、税务、信贷等等。以及它的内部,它怎么对待员工,怎么跟员工互动?甚至包括办公室的水电消耗。其实这些都有可能刻画出企业的形象数据,但是不限于此。但是想导入一个概念,就是针对企业的行为数据,它可能是什么样的数据源,我们要开拓我们的思路。 至于在数据分析这块我就简单过一下,比技术更重要的还是场景。对行业场景的熟悉程度更决定了你在大数据服务这块建构的能力。技术方面挑战我就不说了,这就是数据冷启动的层面。想提醒大家的就是说在大数据创业的这条路上,我们是不是已经意识到我们建构的核心壁垒在什么地方?如果我们要突破的那些方向还没有达到这些技术和数据源挑战的时候,可能我们的思考和执行还都没有进入大数据创业的深水区。而真正皇冠上的宝石,真正最肥的肉其实都在这里。 总结一下,回答我们这次演讲的问题:大数据创业的时机到了吗?我想答案大家心里都有数了。但是我想强调的是抓住大数据,就是抓住下一个创新周期的七寸。为什么?很多人说人工智能,但实际上在中国这个市场,我觉得首先还是要从最底层的数据源的角度。就像刚才说的要先从信息化洼地抓起,而且抓到大数据就是在未来人工智能的赛道上做布局。因为你在做数据,人工智能也是场景的积累,同时在这个过程中也在积累技术,而且是真正有实效的技术。 所以对我们来讲,抓大数据不是那么性感的一个词,但是实际上这恰恰是我们基金作为面向未来的思考,也是我们希望跟创业者去沟通分享交流的一个关键词。 分享总结 刚才我也提到了我们今天的论坛的目标是让没有来的听众后悔。我这儿有三个关键词,如果能把这个关键词带走,就能让没有来的听众后悔。 第一,从负1到0,就是刚才说的数据冷启动的问题。每一个关键词背后其实是问题,并不是关键词。当你想到负1到0的时候你要问自己哪些问题。 第二,场景。不光是数据问题,你对场景熟悉到什么程度,你对客户需求到底了解到什么程度,才有可能真正建立自己的产品和商业模式,并且赚到钱。 第三,定价权。这三个关键词是针对不同阶段的创业者。从负1到0是刚起步的创业者当下要关注的,对于已经上路的同志来讲,场景是不是你之前忽略的,你有没有更好的方式去获得更有洞察力场景的知识。对于想更上一层楼的创业者,脑子里要想的是定级权,背后要问自己哪些问题,怎么样获得你强有力的数据源,怎么样建构你技术的壁垒,怎么样真正提供一个好的产品服务,让别人只能到你这儿来买单。 作者简介: 朱天宇于2009年加入蓝驰创投中国办公室,他拥有超过十年的创业投资,业务拓展和管理咨询经验,他关注的方向包括互联网、移动互联网、新媒体、电子商务等,他主导了对美丽说,唱吧,趣分期的首轮投资。
    大数据
    2016年09月28日
  • 大数据
    在大数据时代,每家公司都要有大数据部门吗? 本文作者:桑文锋,神策数据创始人&CEO,前百度大数据部技术经理;神策数据(Sensors Data)是一家专业的大数据分析服务公司,致力于通过大数据技术帮助客户实现数据驱动,提升用户体验。   如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些?   事实上每一种重大技术的出现,都会对产业产生大的变化。在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加上蒸汽机,再也不需要靠风才能航海了。在电气时代,电灯代替了蜡烛,电报代替了快马送信,而报纸也被广播和电视所侵蚀。   可以说是现有产业加上新技术,形成了新产业。   我们回过头来看这两次工业革命,生产蒸汽机的企业只有少量几家,而发电的企业在美国也只有通用电气和西屋电气。并不是每家企业都要从事这些基础设施的研发和生产,更多的是对新技术加以应用,发挥新技术带来的价值。   在 IT 领域,软件刚出来时,可以说是计算和存储完全混杂在一起。有人尝试将计算硬件进行分离,歪打正着成就了 Intel。有人尝试将存储系统分离,因而有了 Oracle。   Intel 和 Oracle 固然伟大,但它们的价值更多的还在于有广大的企业采用了这些新的技术,在具体的行业中,产生了更大的价值。   同样,云计算这种理念固然是好,但如果每家企业都建立自己的云计算中心,从资金和人力投入上,一定是不划算的,更严重的问题是做不到最优。相反,有了 AWS 和阿里云这样的云计算提供商,让中小企业更便捷的进行创新应用。   回到题目中的问题,在大数据时代,每家公司都要有自己的大数据部门吗?结论也不能下的太武断。   早在 2008 年,云计算的概念刚刚兴起,百度内部出现了两拨势力。一拨要从零开始打造自己的大数据底层技术,把 MapReduce、GFS、BigTable 这些组件都要实现一遍,结果花了两三年时间,也没能稳定运行。   而另外一拨势力,直接采纳开源的 Hadoop 生态,很快在公司内应用起来。而我当时做的日志统计平台,也是采用了 Hadoop。但百度的数据规模毕竟太大了,所需的集群规模,开源版本根本撑不住,于是不得不改写 Hadoop,这样就和开源的版本渐行渐远,等到后来再也合不到一起了。   曾经有一年多的时间,我们部门新设计和实现底层的存储及计算系统,结果发现开源的版本也差不多实现到了同样效果。虽然许多内部的人觉得我们怎么总重复造轮子,但我明白还是需求使然,你面临的需求相对领先,但也没有领先到像 Google 那样提早 5 年。   但对于小公司来说,则完全没必要从零开始做,还是要尽量用开源的产品。   整个 Hadoop 生态,要比我 2008 年刚用的时候,要成熟很多。那个时候我们去拿开源的版本,编译部署,一个新手可能两周都不一定能正常的运转起来。而现在下载一个 Cloudera 发行版,两个小时就可以正常跑任务了。   与此同时,又面临了新的问题,因为大数据平台牵涉到数据的采集、传输、建模存储、查询分析、可视化等多个环节,而开源领域只是一些组件,于是各家公司都在纷纷打造自己的大数据平台,这就像 Oracle 之前,各家都在打造自己的存储系统。这显然不是一件性价比高的事情。   有市场需求,就会有满足相应需求的公司诞生,于是就诞生了一堆提供大数据服务的公司。   由于这一新领域还处于早期,这些创业公司所能提供的服务并不会特别的完善,要么是以项目制的方式运转,要么是提供专门应用场景的服务。   这样,对于一些企业来说,这些创业公司提供的服务,似乎自己也能实现,那何不干脆自己做?   这创业一年多以来,我看到了太多的公司在打造自己的数据平台,但做的还不够完善。不管是技术实力还是人力投入上,都有点力不从心。如果选用了这些第三方数据服务,那岂不饭碗被抢了?   可我要说的是,饭碗早晚都会被抢,只是时间早晚的问题。这里只需要问一个问题:我所做的数据平台,是不是其他公司也是类似的需求?如果是的话,那肯定也有其他公司做着类似的事情,做的东西会大同小异。   那么,就会出现专门的公司,来解决这种通用的需求。因为这些公司专注于解决这一块问题,所以会更加专业,并且舍得投入。而对于需求公司来说,除非自己转型去专门做大数据平台,不然在投入上,肯定不是一件性价比很高的事情。与其如此,不如及早侧重于自己的核心业务,关注应用需求本身。   那对于企业来说,在大数据时代,应该怎么做呢?我的建议是三点:   首先,要拥抱大数据技术。 新的重大技术出现,都带有颠覆性。一不小心,就会被革命。但也不是说企业已有的业务不用搞了,都来搞大数据吧。   在大数据这件事上,还是要从需求出发,而不是从大数据出发。   有人会问我,我有了一些数据,给我讲讲怎么能发挥更大的价值。坦率来说,许多时候不了解业务场景,很难提出建设性的意见的。   相反,我们要先看在企业满足客户需求的时候,还有哪些重大问题没有解决好,如果采用了大数据技术,是不是可以更好的解决?如果有这样的点,那非常好,就勇于去尝试。如果没有,那就继续学习大数据的知识,再等待这样的场景出现。   其次,企业要有懂大数据的人。 这种人不一定是全职的,但至少是可以将企业的业务和大数据技术结合起来的人。这种人不一定对大数据技术本身很懂,但善于使用新技术。 如果企业现在还没有,并且还没招到。可以去培养一个头脑灵活,乐于学习新技术的人。如果抛开大数据系统的实现挑战,理解大数据的应用场景,那难度会降低不少。   最后,要善于利用第三方服务。 能用第三方服务解决的,就尽快去尝试。在竞争激烈的情况下,通过采用新技术,获得技术红利,跑的更快。就像爱迪生当年发明白炽灯后,那些更早将白炽灯用于工厂的企业家,更有可能提升工人的工作效率。   这篇文章的内容,主要参考了吴军的新书《智能时代》。对大数据和机器智能感兴趣的读者,强烈推荐这本书。
    大数据
    2016年09月19日
  • 大数据
    企业软件供应商 SAP 将收购大数据初创企业 Altiscale,交易金额预计超 1.25 亿美元 企业软件供应商 SAP 将收购大数据初创企业 Altiscale,收购金额预计超过 1.25 亿美元。收购细节消息预计将在未来几周内正式公布。   Altiscale 创立于 2012 年,总部位于加利福尼亚州,是一家 Hadoop 云服务模式(HaaS)供应商,致力于为 Hadoop 开源软件提供一个云端版本,用于存储、处理和分析不同种类的数据。Altiscale 希望通过这种将 Hadoop 服务推向云端的方式,降低 Hadoop 的抽象性与复杂性,为工程师搭建一个完整的 Hadoop 环境,让用户可以更专注于他们的数据与应用。   Altiscale 的竞争对手包括大数据 DaaS 服务供应商 Qubole 和 HaaS 服务供应商 Xplenty,除此之外,公共云基础设施供应商 Amazon Web Services 也提供 Hadoop 服务。为了提高竞争力,Altiscale 不仅提供 Hadoop 云服务,还提供 Apache Spark 云服务(一种更快、更现代的 Hadoop 替代品)。   SAP 一直在采取措施来增强公司云软件产品组合,本次收购可谓是让 SAP 收获了一家最知名的 HaaS 服务供应商。Altiscale 的联合创始人兼 CEO Raymie Stata,之前创立的公司 Stata Labs(基于搜索的邮件客户端软件 Bloomba 和反病毒过滤软件 SAProxy 开发商)在 2004 年 10 月被雅虎收购。之后一直到 2011 年 10 月,Stata 一直在雅虎内部负责 Hadoop 软件部署工作。Stata 及他的团队工作经验对 SAP 来说意义深远,因为 SAP 的竞争对手 IBM 和微软都非常注重云数据服务,而本次收购将大大提升 SAP 在云服务上的竞争力。   Altiscale 自创立至今,获得融资总额为 4200 万美元,投资者包括 Accel Partners、 AME Cloud Ventures 和 Northgate 等。公司现有员工数量 90 人左右,客户包括 Devicescape、 Glu Mobile、 MarketShare 和 ShareThis。   本文来自翻译:venturebeat.com
    大数据
    2016年08月29日
  • 大数据
    企业成长平台 Powerlinx 获 700 万美元 A 轮融资,利用大数据帮企业寻找合作伙伴 研究表明,85% 的公司高层管理人员认为战略性合作伙伴关系对于企业成长至关重要,57% 的人每年大约花费 10 万美元寻找合作伙伴,74 %的人希望通过自动化解决方案寻找合作伙伴。为了解决这一行业痛点,Powerlinx 利用大数据及前沿技术,帮助企业寻找合作伙伴。   7 月 27 日,企业成长平台供应商 Powerlinx 宣布完成 700 万美元 A 轮融资,由公司创始人和其他战略投资者共同领投,包括法国企业信息服务巨头 Altares D&B。公司计划利用本次融资进一步拓展全球性业务,扩大公司规模。   Powerlinx 创立于 2012 年,总部位于纽约,致力于为企业提供一个独特的成长平台,帮助企业寻找新兴市场、发展机遇、战略合作伙伴关系及其他合作机会。Powerlinx 改变了耗时耗力的传统战略合作过程,降低了合作门槛。在此之前,企业合作领域通常是局限在大企业之间,只有行业巨头才能获得与所谓的精英银行及咨询公司进行合作的机会,且相关咨询服务的费用较高。   Powerlinx 平台采用专有的推荐引擎,根据决定合作关系成败的定量及定性数据,包括共同目标、业务特点以及同过去合作伙伴的表现等,将企业与数据库中的 5200 万个企业进行配对,并对其成功几率进行预测。企业可以利用的合作机会包括:整合供应链协议、合资企业合作伙伴关系、并购、技术协议和资本项目等。   此外,Powerlinx 还会为每一个公司、企业所有者及企业家提供战略增长见解。   今年三月份,Powerlinx 推出了平台测试版,并为企业提供订购服务。目前公司用户群已经覆盖了超过165 个国家,近 5 万家企业。   本文来自翻译:www.vcnewsdaily.com
    大数据
    2016年07月29日
  • 大数据
    印度大数据公司Sagacito为企业提供决策依据,据说这个市场有23亿美元 根据NASSCOM预测,印度的数据分析市场将在2017-2018年达到23亿美元。而在最近的6年间,印度众多数据分析初创公司已经吸引了2.5亿美元的投资。近日,印度大数据分析公司Sagacito宣布获得了传媒大亨默多克旗下21世纪福克斯公司的子公司Star India的1000万美元的天使投资,其中Star India用100万美元获取10%的Sagacito股权,820万则被用来购买未来5年Sagacito服务的使用权。   Sagacito于今年3月在印度首都新德里成立,创始人Ravi Dhariwal和Arunabh Das Sharma曾为印度另一媒体集团Bennett, Coleman & Co. Ltd(BBCL)高管。Sagacito将会是一家基于云计算,主打移动端的企业方案解决公司,目标是通过数据分析处理和云计算技术,帮助企业做出科学的决策,从而实现市场份额和营业收益的最大化。   对于所有企业来说,最重要的决定无非是如何定价和提供怎样的产品。此外,对于一些无法实现技术更新的企业来说,如何削减成本也是令人头疼的问题,只有削减成本才有可能获得更多的利润,生存下去。Sharma认为,他们目前在做的事情便是尝试为企业的现实问题找到合适的解决方案。   Dhariwa表示,他们的分析工具将研究企业线上、线下的交易数据,可供企业所有的部门使用,从而让企业更好地进行决策。因为两位创始人的媒体背景,Sagacito将首先在媒体领域寻求发展,之后再向医疗保健、物流运输、酒店消费等领域拓展。   关于此次投资,Star India的业务负责人Prateek Garg表示,大数据分析也是Star India今后重点发展领域之一, Sagacito是他们的这种追求合作伙伴,此次投资也将帮助Sagacito加速增长。今年6月,Star India的董事会主席兼CEO Uday Shankar宣布今后3年的50亿美元印度境内投资计划。   本文参考信息来源:yourstory.com,
    大数据
    2016年07月28日
  • 大数据
    大数据服务还是那个大数据服务吗? 编者按:本文来源微信公号“智能研究所”(ID:HCR-TMT),作者慧辰资讯TMT研究部-张凤。 目前“人工智能”无疑是最流行的词之一,“大数据”是自2012年以来的流行词之一,现在大大小小的企业服务、论坛上都充斥着有关大数据、人工智能的内容,那么人工智能+大数据的生态模式究竟是怎样的? 2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲不好说不准工作都没了。现在大数据挖掘的技术都很成熟,更完善更系统的解决方案早已有人做得非常好。如果连数据都还没有,那就什么都不用提了。毕竟,人工智能+大数据的生态模式已经开启。 7月初,据外媒福布斯报道百度将人工智能+大数据为中国政府采集数据提供支持。7月13日,李彦宏在百度的开放云战略发布会上首度公开百度开放云“人工智能、大数据和云计算”三位一体的发展战略。为什么谷歌和百度都在人工智能领域重金发力?2015年百度投入研发创新的资金占公司总营收的16%。谷歌就不用说了,在量子计算这样离实现还遥不可及的技术上都已经投入很多研发资金。因为互联网未来向智能+发展的基础是数据。有数,有趋向完整的海量数据是现在所有巨头在布局人工智能+大数据生态模式的重点。 数据获取的最新模式:众包 众包是一种整合资源提升效率的方式,通过众包可以在集合海量数据中,筛选符合一定标准的有效数据,能够降低数据收集的成本,提高机器学习训练的效率。有个生物学家叫戴维•休斯(David Hughes),他和作物流行病学家马塞尔•萨拉斯(Marcel Salathé)将机器视觉技术和深度学习算法应用于农业病虫害智能防治上。他们将关于植物叶子的5万多张照片导入计算机,并运行相应的深度学习算法,针对在明亮的光线条件及合乎标准的背景下拍摄出植物的照片,最终程序正确识别率高达99.35%。如果在互联网上随机选取的植物叶子照片,其识别准确率将降至30%-40%,这也是目前视觉识别技术在复杂环境下尚未突破的地方。为了突破算法的限制,提高准确率,休斯和萨拉斯开发手机应用Plant Village,让世界各地的农民通过Plant Village上传患病作物照片,其中包含照片如何拍摄、拍摄地点、年份等大量数据,并包含农业专家对此做出相应诊断的信息。这种方式出现之后,数据获取的难度依旧聚焦在多维度数据资源的聚合,众包可以解决从分散的个体获取目标数据的问题,但对于基础数据资源层的扩张和占领依然是一场没有硝烟的砸钱战斗。 数多了怎么办:智能计算 有些人在努力获取数据,有些人在为数据多而未能充分利用而焦虑。 数据量级达到一定程度,再利用数据优化服务需要人工智能算法。随着企业数据量的积累,挖掘数据提高效率变成了必需。比如商业应用中打车平台的应用,国内平台滴滴与快滴合并之后,业务线从出租车扩张到专车、顺风车、公交等领域,数据范围猛增,数据量包含司机行为数据、顾客行为数据及各种路线数据、实时交通情况数据,定位数据等,据滴滴官方公布,滴滴出行每天处理的数据量达到70TB,由于订单处理响应时间的要求,单纯处理数据的效率已无法满足实时服务的需求,必须借助人工智能算法才能够进一步提升服务效果。从用户体验角度,也需要实现提升定位精准度,提高接单率,缩短应答时间。目前滴滴内部基于海量数据+机器学习算法的推荐匹配系统,针对海量司机的交班时间、地点、接单/拒单情况等海量数据进行司机画像,以此为基础,针对实时的订单数据,分配订单时实时按需分配,满足服务需求。从数据应用展现更宏观价值的角度来看,基于滴滴已有数据,可整合实时交通情况数据,包括拥堵路段、集中路线、集中商圈等多维度动态数据,进行结构化处理,达到整合一个城市的车辆分布,实现统筹平衡调度的目的。 大数据服务的现在及未来:智能+生态模式 未来人工智能+大数据生态模式将更多的应用于在商业场景下。我们认为,大数据服务未来将有以下四种模式: 一是形成数据资源和计算资源提供平台。当前企业数据大多仅留存于企业内部,在开发应用上一般也只有内部应用,企业之间数据各自孤立,独立计算,行业内尚未形成整合大数据,目前第三方数据采集、监测机构已经开始致力于多维数据的采集服务,包括外部数据的直接采集和企业内部数据的间接采集,已有第三方在提供基础数据库资源。未来伴随数据维度的丰富和数据量的扩大,第三方机构将采集并使用智能算法结构化处理形成相对完整的数据资源提供平台,并针对些海量数据的存储、整合及计算提供基于云端的平台式服务。 二是出现技术服务平台,包含提供Paas服务的开源平台及计算能力、大数据解决方案及技术服务支持。从目前人工智能和大数据企业发展来看,只有巨头和少数创业企业掌握核心算法及存储真正大数据,更多企业通过合作或建立产业联盟的方式获取行业或其他领域的数据。但对于数据的存储、处理和应用需要技术支撑且突破这些技术需要消耗大量人力物力财力,没必要所有企业都去做这件事。PaaS服务将数据处理能力作为模块开放出来,使得数据挖掘技术的使用门槛和成本大幅降低,更多企业有能力利用云端数据服务创造附加价值。因此形成Paas服务平台或解决方案技术服务平台,据此可以聚合数据资源,优化算法,提高准确率。另外也会形成基于数据存储、处理及挖掘技术的整体服务解决方案提供商,企业可以将数据服务完全外包给第三方机构,第三方机构也可以通过这种方式在云端整合资源并优化技术,提高准确率,同时产生推动行业发展的效果。 三是出现资讯服务平台。大数据产业相对仍是新兴产业,发展日新月异。一方面企业需要寻找大数据资源或技术服务平台,另外一方面第三方服务机构需要推广宣传自身及行业发展、技术发展现状。在这种背景下将出现起到桥梁作用的专业资讯服务平台,连接企业和第三方服务机构,同时起到发布整个行业前沿信息的作用。 四是出现交叉/垂直化服务应用。现阶段在教育、金融领域的垂直应用以及在未来智能营销、智能制造等交叉行业的应用。如在教育行业已出现利用积累的教、考、学环节的大数据结合深度学习算法推出个性化学习平台,如国外的Knewton、国内的智学网都是这种模式。未来将延伸至农业、制造业、交通、医疗等各行各业,出现如智能农业生产管理、智能交通、个性化精准医疗等创新服务。 本文转自36氪,如若转载,请注明出处:http://36kr.com/p/5049796.html
    大数据
    2016年07月21日
  • 大数据
    大数据营销分析公司 Amplero 获得 800 万美元 A 轮融资,利用机器学习技术预测客户生命周期价值 Amplero 是一个利用大数据技术,预测、管理客户生命周期价值的服务平台,可以帮助企业客户减少重复获取客户成本,增加每用户平均收入(ARPU)。本周四(7月14日),该公司宣布获得800万美元A轮融资,领投方是知名风投公司 Wilcat Venture Partners,参投方包括 Globys/Trilogy Equity Partners、Salesforce Ventures 和 Seven Peaks Ventures。   Amplero 公司的前身是大数据分析公司 Globys 旗下的一个部门,今年四月从其母公司脱离,开始独立运营。利用机器学习技术,这家总部设在美国西雅图的初创公司连续测试了数千个营销策略排列,确保在正确的时间通过正确的渠道将正确的信息送达到正确的用户。   Amplero 解决方案会选择“获胜”的营销策略排列,与企业现有的市场营销技术整合在一起,帮助企业优化营销推广工作。该解决方案对电信、银行、SaaS 等行业的市场营销人员有着极大的吸引力,他们可以采用相关策略,专注于自己想要调整或改善的地方——比如平均每客户收入、客户保留率,等等。据悉,使用 Amplero 解决方案的企业可以提升 3% 的收入增长,客户保留率则能够提升 5 倍。   那么,Amplero 公司计划如何利用这笔投资呢?该公司 CEO Olly Downs 表示: 我们计划利用这笔投资提升公司竞争力,专注于扩大、强化 Amplero 团队和收入架构,在提升销售业绩的同时,帮助客户获得成功,实现双赢。我们还会将 Amplero 营销解决方案应用到更多垂直领域,专注于建立重复性的关键维度。此外,我们要加大对产品优化的投入,提升消费者参与度。最后,我们更会把主要资金用在机器学习技术创新上,一方面扩大内部技术团队规模,另一方面积极拓展业内合伙伙伴。   Amplero 解决方案的另一个主要应用,就是可以识别社会效应对客户生命周期价值的影响(比如用户社交圈内的行为如何影响企业客户保留率、以及收入行为)。做这样的营销预测,其实和医学科学家预测、判断在某个特定人群内是否会发生重大传染疾病非常相似。当人工智能技术应用得越多,就越能减轻营销人员的工作压力,帮助他们更好地去理解营销、受众和产品。   Downs希望 Amplero 解决方案能够易于营销人员使用,帮助他们为客户提供更多超个性化的沟通、营销服务。   本文来自翻译:venturebeat.com
    大数据
    2016年07月18日
  • 1234567891011 19 跳转至