-
机器学习
微信的机器学习与人工智能应用实践
编者按:本文来自InfoQ(ID:infoqchina),作者:张重阳,编辑:小智。2018 年 1 月 13-14 日,AICon 全球人工智能与机器学习技术大会在北京召开,微信小程序商业技术负责人张重阳应邀担任本次大会的联席主席,发表演讲介绍了人工智能应用落地过程中的 4 个"in",并结合在微信的实践案例做了深入的讲解。以下为演讲全文。
图为张重阳AICon演讲现场
写在前面
大家好,我是来自微信的张重阳,很荣幸有这个机会和大家一起交流一下机器学习和人工智能技术在微信的应用实践。谈起人工智能,大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术,然而人工智能所涉及的应用场景和商业价值却远不止此。在日常的经营和管理中,任何一个企业都会维护客户关系,都有销售数据需要分析,都会在生产,销售和运营的各个环节中面对不同的决策问题,新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案,从而驱动业务快速增长。
我们来看一下智能技术在商业过程中解决问题的 4 个重要环节,我这里总结了 4 个“in”,首先我们叫 integration,就是针对需要解决的问题收集和整合已有的数据。这里所面临的挑战主要有两个,首先是如何在计算机中表示数据以便于存储和计算,另一个是在我们实际应用中如何处理保密数据,比如财务数据,或是当我们处理用户数据的时候如何保护用户隐私,有没有什么方法对数据进行处理后既起到保密的作用又不影响计算机使用?
有数据后就是用统计和机器学习的方法去解决问题得出问题的最优解,这步我们叫 inference,不同于学术研究,在实际应用中我们会将多个模型进行组合使用取长补短从而得到更好的效果,稍后我会结合实例说明,
在有了 inference 结果之后,实际应用中不能只给一个预测结果,而是要结合数据对模型的预测结果进行更深入的分析和解释也就是 interpretation,这也是最近两年在深度学习之后比较热门的方向,因为深度学习虽然在整体的数据结果上取得了很不错的效果,但偶尔会在个别样本上给出令人难以理解的结果,有没有什么方法对深度学习这样的复杂模型进行解释,我将在后面介绍一种对黑盒模型进行解释的方法。
解释之后,该发现的问题找到原因,那么我们就要结合人工的知识和实际环境制定策略,并用自动化测试的方法去验证效果,这步我们叫 investigation,这一步其实最复杂,因为要结合人工知识而且在各个业务场景中验证方法都不一样,由于时间关系我这里介绍一种通用的方法 ABtest,ABtest 无论是在传统行业还是在互联网公司都已经被使用了很多年了,是一个非常有效的产品测试方法,但是即便是这种被广泛使用的方法,也需要根据实际应用场景进行设计,比如我们在微信上使用的很多产品是社交化的不能完全独立的分成 AB 两个集合,有时在小样本测试下有效不能保障放量后继续有效,后面我会给大家介绍一种我们改进的方法 Ntest。
好,说了这么多,我们先来宏观的看一下,在微信平台上我们正在做哪些尝试,这个图我 2015 年的时候就在 InfoQ 上分享过,当时我们的工作重点是在精准拉新这部分,因为当时在做朋友圈广告,但是拉新只是商业化的第一步,有了用户后,如何通过数据分析和自动化的方法做精细化运营降低用户流失率并提供个性化的服务提高产品体验才是企业成功的关键。
大家都知道小程序是微信生态的重要一环,因为它的便携性商家可以在微信小程序上以极低的成本获取用户,下一步我们还会依靠微信的大数据处理和机器学习的能力结合我们丰富的用户画像体系逐渐提供相关的分析工具和自动化测试工具帮助商家做好精细化运营提高用户体验。比如现在很多商家的促销展示对每个用户都是一样的,如果平台可以分析出当前用户里面哪些是最有价值的用户哪些是即将流失的用户,并提供一些自动化的测试工具验证运营效果,相信可以帮助商家大幅度的降低运营成本提高运营效果。今天我将结合其中的用户画像,流失预测,流失分析和 ABtest 相关技术和大家一起探讨一下微信在商业智能技术 4 个“in”上的技术实践。
整合 Integration
先看数据整合 integration,这里我介绍一下实际应用中最常用到的用户画像技术,对一个企业来说最重要的资源无疑是它的用户,提供个性化和自动化的服务和产品必然需要足够的了解用户,那么用户画像就是用户在计算机中的表示形式。这里的挑战首先就是表示的方法,将用户表示成什么样的结构才方便计算机使用,另一个挑战是如何保护用户隐私,虽然我们对用户的敏感数据进行了脱敏,但用户的特征越多越容易反推回单个用户,有没有什么方法既能保护用户隐私又不影响计算机的使用?
先看用户画像的表示方法,用户画像的目的是为了在不同任务中度量用户和用户之间的相似度,那么通用的做法是将每个用户在数据库中表示成一个向量,向量和向量之间的距离有很多种数学方法计算比如常用的欧式距离和余弦,但实际使用中会根据不同应用场景定义相似度函数,或是在实际的数据上用机器学习的方法去拟合这个函数,有了这种对不同用户相似度度量的方法我们就可以做用户分类和聚类,或是提供对相似的用户推荐相同的商品这样的服务。
但是这个将用户转成向量的过程,在实际中却是非常复杂的,如果都是简单的标签那么常用的 onehot 编码就可以搞定,但很多数据是有结构的,例如微信中社交关系是一个网络结构,用户和公众号的关注关系是一个二部图的结构,用户的兴趣是一个随时间变化的序列结构。
我们在实践中社交关系这种网络结构使用了 node2vec 的方法转换成向量,使用的时候有些提高效果的小技巧比如好友关系其实是有权重的,好友和好友之间相互点赞和评论的越多权重就越大。 公众号的关注关系其实是一个稀疏矩阵,我们把每个用户关注的公众号作为一个词,把一个用户作为一个文档看待,这样就可以使用通用的主题模型给每个用户打上主题标签,推荐大家使用袁老师的 lightlda,非常适合大规模数据的训练,还有短期兴趣这种序列结构,文本,图像这些数据都可以用深度学习的方法 embedding 成向量,那么最终把这些向量拼接到一起就是计算机可以使用的用户特征向量。
上面的方法编码后,每个用户特征的维度是很高的,这意味着实际使用中需要足够多的训练样本否则就容易过拟合,但实际使用中用来训练的用户集大多数时候是非常有限的,要让算法支持较低的样本输入,必须要对初步编码后的用户特征向量做降维,现在有基于深度学习的 auto-encoder 的方法,在实际使用中我们发现它的效果比传统的 PCA 好很多,降维的另一个好处是对传统的标签进行了压缩和隐藏,压缩完成的向量不影响用户相似度的计算,但维度上比原始的向量小了很多,每一维的数值并没有实际的物理含义从而保护了用户隐私,便于在公司内进行共享使用。
关于用户隐私保护的问题这是公司内在处理用户数据时遵守的原则,文字比较多我就不念了。
推断 Inference
对数据整合和编码后,下一步我们要使用统计和机器学习的方法去求解问题也就是 inference,这里我们来说 lookalike 这个模型。
lookalike 在商业化方向上有很多的应用场景,lookalike 最早是用在社交广告上的,通过商家上传的种子用户包扩展更多的相似用户用于做广告受众,广告投放中它的效果远好于标签筛选出来的用户,但是 lookalike 的本质是通过已知的一堆样本在另一个集合上去找相似的样本,同样的也可以用在流失预测上,我们知道上个月到现在已经流失的用户,在现有的用户群上做 lookalike 相似性扩展就可以找到正在流失或下一步可能流失的用户,lookalike 对线下店铺的智能运营也很有作用,我们通过已有用户在大盘全量用户上做 lookalike 就可以算出各个地方潜在的客户群体有多大,lookalike 不光用来找人还可以用在商品上,我们可以通过热门商品去商品库里面扩展找类似的商品,这就是智能选品的问题。
这是 lookalike 人群定向系统的大致流程,我们从种子包里过滤出我们自己系统里面的重合用户也就是这里的目标用户,同时从全量用户的其他用户中采样出一些用户作为对比用户,再从用户画像系统里提取出用户特征,这样我们有了一个 label 的正样本数据和一个 unlabel 的数据,可以用 PU learning 或是二分类的机器学习方法训练出模型,模型上线使用后,会有实时的反馈数据,我们会利用这部分实时数据再训练一个综合打分的算法,对线上的模型结果做出实时的调整。最终用这个最终打分对全量用户排序选出最相似的用户。
这里我们看一下 lookalike 打分算法的模型训练部分,前面说了不同于学术研究实际应用中很少使用一个模型,我多年的体会训模型和画画很像,你很难用一个笔刷完成整幅画作,刚开始的时候需要用粗的笔刷完成大的布局最后再用细的笔刷去勾勒细节。
在机器学习中常用的模型整合方法有 ensemble 和 jointtrain,lookalike 中比较通用的方法是左图这种先用 gbdt 学习特征再传给 LR,FM 或 DNN 的方法,之后 google 用了这种对 LR 和 DNN 进行联合训练的 wide&deep 模型。如果人工特征设计得好是可以结合两者优点取得非常好的效果的。我们系统实际使用的是右图这种 ensemble 的方法,因为 gbdt 是一种基于 boosting 的学习框架,那么理论上它可以 boost 任何模型,当然包括 dnn,这样就可以将这两种模型的优点结合起来了,他的训练方法是先训一个 dnn,这里不需要用太多的层数相当于用粗的笔刷去完成大致的轮廓,然后用 gbdt 进行 boosting,这相当于用更细的笔刷去刻画细节。
我们看一下 lookalike 应用的一个具体实例,lookalike 被广泛的应用于精准拉新,但我觉得相对于拉新降低用户流失率更重要,因为新用户可以通过广告或地推等方式花钱买到,但已有用户一旦流失就很难挽回,所以必须在流失之前采取措施。常用的激活策略有很多,比如促销商品,发优惠券或发红包等,假如有商家要拿出一笔钱给用户发红包,那么怎么花这笔钱呢?显然不是等用户已经流失了再发给他,因为这时用户已经不再打开应用了,等同的给每个用户发也不合理,因为预算有限。那么常用的方法是发给对平台有最有价值的用户和有可能要流失的用户,所以要做用户价值分析和流失预测。
这张图是流失预测和流失分析的流程图,我们使用刚流失的用户在当前的用户上面做 lookalike 就可以得到正在流失或即将流失的用户,在流失预测之后的流失分析是很必要的。因为流失有很多种情况,不同情况采取的策略是不同的。那么怎么做这个流失分析呢?这就是我们下面要讨论的问题。
解释 Interpretation
我们继续上一节的话题以流失分析为例看一下第三个“in” interpretation。
模型的可解释性和精度同等重要,这是机器学习在实际使用和学术研究的一个重要区别,因为我们可以从解释的结果中发现模型本身是不是靠谱,这样的解释结果更容易说服模型的反馈对象有助于模型的推广。另外模型的使用者可以从这个结果中发现问题从而针对性的制定策略比如我们刚说的流失分析,其实在某些领域比如医疗和金融,不可解释的模型是无法推广的。
那么有没有一种方法可以同时得到比较高的精确度和可解释性呢?这其实是个鱼和熊掌的问题,因为模型的能力越强就越复杂越不容易解释,右上这个图说明了这种情况,横轴是模型的精确度,纵轴是模型的可解释性,可以看到可解释性很好的线性模型和决策树模型精度并不高,精确度很高的神经网络和深度学习解释性最差。
KDD2016 的一篇文章给出一个很新颖的方法,既然鱼和熊掌不可兼得,能不能用高精度的模型去解决问题,再用一个可解释的模型去解释这个高精度的模型?那么问题来了,可解释的模型一般非常简单比如线性模型,它无法去拟合像 DNN 这样一个非线性模型,例如右上图的这个分类结果,这篇论文给出了一个很新颖的算法 lime,因为无论模型多么复杂,每次也只需解释一个样本的预测结果,而非线性模型在单个的样本的局部是可以用线性模型近似的。
但是这样就有另外一个问题,要在这个样本局部进行拟合必须在这个样本周围有足够多的训练样本,lime 的做法是对样本的某些特征进行一些扰动产生一些新的样本,再用之前的高精度模型对这些样本进行预测。这样就产生了很多由高精度模型标注的样本,而且我们可以计算出每个生成样本和我们要解释的样本之间的距离,这时就可以用可解释的线性模型比如 lasso 对这个样本的局部进行拟合和解释了。
这是用户流失分析系统的框架,通过前面说的模型进行用户流失预测后得到了正在流失的用户和忠实用户,这里需要注意的是我们对用户特征做了 encoder,所以在解释的时候需要映射回之前可解释的特征表示并和编码器一起传给 lime,就可以对每个用户的流失预测结果进行解释了。我们会对全量用户的解释结果再用算法进行一次聚合,分析出正在流失用户和忠实用户整体的特征并将这个结果可视化的展示出来。
这是我们对一款游戏类小程序的用户流失分析结果的可视化展示,可以看出主要是学生用户正在流失可能是由于最近快期末考试了,我们还可以对这些用户进行聚类,右上角是在二维平面上的可视化聚类结果,使用者还可以再次下钻到各个子类中针对各个类的特点制定相应的运营策略。
调查 Investigation
有了分析结果后就是要结合人工知识制定策略并用自动化的方法在实际环境中验证结果我们叫 investigation,这里介绍一种 ABtest 的改进方法。
ABtest 源于医学的双盲实验,在互联网时代,它被广泛的应用于网站改版和产品升级后的效果测试。相对于观察上线前后的数据,abtest 可以有效的排除季节因素、市场环境因素的影响,现在 ABtest 也被用来分析不同广告或运营策略的效果。比如刚说的流失问题,我们分析问题后设计了一个降低流失的策略,要看这个策略有没有效果就要放到线上的真实环境中去测试,这是传统的 ABtest 的流程。
之所以叫 ABtest 是因为在实验时会将实验的用户分流成不使用策略的 control 和使用策略的 treatment 两组用户进行对比观察,这里有很多技术细节比如在多个实验并行进行时的正交分层模型,对 control 和 treatment 的同质校验,结果的显著性分析等,有很多论文讨论这些问题。我这里重点和大家一起交流一下在社交网络中的一些问题和改进方法。
在社交网络上要将用户分成两组完全独立的 control 和 treatment 是很困难的,因为用户和用户之间相互影响,比如我们微信上可以分享给好友的立减金,微信电商类小程序采用的拼单和组团的这种促销模式,这些红包和促销商品会在好友和好友之间传播,最终可能导致 control 和 treatment 都变好了或是都变差了。另外一个问题就是灰度实验的时候,在一个小的用户量下实验有效,在放量后会不会继续有效,因为放量后投放的密度变大了用户和用户之间的影响更大。这种影响可能导致之前的策略不起作用也可能导致之前的策略的效果成指数的放大。那么这个问题就变成了如何测试投放密度和实验效果的关系。
我们针对社交网络的特点设计了一种改进的策略 Ntest,和传统 ABtest 不同,Ntest 不是以单个用户作为测试单位而是以几十人到几百人的子网络作为测试单元,每次实验选择 N 个子网络作为实验组,并在各个实验组上采用不同的密度投放实验策略。最终对每个子网络计算实验指标,我们将这 N 个子网络的指标和密度的关系绘制在坐标系上,就可以分析出指标随密度变化的趋势,右图是常见的三种情况,横轴是策略在子网络上投放的密度,纵轴是当前指标的效果,上面这个图随着密度增大效果整体呈上升趋势,说明策略和当前指标是正相关的。同理这下面是负相关和不相关的大致情况。
写在最后
最后我们总结一下机器学习方法落地实践的心得。
首先是我们要针对问题对数据进行整合和编码使其易于计算,数据整合后用多个模型组合使用可以取得更好的效果,对模型结果的分析和解释在模型推广时非常重要,最后任何结论都要回到实际业务场景中验证效果。
作者介绍
张重阳,微信小程序 商业技术负责人。2014 年加入微信,先后负责用户画像建设,lookalike 人群定向,微信斑马系统,小程序广告系统,小程序商业化技术,专注于自然语言处理,计算广告,机器学习,数据变现等技术方向,加入微信前曾就职于微软、科大讯飞从事自然语言处理、语音、搜索推荐、计算广告等技术研究。
-
机器学习
AI只是巨头的“玩具”?中小企业主应用AI可以在5个方面受益
人工智能(AI:Artificial Intelligence)和机器学习(ML:Machine Learning)常常与谷歌和亚马逊等技术巨人联系在一起,因为这些大公司创造了最流行的机器学习平台。由于高效的人工智能/ 机器学习解决方案需要大量数据来训练,小公司因为这些昂贵的成本,往往不愿意将人工智能融入他们的业务流程中。我认为这些担忧被夸大了,现在把你的小公司变成一个全面的数据驱动公司,可能比你想象的更容易。为了证明这一点,这里有中小公司如何启动AI的五个简单技巧。
智能的CRM
CRM系统旨在通过不同渠道(例如电子邮件、电话、社交媒体)收集有关消费者的信息,为销售人员提供一个集成的环境,以便管理与当前和潜在的消费者互动情况,并自动营销和指导行动。
如今小企业可以受益于Salesforce平台提供的智能功能。2016年,Salesforce推出Einstein AI平台,它允许开发者将AI功能整合到Salesforce的CRM应用上。Einstein AI可以帮助中小企业记录电话交谈、电子邮件、社交媒体帖子和客户评论内容,进而分析消费者情绪,评估客户反馈,并据此调整营销和组织活动。利用这些平台,小企业的销售人员可以更好地了解客户意图,查询自动获取的销售线索,最终达成个性化营销。借助人工智能CRM,小企业可以从客户数据中自动获取更多的信息,使他们的营销和销售团队更高效,消费者更满意。
目前国内市场中,CRM服务商销售易和百会CRM(Zoho中国)都提出了智能CRM概念,但是其智能能力多集中在相似客户推荐和优化重复性工流程等方面,对客户动态理解等方面还存在能力缺失。Salesforce推出的Einstein AI平台,在管理和分析客户内容方面,更类似国内一些营销云的功能,对inbound(域内流量)和outbound(域外流量)进行分析。
智能客服解决方案
如何高效的提供客户服务是保持客户满意的关键组成部分。然而,客户服务质量可能随着枯燥和重复性的工作而恶化,客服人员希望专注于提供独特的支持消费体验。
为了使客户服务更高效,小企业可以将AI能力集成到内部客户服务系统中。例如,像DigitalGenius(结合人工和智能的客服,2016年获得410万美元融资)这样的企业,可以帮助客户通过邮件、社交网络、短信、聊天界面管理客服咨询。以人工智能的方式自动回答问题,或者快速将回答建议分配到人工团队,由人工修改后回答客户问题。通过在客户服务中使用人工智能,小型企业可以从根本上减少重复问题和平均处理时间,从而达到提高员工和客户满意度的最终目标。
DigitalGenius定位服务于SMB,支持接入Salesforce、Zendesk、Oracle等主流客服平台,国内缺乏类似模式的智能客服企业。不过智能客服在国内是相对成熟的领域,企业有几十家可以选择,比如Udesk今年11月份推出了智能客服大数据平台Udesk Insight;阿里网易七鱼的“一触即达”功能,可以让智能客服机器人具有上下文理解、多轮会话能力,在智能能力表现上都可圈可点。
智慧营销
有效地管理营销预算往往需要深厚的专业知识,这就给小企业带来了额外的人力成本。幸运的是,现在的小企业可以通过人工智能解决方案来有效地使用预算。小企业可以委托Acquisio(以机器学习技术管理中小企业的广告)管理营销活动和营销业务,Acquisio通过多种渠道(如广告、脸谱网、Bing),分析广告表现并做出合理的建议,最终在PPC(按点击付费)效益最好的渠道分配预算。
利用多重算法分析客户与市场竞争对手之间的关系,这样的人工智能营销解决方案可以让小公司找到最好的营销策略,并大大减少CPC(投放的广告被点击,需要支付一定费用)要付出的高昂成本。智能商业工具和预算支出的合理管控意味着节约了额外的市场营销人员成本。
国外数字营销领先国内很多,比如Adobe、Hubspot等企业体量多在数十亿美元。国内数字营销的领先者是BAT等企业,比如阿里妈妈智能营销引擎——OCP“X”(包含OCPC、OCPM),以超大规模机器学习,智能计算每一个PV的流量价值,从而合理出价。
智能的竞争情报供给
当友商产生或者更新的内容达到每一天几百字节,便可能很难追踪他们的策略。但了解竞争对手和市场趋势,对于保持竞争力至关重要。
幸运的是,像Crayon这样的人工智能竞争分析工具可以帮助你解决这一难题。Crayon可以在不同的渠道(网站,社交媒体,网络应用)跟踪你的竞争对手,与强大的自然语言处理和商业指标相结合,分析其价格变化、微妙的信息修改和公关活动,这种功能可以让小企业更好地了解竞争对手的战略变化。此外,AI使竞争情报包括强大的分析功能,可以即时识别竞争对手产品的缺口,弱点和长处,及时反馈来调整自己的经营策略,防止被竞争对手超越。
据了解销售易近期发布智能CRM产品,可以智能整理企业客户的雷达图,包括企业体量、业务方面多维度信息聚合体现。另外会提供客户业务和人员变动信息,提醒商务人员适时关注这家企业。但与Crayon Data能分析竞争对手的优劣点及战略调整,还是本质不同,遗憾的是在国内并没有发现能提供类似功能的公司。(Crayon Data类似一些舆情大数据公司,但国内舆情公司多应用在政务领域)
成熟的智慧商业解决方案
如今,小型企业可以将AI工具嵌入到涉及数据的业务流程中。利用最先进的倾向性分析、分类和预测算法,小企业可以立即从他们的任何数据中提取有用的商业见解。
例如,像Monkey Learn(文本机器学习服务商)这样的人工智能工具,小公司可以在谷歌表格、CSV和Excel数据中使用倾向性分析和实体提取等方法,而无需任何编码。它易于集成,而且该平台还支持自动分类、标记和处理票据,以及对入站电子邮件和其他通信信息进行分类。该系统还可以用来分析产品的评论,分析其中实用的商业见解并将其提炼成有用的报告。所有这些特性,将节省小企业审查其相关数据所需的成本和时间。
将企业内部数据处理自动化,是当前的大数据领域比较火的一个领域。在文本数据挖掘方面,相关的案例有达观数据帮助大型企业自动化整理内部的文档资料,将合同文件结构化。如Monkey Learn对企业多种资料和外来信息进行分析理解。目前国内类似的服务商很稀缺,因为提供这种服务的技术门槛高,部署过程复杂。
当前AI /ML市场蓬勃发展,中小企业有更多的选项来启动他们的AI策略。小型公司可以使用便捷的接口和高效的机器学习功能,将他们的数据和工作流程接入到智能平台,而不是雇用科学家和营销专家做额外的工作。与商业智能相结合的工作流自动化将节省小企业的时间和成本,同时使他们在新兴的数据驱动经济中保持竞争力。
本文翻译自:https://www.entrepreneur.com/article/302655
-
机器学习
利用机器学习帮助企业提高员工留职率,Glint获2000万美元D轮融资
Glint是一家帮助企业提高员工留职率的公司。日前,这家创企宣布完成2000万美元D轮融资,参投的有原投资人Bessemer Venture Partners、Meritech Capital Partners、Norwest Venture Partners和Shasta Ventures,此轮融资后,该公司的融资总额达8000万美元。
Glint成立于2013年,其平台能够进行员工调查,然后利用机器学习、自然语言处理和预测分析技术对结果进行分析,最后生成的报告可用来解读员工对公司管理、心水和企业文化的感受,并为企业提出提高各项得分的建议。
这样不仅能够减少招聘和培训新员工的成本,也能让员工、股东更开心。Glint成,一年四次征求员工意见的公司,他们的股价一般会上涨40%,相比之下一年只征求一次意见的公司,股价只会上涨4%。
其他用数据分析来了解员工感受的公司还包括CultureAmp,共融资3630万美元,包括今年6月的2000万美元C轮融资;以及TinyPulse,共获得950万美元融资。
Bessemer Venture Partners的合伙人Byron Deeter说,“早目前的企业环境下,企业必须倾听员工的心声和担忧,了解他们的需求。我们很高兴能看到越来越多的跨国公司使用Glint来改变其商业成功的方式,挖掘员工的集体力量。”
Glint的新一轮融资将用于强化运营,向欧洲扩张。目前,该公司客户包括Sky Media、United Technologies、Pure Storage、Intuit、LinkedIn和Rio Tinto等。
【猎云网(微信号:ilieyun)】11月3日报道 (编译:可芮ccino)
-
机器学习
榜眼获100万人民币种子融资,用机器学习+大数据挖掘为学生打造安全精准的求职平台
今日,榜眼CEO董志成向记者独家透露,已于2016年底获个人种子轮投资100万。投资方为上海知名投资人,曾经投过纽约大董餐饮(米其林三星)等明星企业。本轮资金主要用于产品开发团队的扩充和校园合作协议的签订。
古时第一名称状元,第二三名都称为榜眼,意为立状元左右,如其两眼。董志成说,取名榜眼,既有金榜题名之意,又有自谦之心。榜眼是一个高校大数据及人力资源应用平台,于2016年底上线,希望解决中小企业及学生在招聘和求职中的问题。
董志成介绍到,互联网招聘的市场在几十个亿左右,但是猎头市场却是千亿级的。我们开发的是高校人力资源市场,建立人才数据库,帮助选择和定位人才。榜眼分为学生版和企业版,开发的千人千变功能会向学生推荐适合职位,向企业推荐适合人才。目前,注册企业有11276家,官方认证人才有50892人。
“要实现真正的精准匹配,就要实现对简历进行文本解析,能够利用大数据精准处理用户适合的行业、职位、技能标签,通过算法实现人才和职位的精准匹配。”董志成说,现在榜眼的数据库还不够大,希望数据达到百万级后,能够基于学生的数据来提供更多服务。
“我们和学校签订了一个数据通道的协议,经过学生本人授权,认证学生身份后即可将学校内的数据一键导入。”目前,已和浙江省内43所大学签署独家数据库合作协议。榜眼也为校方开放了一个后台SaaS系统,能够实时监控学生的求职动态。数据导入成功之后,榜眼会向学生提供匹配行业职位的平均薪资和职位缺口。
另外,榜眼参考国际知名的职业能力测试题研发了两套Hexagon职业倾向测试题和职业性格测试题,有助于学生进行自我职业认知。“学生在找工作的时候大多数是迷茫的,我希望榜眼的这些数据能够给他们一点建议和帮助。”
提到对招聘企业的选择,董志成说:企业入驻不是自主注册,而是通过双重认证。第一重是与学校的就业处合作引流。学校会审核企业的营业执照等资料,验证成功之后,才能进入榜眼系统。接着我们会通过天眼查、企查查这些第三方平台,对企业资质做一个详细的审查。如果有不良记录,该企业将不能入驻平台。
今年9月,榜眼线上线下将都会有新功能推出。线下,榜眼将推出校招2.0版本的“招贤榜”,现场将分为展示区和面试区,学生可以直接通过扫二维码投递简历,在app上进行电话面试和视频面试。目前,已和300家企业达成合作,将在杭州的三个大学城举办活动。
线下,榜眼将在9月推出社交类功能“人脉”。用户可以直接在app上加同专业的师哥师姐或是同专业不同学校的同学为好友,共同来分享经验和资源。“因为招聘是非频发需求,推出这一功能的主要原因是为了激发活跃用户量,能够增强我们的用户粘性。”
团队创始人董志成是英国帝国理工大学市场战略专业硕士,曾任英国汇丰银行项目分析师,回国后担任米高蒲志中国高级分析师,熟悉人力资源行业核心竞争力及运作模式。COO王珏是纽约大学斯特恩商学院学士,曾供职于纽约Sumi Trust Bank,回国后负责某新能源汽车海外业务的市场拓展。CTO向泽平是西安理工大学NIIT软件专业学士,拥有十年互联网开发经验,曾参与“相格”、“美丽光影”等项目。公司大数据首席科学家顾问郭毅可,是英国帝国理工学院终身教授、数据科学研究所所长,负责为“榜眼”建立大数据及人工智能模型,挖掘及匹配各项数据信息并作商业化导流及应用。
据悉,榜眼正在寻求天使轮融资,预计出让10%的股份来换取500万元人民币投资。
【猎云网(微信:ilieyun)武汉】8月23日报道(文/钱佳信)
-
机器学习
简历筛选是难题?初创公司 Riminder用机器学习提高招聘效率
对于应聘者们而言,投递简历的时间也是一门玄学,不过对于 HR 们来说,何时收到简历并不重要,如何在海量的简历中挑选出最优秀且最符合要求的那一个才是最难的。数据显示,HR 一年平均要浪费掉 21 个工作日去外网筛选简历,一年要扔掉 67500 份简历,阅读这些简历要消耗掉一个 HR 每年 42 个工作日。除此之外,入职 Offer 以及试用期的转化率都只有 50 % 。
Riminder 是一家法国初创公司,成立于 2016 年,帮助 HR 们更高效地处理简历、并且更加精准地找到合适的候选人。
简单来说,当企业对特定职位进行招聘时,Riminder 会帮助企业做两件事情。首先是在数据库中对对同类职位的其他人员简历进行分析,从而对正在招聘中的这一职位对应聘人员的素质进行“划线”,其次,在简历收集完成后,系统会对文本进行分析通过运用计算机视觉和自然语言技术对简历进行文本分析,并结合前期的标准进行横向比照,最终对候选人根据职位匹配度、应聘者素质等要素进行综合排序。
因此,Riminder 能够帮助 HR 跳脱出单一岗位的限制,从更宏观的角度理解岗位的招聘需求所在,毕竟企业文化、行业趋势等都在的考虑之中了。
不过,Riminder 的最终目的可不止“排名”那么简单,Riminder 的创始人 Mouhidine Seiv 介绍道,在前期的比照实验中,系统除了能够更快速地给出候选人名单外,当 HR 看到系统这些名单时也发现,的确有一些优秀的应聘者是没有被他们注意到的,在系统的帮助下,他们感兴趣的应聘者增加了 3 倍。Seiv 认为,之所以出现这一的差异,原因在于招聘人员“没有正确地使用关键字”,而这也是 Riminder 的文本分析的意义所在。
除了帮助 HR 提高工作效率外, Riminder 也会帮助应聘者及时关注到,即当系统认为应聘者更加适合另外一个岗位时,候选者们的简历也会被自动推送到新的岗位。
据了解,Riminder 已经和 Uber、Blablacar 等进行合作,作为服务平台,Rimminder 会为企业的后台简历系统提供 API 接口。
本文参考了多个信息来源:techcrunch.com,如若转载,请注明出处:http://36kr.com/p/5075236.html
-
机器学习
如何用机器学习手段提高HR甄别简历的效率
如何用机器学习手段提高HR甄别简历的效率引言“假设简历库中有10000份名为“软件工程师”的简历。 一位HR在搜索“Android工程师”时仅关注名称为“Android工程师”的简历,她将遗漏912份有可能匹配的简历;如果这位HR愿意花时间从头到尾通读每一份“软件工程师”的简历,将其中真正从事Android研发的简历筛选出来,那么她需要多阅读9088份无效的软件工程师简历。假设阅览一份简历需要15秒,这项工作将占据她38小时。“
一、低区分度的简历——隐藏的招聘雷区
搜索和阅读简历占据了招聘的大部分时间。在HR搜索或阅读简历时,需要根据简历名称或工作内容对简历类别进行判断,简历类别的“区分度”越高,HR越容易通过搜索定位到对应的简历,也越容易甄别出简历与空缺岗位的匹配度。
例如,HR在招聘一名“Android工程师”时,非常喜欢那些在职位名称为“Android工程师”的简历,因为可以很方便地搜索和识别。这部分简历可以定义为高区分度简历。
可令人头疼的是,许多候选人的简历并未照顾到招聘者的使用体验。例如一名软件工程师在他的简历中提到了多项编程技能,并将简历名称定为“软件工程师”,给系统搜索定位到这份简历造成了极大的难度。这就意味着:由于JD的编写方式与候选人编写简历方式的天然差异,大量履历匹配的简历在搜索时被遗漏,许多工作内容里包含这些关键字的简历(比如招聘专员)实际却又毫不相关。
二、大量的低区分度简历增加了甄别难度
我们从简历库中抽样了1479818份互联网行业中包含“工程师”的简历数据,按简历名称进行统计,从高到低排序后截取Top15展示如下:
<图1-高频职位名称统计数据>
由统计数据可以看出,类别区分度低的简历在整体简历数据中占比较大。例如互联网行业中包含大量“软件工程师”、“高级软件工程师”、“软件研发工程师”、“研发工程师”简历,占抽样总数的25.7%,但这部分简历却无法轻易判断候选人对应的技术方向。
实际上,Java工程师、PHP工程师、后端开发工程师等均可称为软件工程师。有众多Title为“软件工程师”的简历,需要根据职位或工作描述进一步判断具体类别。
例如对简历进行搜索时,输入“Python工程师”,简历名称中含Python的简历可能较少,导致搜索结果数量丰富度不高。但如果通过模型可以判断简历名称为软件工程的具体角色,增强简历的区分度,则可在软件工程师的简历中筛选属于Python工程师的简历,进一步提高搜索的丰富度。
三、通过机器学习方法提高角色识别的准确度
1、建立合理的职位理解
增强简历的区分度,可以理解为“如何更准确地理解职位,包括职位的不同表达方式,以及与该职位相关的技能模型”——这件事可以基于一张专业词表完成。
例如我们定义一个简单的词表——“软件工程师”为一级类别,其下属二级技能类别分为Java、C++、PHP、.NET、Python、Delphi、Perl等。这张词表定义了明确的职位/技能关系,当词表在“阅读”一份名为“软件工程师”的简历时,它实际阅读的是上述技能。
聘宝的知识图谱更为复杂,除技能分支外,还包含行业、公司等众多维度。
<图2-聘宝的职位技能知识图谱节选>
2、如何进行高效的角色分类识别计算
深度学习方法近期在文本处理领域大受欢迎,但需要注意的是它们的训练以及测试过程十分缓慢,以至于工程应用时门槛颇高。
在进行了一系列的技术方案调研与比较后,我们尝试对比分析了三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes。
· TextGrocery—是一个基于LibShortText和结巴分词的短文本分类工具,基于线性核SVM分类器,使用二元分词(Bigram),不去停顿词,不做词性过滤同时支持中文和英文语料,让文本分类变得简单。
· fastText—由FAIR(Facebook AI)开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,出自Word2Vec作者Mikolov的论文《Bag of Tricks for Efficient Text Classification》
fastText适合大型数据+高效的训练速度,能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”,与深度模型对比,fastText能将训练时间由数天缩短到几秒钟。FastText的性能要比时下流行的word2vec工具明显好上不少,也比其他目前最先进的词态词汇表征要好。
<图3-fastText分类器模型示意图>
<图4-fastText模型架构>
· Naive Bayes——由贝叶斯定理延伸而来的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法假设所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。
在自然语言处理领域,处理的的数据可以看做是在文本文档中标注数据,这些数据可以作为训练数据集来使用机器学习算法进行训练。
在训练样本时,构建可以表征文本的特征向量(词汇表),并根据这个特征向量将训练集表征出来,计算各个类别的频率作为该类的先验概率,和在每个类别条件下各个特征属性的条件概率,分类时,根据贝叶斯公式计算待分类句子在每一类别的后验概率,取最大值作为其分类。
<图5-Naïve Bayes模型架构>
四、一个简单的分类识别实验
为更好地分析不同技术手段在增强简历区分度上的效果,我们进行了一项简单的比较实验,来展现算法是如何把低区分度的简历如“软件工程师”进行具体的技能方向分类的。
1、实验数据集的准备:
选取680731份根据职位名称判断属于二级类别的工程师简历数据,随机抽样取80%的数据做训练数据,剩余20%份作测试数据。
<图6-实验数据集的分布>
2、实验效果表现:
通过实验我们发现,通过机器学习方法,我们能够快速识别低区分度简历并进行准确的分类,从而能够极大的降低人工搜索与阅读的时间。
<图7-各个类别预测准确率的分布>
对比上面模型结果, fastText模型基于词袋的针对英文的文本分类方法,组成英文句子的单词是有间隔的;而中文文本是连续的,因此对中文文本,则需分词去标点转化为模型所需要的数据格式,但分类效果一般,尤其是类别间区分度不是很大的情况下。另外参数调优对模型结果影响较大,但模型优势在于训练时间很短。所以fastText模型更适合做类别区分度更大且讲究分类效率的应用场景,比如将一则新闻自动划归到财经、军事、社会、娱乐等板块。
TextGrocery模型是专门针对短文本的分类模型,直接输入文本,无需做特征向量化的预处理,不去停顿词,不做词性过滤,优雅的API接口,但模型准确率和模型训练时间在此角色预测模型中不是太突出。
Naive Bayes为传统的文本分类模型,特征向量化的预处理相对繁琐、训练时间较长,但在分类类别多文本区分度不大的情况下,分类效果相比其他两种算法更为优秀。这个实验结果侧面说明,在产品实现时勿过度追求“时髦”的技术。对某一项特定业务来说,有助于业务实现更优效果的技术就是最好的技术。
聘宝在面对低区分度简历时的角色识别算法,吸收结合了上述各类算法的特点,面对不同场景条件时搭配应用,实现了更优的分类效果,在TMT行业主要职位类型上的识别准确率高于75%。
以“软件工程师”为例子,在聘宝中输入属于软件工程师的职位描述,预测出可能的角色,效果如下图:
<图8-聘宝角色识别效果示例>
对于其他行业低区分度的简历,同样可以训练出对应的模型。如果单个行业预测类别不用过细的话,可以将众多行业数据混合一起训练模型进行预测。
基于该实验的样本数据,假设简历库中有1万份名为“软件工程师”的简历。 一位HR在搜索“Android工程师”时仅关注简历名称为“Android工程师”的简历,她将遗漏912份有可能匹配的简历——这些简历均被冠以“软件工程师”的职位名称;如果这位HR愿意花时间从头到尾通读每一份“软件工程师”的简历,将其中真正从事Android研发工作的简历筛选出来,那么她需要多阅读9088份无效的软件工程师简历,假设阅览一份简历需要15秒,这项工作将占据她38小时。
角色识别除了在简历检索方面的应用,在其他方面也有广泛的应用空间。 如薪资预测, 根据工作描述预测角色作为特征变量,将有助于提高预测薪资的准确性。
又例如简历解析, 将简历详情页的各个区块作为文本,预测各区块所属的信息类型(如工作经验、教育经历等)后再使用对应的解析程序对区块进行解析,将大大提高简历详情页面的解析效率。
我们始终相信技术可以提高工作效率,也正因此我们在简历的分析与匹配工作上持续深耕三年,相信在机器学习技术的帮助下,HR的招聘工作将变得更加省时高效。
来源:聘宝
参考文献:
[1] 超快的 fastText[EB/OL].https://sanwen8.cn/p/4744TBs.html, 2017-04-10/2017-04-24.
[2] Library for fast text representation and classification.[EB/OL].https://github.com/facebookresearch/fastText, 2017-04-10/2017-04-24.
[3] TEXTGROCERY,更好用的文本分类PYTHON库[EB/OL].http://blog.chedushi.com/archives/11383?utm_source=tuicool&utm_medium=referral, 2017-04-10/2017-04-24.
[4] LibShortText简要入门[EB/OL].http://guoze.me/2014/09/25/libshorttext-introduction/, 2017-04-10/2017-04-24.
[5] NLP系列(2)_用Naive Bayes进行文本分类(上)[EB/OL].http://blog.csdn.net/longxinchen_ml/article/details/50597149, 2017-04-10/2017-04-24.
[6] 从Naive Bayes到N-gram语言模型[EB/OL]. http://blog.csdn.net/longxinchen_ml/article/details/50646528, 2017-04-10/2017-04-24.
[7] Bag of Tricks for Efficient Text Classification[EB/OL]. https://wenku.baidu.com/view/32db1350777f5acfa1c7aa00b52acfc789eb9fba.html, 2017-04-10/2017-04-24.
-
机器学习
LeadGenius获400万美元融资,为企业提供基于机器学习的营销工具
来源:猎云网 编译:杏染
LeadGenius是一家使用机器学习来为企业提供市场营销工具的公司,总部位于加利福尼亚州伯克利。该公司近日获新一轮400万美元的债权融资和股权融资,投资人包括SJF Ventures和现有投资人Lumia Capital、Javelin Venture Partners。
LeadGenius的平台使用机器学习与人力研究相结合的方法来提供B2B服务,这笔融资将用于为海外市场营销提供多渠道功能。
LeadGenius的联合创始人兼CEO Prayag Narula在一份声明中表示:“有了这笔资金,LeadGenius就可以继续创新,保持对外营销和账户营销(ABM)的领先地位。LeadGenius已经能够提供最可靠最精确的客户数据,下一步是使用数据来帮助客户获得更广泛的市场洞察力和建立海外市场营销平台。”
SJF Ventures的Alan Kelley将会作为观察员加入LeadGenius董事会,他在声明中表示:“LeadGenius对于SJF Ventures来说是一个理想的投资对象。这家公司创造了一个可持续的营销平台并且客户增长速度很快。它的商业模式能够带来最好的市场。”
LeadGenius 于2011年夏天从Y Combinator毕业,共获融资2200万美元。其他的投资人还包括Sierra Ventures、Better Ventures、Fuel Capital、Funders Club、Initialized Capital、Bee Partners、Kapor Capital、Scrum Ventures以及Y Combinator的Continuity Fund等。
LeadGenius的客户多种多样,有谷歌、Square、Box和eBay这样的500强企业,也有Weebly、NerdWallet和CareerArc这样发展迅速的公司。这家公司由加州大学伯克利分校的三个研究生Anand Kulkarni、Dave Rolnitzky和Prayag Narula在2011年创立,目前已经为世界各地拥有数字技术的未充分就业人群提供了工作的机会。
-
机器学习
机器学习和人工智能这么火,初创企业在哪些领域会有机会?
注:本文原载于 Elad Blog,作者 Elad Gil,由 ONES Piece 翻译计划 徐雪儿编译。
编者按:最近,特斯拉无人驾驶汽车发生的事故让人们对无人驾驶技术有了一丝质疑,但这仍是许多科技巨头公司趋之若鹜的发展方向。可以说,人工智能和机器学习已经从原先电影里的概念性设定跳脱出来,小到监测健康数据的可佩戴式仪器,大到智化的机器人,这些都真实的发生在现实世界。而对于机器发展最大的争议,或许就在于大量劳动力的替代和道德层面的探讨。Twitter战略总监,同时也是著名投资人的Elad Gil在本文就预测了他认为围绕机器学习和人工智能可能发展起来的领域,以及真正AI时代给社会带来的影响和冲击。
在可预期的未来,人工智能科技将在多个商业领域发挥其不可估量的影响。在接下来的10-20年里,机器学习也许会渐渐取代白领和蓝领的工作,最终导致全社会范围的大量动荡。
目前,大多数的主流报道都还停留在讨论人工智能的一般用途上(也就是所谓的AGI强人工智能,指能完全胜任人类脑力劳动的人工智能),但很少有人去关注最近五年内,人工智能和机器学习最有可能转变的具体垂直市场。简单来说,我认为要达到真正的强人工智能水平,我们还有十多年的距离,但是由人工智能驱动的垂直产品在近年就会带来一场巨大的变革。
下面列出的都是企业家和投资者们估值过低的领域,而在这些不被看好的领域里,我相信一大批大型的AI公司很快就会成长起来。在所有围绕机器学习发展的领域里,一家创业公司想要成功,有两个关键点:1、搭建用来训练模型的有用的数据库的能力,以及拥有对模型进行递归性测试和闭环反馈的模拟环境;2、选择一个市场,让机器学习根据市场需要创造产品。为了做AI而做AI的产品就像一个找不到问题的答案,通常这类创业公司都容易失败或者是被谷歌、Facebook、Uber 等其中一家收购。(在这个市场里还会有成千上万的收购案,因为所有公司都想要提升自己的在这块领域的能力。)
下面是我认为在未来五年内能产生大AI公司的领域:
硬件和集成电路
无人驾驶汽车不可抵挡的发展势头,以及大量使用机器学习技术的其它市场的发展,将会带动对更高效、为机器学习模型专门优化的硬件的需求。很少有创业公司或者投资者投入到能更快速运行的机器学习系统基础芯片构架开发上。许多使用专业集群来运行机器学习的公司都会选择NVIDIA的GPU(图形处理器),但其实这款处理器没有进行过特殊优化,并不是机器学习模型的最佳选择。所以在这方面的硬件上仍然有很大的创新空间(ASIC或者是其他方式),可能会有ARM或者高通这样的大企业诞生。这不仅是机器学习在各个行业的应用发展促成的,也是无人驾驶汽车和其他硬件对处理器的大规模需求所驱动的。说不定,在人工智能领域的第一个百亿美金公司会是做芯片的。(你确实可以说谷歌搜索/广告是世界上应用机器学习模型最成功的垂直应用,它的市场价值和收益早已经超过100亿美金了。所以我的意思是,下一个会成功的初创公司。)
像 Cerebras 和主攻深度学习的Nervana公司目前就正在这个领域发展。
金融科技
WealthFront 和 FutureAdvisor(被BlackRock收购) 在“智能投顾(robo-advisors)”领域的崛起,表明金融服务公司开始关注由机器驱动的投资组合管理和交易模式。无论是投资组合的组建和交易,还是从不同类型的金融数据中提取分析结果上,机器学习都会产生越来越显著的影响。
机器学习和大数据在金融科技上的应用至少会有三个方向:
提高交易效率或者收集独到分析的工具。OmegaPoint公司就专注于打造“新生代的Bloomberg”,将机器学习模型建立在数据服务上用于交易。
基于机器学习的投资组合管理和交易运作。
通过机器学习模型来理解金融产品,并为其定出合理的价格。
像保险、房贷和其他衍生产品将会大大受益于人工智能的应用。如果一家创业公司或目前行业内的玩家能用新的统计方法和机器学习为客户计算出更优惠的房屋贷款分期方案,那它肯定会做成一家大公司。
无人驾驶汽车和卡车
无人驾驶汽车的出现,将会扰乱现在价值数十亿美元的交通运输市场。汽车和卡车的生产商已经意识到,一场关乎生存的危机正在悄悄降临。而特斯拉公司的出现无疑加剧了这些汽车行业公司的危机,因为前者现在似乎终于有了一款面向大众的汽车,并且正在无人驾驶领域大力推进。更加雪上加霜的是,谷歌和百度这样的科技巨头也要在无人驾驶技术上参一脚。许多汽车公司更愿意自己发展,避免依赖于这些科技公司——因此美国通用汽车花10亿美金并购初创公司Cruise,Uber花1%的股权收购了自动驾驶卡车公司Otto。在接下来的1-3年,无人驾驶汽车领域的收购合并案还会持续频繁地出现。
无人驾驶技术的发展,必将掀起数百万人的失业浪潮和不可小觑的社会变革(很大程度上会是经济上的通货紧缩)。尽管产业革命已经在150年前发生过了,但随着多种职业的消失,人工被取代,在接下来10-20年中爆发更大型的失业潮也不足为奇。如果政府没有为这些失业者提供另谋生路的机会,政治上的动荡不可避免。
医药
人们一讨论到人工智能或者机器人,就会举例说蓝领工人要面临失业了,然而我倒觉得大部分的白领们会被人工智能所取代。
医药领域将会迎来一次大颠覆。从疾病的定义、诊断到治疗方案,机器学习将改变整个医疗系统。“技术领域”投资之王VinodKhosla在这方面就有不少的高见。
在医疗护理方面,机器学习也有很大的发展潜力,能替换掉原有的大部分构架。想象一下在未来,只要有一部智能手机,每个人就相当于拥有了世界上最好的医生,不仅成本低,而且随叫随到。
a. 诊断
记得之前看医生的糟糕历经吗?排队等了45分钟,轮到你却只看了5分钟就草草了事,给点无关痛痒的治疗建议。糟糕的客户服务和高昂的医药费用,在任何有竞争力的行业都是存活不下去的。
从医生诊断到机器诊断的转变,将会促进每种疾病单独的产业发展——比如IBM的Watson认知计算项目就宣布了自己在肿瘤学的进步。类似的还有,在抑郁症诊断方面的惊人进展和通过计算机深度学习对其他精神疾病的研究。机器诊断的限制往往在于可利用的数据量,以及是否能对诊断和结果进行闭环反馈。
想要加速机器学习技术在医学上的应用发展,一个方案是收购一座现有的放射治疗中心或诊所。这座放射治疗中心将会被连上网络,优化数据生成环节,用以生成数据训练机器学习模型去诊断和治疗病人。通过在诊所推行机器模型与传统的标准诊所服务齐头并进的做法,你在获得机器闭环反馈的同时,还能减少监管和病人护理的问题。
同时,机器学习模型的推行会提升诊断测试的准确性。比如,用机器学习模型来决定DNA测序仪上的变体识别是否正确,或者在荧光激活细胞分离器上观察到了哪种细胞类型。我的公司Color Genomics已经开始用不同的方式,将机器学习应用到基因学研究上了。
b. 治疗
和诊断方法相似,机器学习将能帮助病人选择正确的治疗方案。而最大的限制可能(又)在于数据的访问。
c. 持续的监测和分析
为机器学习模型增加可利用数据的一个方法,就是采用以消费者为主导的新型技术进行持续的监测。健康数据的自我监管背后,有一小簇忠实的拥护者。像Cardiogram公司就通过持续的脉搏检测和其他数据监管的方式,让消费者掌握更多的自主权。硅谷的一批居民都用上了The FreestyleLibre血糖监测仪,自己来检测血糖水平。推动“全民科学”的发展,和激发人们积极关注自己医疗保健和健康状况的意识,可能会改变现有的医疗实践。
教育
从科技角度来看,美国的教育市场挺糟糕的,所以我从未投资过任何的教育类创业公司。即便如此,我还是抱着一丝悲观的期望,会有开发智适应教育系统的的公司出现,能因材施教地划分学生的线上学习内容和线下课堂教学内容。这种教育科技能大幅提升发达国家和第三世界学生的学习能力。
其他领域
还有许多已经、或者即将被机器学习颠覆的领域(制造业,广告业等等),本文没有涉及到。作为一个企业家和投资者,我个人最感兴趣的就是上述几个领域,以及围绕这些领域的许多发展机会。企业家们应该思考,机器学习是如何做到让一个市场里的某产品变强十倍的,而不是仅仅关注机器学习本身的价值。这也是围绕人工智能发展一家大公司的关键所在。
数据限制
从根本上来说,AI产业发展的限制大多来自对数据量的依赖。如果金融、医疗和其他领域的数据能大量利用的话,不少的先进机器学习应用也许能保留下来。大公司(谷歌,IBM等)和创业公司建立有用的数据库的方法有两种,购买数据接入途径或者合作找解决方案。数据将会改变许多的产业,成为科技廉价化和民主化的一股力量(比如贫富国家之间的医疗护理标准日趋相同),但同时也会取代发达国家相当一部分的劳动力。在未来5-10年间,机器学习的终极影响将体现在拓宽关键信息的接入渠道(如医疗诊断),和替代掉数百万人的劳动力。接下来还会有更多相关文章。
-
机器学习
将机器学习算法与销售运营相结合,People.ai协助企业提高工作效率
【来源:猎云网(微信号:ilieyun)】 编译:田小雪
People.ai将机器学习算法与销售运营相结合,是来自YC的夏季新创项目。
1
这一平台利用机器学习技术为销售代表提供预测性运营剧本,帮助他们总结以往成功的经验,促进团队间成员合作,提升其工作效率和销售业绩。
1
People.ai所试图解决的问题正是销售人员数据的缺失。
1
公司的联合创始人兼首席执行官Oleg Rogynskyy在将销售的成功案例与开发的成功案例相比较时,解释道:“在看到开发人员的工作成果时,你能够通过代码和GitHub了解他们的思路和想法。也就是说,虽然你不清楚他们具体做了些什么,但是大体工作方向和内容是了解的。”
1
但在追踪销售人员的工作进展时,整个流程是反着来的。你可以看到他们发了多少封邮件以及打了多少通电话等等,每一个具体的步骤你都清楚地掌握。虽然有的时候的确能带来收益,但你对具体内容却是摸不清头脑。
1
People.ai就专门追踪销售团队内部的数据,据此来找到成功的关键因素。
1
它通过扫描邮件、日历、电话、会议工具和WebEx等数据来源,记录销售人员在不同平台上发生的所有活动和事件,交叉对比,找到共同之处,将最能促进交易达成的事件独立标记出来。
1
另外,这一算法还能找出一些效率低下的、无价值的行为,比如说某位销售人员在某个阶段或环节,花费的时间过多或过少。
1
除了能追踪销售进程,People.ai还能够记录新员工培训进程,在人力资源主管提升招聘质量和效率的过程中起到重要作用。
1
有人会问,这些事Salesforce不是已经做过了吗?Rogynskyy指出Salesforce是存在缺陷的。首先,它的数据都是手动输入,费时费力;其次,它的分析不够准确,不能涵盖交易过程中的所有细节。
1
而相比之下,People.ai能够自动完成整个数据录入过程,Rogynskyy介绍道:“我们是行业中第一家做到完全覆盖销售人员工作流程的公司,我们的数据标准、均匀,可靠性高。”
1
目前,People.ai的在职员工约为10位,其产品受到了50家B2B公司的青睐。公司所有的运作事宜由YC和其他一些天使投资人提供幕后资金支持。
-
机器学习
除了为求职者省去岗位申请流程,Mentat还将机器学习技术融入招聘服务
据科技媒体Techcrunch报道,美国目前50%~70%的公司员工不满目前的工作现状。与这个统计数字相对应的还有一个事实:美国有超过90%的千禧一代预计每三年换一次工作。这难道是促进招聘行业发展的一个好时机?
而在中国,尽管没有权威而系统的员工满意度调查,但今年年初前程无忧发布的《2016年中国离职与调薪调查报告》却能告诉我们一些信息:平均离职率达到17.7%,特别是高科技、金融等热门行业跳槽较为凶猛(大部分行业离职率都超过18%)。
虽然我们现在根本就不缺堆满招聘信息的网站,但一家刚刚从创业孵化器Y Combinator“毕业”的招聘公司却宣称要做点不一样的东西。
这家初创公司叫Mentat,专门帮助那些确实需要一份新工作,但是却没有做充分准备(或者说没有勇气迈出这一步)或忙于其他事而无暇申请新职位的员工。
为了帮助这一群体,在得到申请人授权后,Mentat将会“接手”并充分利用他们的个人社交平台(例如LinkedIn)与个人简历,然后为他们准备手写求职信,并安排特定人员为他们申请工作岗位。
在这一线上申请过程中,公司也会在现实生活中为用户安排一名个人咨询师,通过电话、聊天工具以及邮件等形式与用户保持及时沟通。目前,Mentat拥有50名来自不同行业的专家级咨询师,因此,他们会根据你选择的特定行业给出最好的职业建议。
所以,科技因素究竟在哪儿(以上很多求职中介都能做到)?Mentat表示,公司正在利用机器学习技术为求职者匹配潜在的工作岗位,精准率极高;同时,后台也能够将不同行业的求职者信息自动分发给负责该领域的咨询师。用Mentat的话来说就是“除了写求职信和提交申请,其他的事情都会交给机器。”
Mentat这项服务套餐,目前的价格是249美元。如果用户没有收到任何面试通知(规定是至少一个),那么公司会将全部款项退给他。当然,他们也有类似于传统求职网站的免费会员等级,比如会向公众开放大量的招聘岗位。
但这是否意味着用户自己不用费工夫就能得到一份工作?Mentat给出的答案是:大多数工作申请流程只是要求用户无数次重复地提交简历,而他们要做的是帮助用户将这些被浪费的时间节省出来,让用户集中精力准备面试环节,这才是求职者充分展现自己个性与技能的平台。
有意思的是,Mentat正在尝试与教育机构进行合作,把自己的服务介绍给学生。他们认为,在当前的就业市场,找工作是毕业生们唯一关心的事情。而Mentat的求职产品可能会成为未来院校确保毕业生们获得面试机会的一种附加保障。
本文参考了信息来源:techcrunch.com
扫一扫 加微信
hrtechchina