大数据的关键未来
过去20年间,微软研究院位于世界各地的实验室都在集中力量研究计算机科学领域中各种课题。研究院从一开始就投入巨资,力图在机器智能领域取得突破,其中包括在机器学习和大数据。在这次采访中,杰出科学家Eric Horvitz谈到了自己对这一领域未来发展的前瞻、他们对日常生活的影响,以及如何借助源自大数据的深刻见解和更多智能软件和服务的开发来改变这个世界。
在位于世界各地的微软研究实验室里,一些非常深刻的思想家正在思考有关大数据的课题。其中就包括微软杰出科学家兼微软雷德蒙研究院联合院长Eric Horvitz。最近,他凭借自己对“不确定性及有限资源情境下的决策型计算机制”的研究而当选为美国国家工程院院士。
他认为,未来的机器在大量数据的武装下,可以成为“大有裨益的终身数码伴侣”,它知道你想要或需要的是什么(是比萨饼还是药物),你想去哪里(是夏威夷,还是选择最不堵车的路线去看球赛),而且往往还能以您的名义饱蘸激情投入工作。
数据的捕获、存储、解读和利用可以提供各种尺度上的深刻见解——无论在高科技领域还是日常生活中,Horvitz表示。
“当今世界上,能够用于预测建模、可视化和发现新事物的大规模有效数据分析正在成为许多领域取得成功的核心要素。”
微软新闻中心最近采访了Horvitz,请他谈谈微软研究院(MSR)是如何投入时间和人力从事大数据和机器智能领域研发,并且取得了哪些突破,同时也请他发表一下对这些领域未来发展的看法。
问:您为什么认为眼下大数据已经成为一个时髦词汇了呢?
Horvitz:时髦词汇的产生有各种各样的原因。对于大数据而言,我认为是几个因素共同导致了这一朗朗上口的词汇的普遍使用。其中之一是人们在不同领域采集到的数据量之大,达到了前所未有的程度;而传感、存储和网络等计算机科学领域也在不断前行。人们需要收集大量数据,一部分原因在于许多人类活动已经转向了网络,各种交易和事件数据的收集变得十分容易,而且能够实时同步收集。
这些活动包括电子商务、通过道路上的传感器记录汽车行驶状况、利用位置数据提供智能手机服务,以及医疗保健。在医疗领域,基因组研究的突飞猛进和医院临床数据捕获将越来越多的GB级乃至TB级患者数据输送到数据库中——即便如此,我们仍处于生物医药信息学发展的早期阶段。与以前相比,存储也已变得非常便宜。过去,我们尝尝说“或许有一天会出现TB级的数据”。
而现在,即使你的孩子也可借助一个小小的驱动器,随身携带TB级的数据去学校上课。在计算方面,我们用于处理数据的计算程序也取得了进步,并且出现了许多有趣的用途——例如利用数据建立预测模型等。举个例子,我们可以利用数据,对计算机用户的不断变化的意图或兴趣进行实时预测,并学习识别用户的手势。我们可以借助患者数据来预测病人出院后再度入院的可能性。
问:微软研究院的机器学习研究与该领域的其他机构有何不同?
Horvitz:微软研究院是众所周知的开放型研究实验室,我们鼓励研究者自由发表研究结果和进展。这一点吸引了最优秀和最聪明的人才。在MSR,人们的研究动力来自现实世界里层出不穷的有趣挑战。他们还可以访问大量的数据资源——更诱人的是,他们有机会把自己最棒的想法交托到数百万人的手中付诸实用。在我们这里,专攻机器学习的研究人员是世界各地从事机器智能研究的巨大群体的组成部分。除了机器学习之外,我们的研究工作还包括机器感知、自动推理和决策。机器学习已经渗透到了微软研究院的DNA中,而且也是研究院最早确立的几个关键性优先研究领域之一。
今天,在我们实验室里从事机器学习研究的人员已经构成了一股强大的知识力量。其中包括从事核心原理及应用的深刻思想家团队。在剑桥、北京、班加罗尔、硅谷、新英格兰和纽约市,我们还有许多其他团队也在从事机器学习研究。总之,这些小组已经构成了世界上最大的机器学习研究团队之一。
问:在MSR的机器学习研究努力中,有哪些成果已经被运用到了微软的产品中?
Horvitz:有许多的努力成果应被纳入微软的产品和服务中。这些成绩中有许多要归功于MSR研究员与产品团队之间异常密切的合作关系。举个例子,微软研究院承担了学习如何对事项进行排名的核心工作。这项工作形成了必应搜索在响应用户查询需求时对搜索结果进行排名的核心方法。MSR在视觉系统领域的研究也是众所周知的——机器不仅可以看到,而且还可以识别出它们所看到的东西——此外还有语音识别和翻译。当你使用必应语音搜索或必应翻译时,你就是在利用MSR所提供的核心机器学习研究成果。
我们的剑桥团队之所以名闻遐迩,是因为他们找到了对图像进行分割和分类的方法,这项有价值的创新工作成为Kinect的关键驱动力之一,让它能够识别房间里的人以及他们的手势。
MSR著称于世的还有机器学习研究在生物医药信息学和临床医疗等方面的应用。在雷德蒙实验室,我们已经投入了大量精力研究如何利用来自医院的大量临床数据建立预测模型,以指导医院的管理决策。这些系统目前已经应用到我们周边的医院,旨在提高它们的医疗服务水平。另一项应用是必应地图和必应路线,它能提供北美地区72个城市的车流量敏感型路线指引。必应路线使用了MSR所研发的方法,表明我们能够从交通历史数据中学习,并预测更大城市区域内所有街道上的实时交通流量。机器学习甚至出现在Windows操作系统的深处。MSR与Windows产品团队合作,开发一个实时的预提取系统,并应用于Windows 7和Windows 8。Windows能够不断地学习用户的活动模式,然后预测他的下一步动作——这样会让操作系统变得更快。
[page] 问:这种广泛机器智能研究的目标是什么?
(编辑:ASP站长网) |