近年来,大数据已经成为了信息技术最为关注的热点之一,各行各业都在探讨如何利用大数据创造商业价值,一时间众说纷纭,各种关于大数据的应用方案接踵而来。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的60亿次搜索请求,它是一家真正拥有大数据的企业,在这个数据为王的信息时代,百度搜索如何应用大数据?大数据在搜索引擎效果测试和优化中有哪些应用价值?
在百度第二届开放研究计划中,百度网页搜索测试部的阮星华和南开大学的张建忠合作,共同承担了“机器学习在搜索引擎效果测试和改进中的应用”这一IT主题研究项目。据了解,这个项目就是百度利用大数据分析搜索引擎缺陷并优化搜索引擎的成功案例之一。
据阮星华介绍,参与“机器学习在搜索引擎效果测试和改进中的应用”这一项目的成员,主要是来自百度网页搜索测试部的张鑫、李卓、张敏等,以及南开大学的研究生张文、朱晓曦,他和南开大学的张建忠教授作为合作双方的接口人,对项目实施具体负责。
“互联网上的网页数量巨大,内容样式多种多样,少量网页还存在内容作弊,用户的需求表达方式也各有不同。因此难免会出现一些检索结果不好,不能满足用户需求的情况,这种情况我们称之为Bad Case,也就是产品缺陷。而我们这个项目所做的,就是通过机器学习的方法自动或半自动挖掘Bad Case,进而推动产品做有针对性的改进;其次是通过对海量数据的分析发现改进产品的思路和方案,并推动实现从而提高产品的效果和体验。”谈起项目的出发点,阮星华表示,搜索引擎并不是对每一个查询都能给出最好的结果,存在一些用户需求没有满足、体验不好的情况(Bad Case),他们需要基于海量搜索数据进行分析发现这些Bad Case,推动产品升级改进,使搜索引擎更加精准。
研究过程中,他们发现了多类BadCase,如不出官网结果、搜索结果摘要差甚至无摘要、相关性差、搜索词纠错错误等,对此,他们针对大搜索建立十多个缺陷挖掘模型,建立起“用户满意度挖掘模型”、“寻址类搜索挖掘模型”、“纠错词Bad Case挖掘模型”等不同Bad Case类型的挖掘方法。在过去的一年时间中累计挖掘各类产品缺陷超过5万个,有效推动产品的升级和改进,成为产品升级决策的一个重要参考依据。
例如,当用户使用搜索引擎查找某个网址的时候,有可能会因为查询词不合适、网页未收录或者相关性排序不合理等原因导致搜索结果中没有出现用户想要的网址或者想要的网址比较靠后,阮星华和他的团队所做的一部分工作就是找出这样的信息,精确展现真实的官网,仅这一部分工作,就为产品线挖掘了大量精确官网数据,大大提高了寻址类需求的满足度,为用户提供更加准确的搜索结果。
“为了让搜索结果更准确、用户体验更好,我们在这个项目中通过数据分析,做了很多优化工作。比如用户在百度中搜索刘德华,搜索结果不仅展现刘德华的相关资料,还会在网页右侧‘其他人还搜’中展现于刘德华关系密切的人物,更贴心的是,在网页底端的‘相关搜索’中,还有各类与刘德华相关的搜索热词。我们通过数据分析提出针对“其他人还搜”和“相关搜索”两个区域的改进措施,有效提升了这两个区域的点击率。根据我们的数据统计,在‘知心百科“其他人还搜”卡片内实体入退场策略优化’中,我们的项目研究成果给“其他人还搜”带来了11.4%的点击率提升;在‘相关搜索’结果优化后,我们带来了约17%的“相关搜索”结果点击收益,这些数据充分说明在我们在大数据挖掘中得到的价值判断是正确的,对网民的需求分析比较到位。”
据悉,“机器学习在搜索引擎效果测试和改进中的应用”这一项目取得了十分丰厚的成果,无论是从技术发展还是人才培养角度来说,都具有重大意义。“这个项目取得了9项技术成果,并发表了一篇论文,获得了3项相关专利,其中一项专利还被评为百度公司的一级专利,而且我们这个项目还获得百度质量部总监最高奖和创新奖,这些成果和荣誉对我们来说,很有激励意义。”阮星华对“机器学习在搜索引擎效果测试和改进中的应用”这个项目能够取得如此丰厚的成果表示欣喜。此外,他还特别指出,参与该项目的两位实习生张文和朱晓曦,也通过校招的途径正式加入了百度网页搜索测试部,即将成为他们中的一份子。而且,通过该项目,百度和南开大学计算机与控制工程学院建立测试课程合作,加深了外界对测试的理解以及对百度质量部的认识,也为校企合作提供了人才培养的平台,这是此次合作的意外收获。
“我们在项目中一旦发现BadCase,就会分析归类并推动解决,所以随着项目的进行,我们的研究成果不断上线被应用,及时地为用户提供更精准更智能的搜索服务。”对于研究成果的应用,阮星华颇为自豪,“通过2013年一年的研究,我们对基于大数据的搜索引擎缺陷分析以及产品改进有了一些积累,今后,我们将更加深入优化不同的缺陷挖掘模型,能够更全面更快速的发现搜索引擎不同维度的缺陷,加速产品迭代,让用户使用更智能更精准的搜索引擎。”