当前位置:首页 > 新闻资讯 > IT业界 > 新闻
专访廖若雪:从化学系出来的搜索架构师
  • 2012-7-10 15:10:16
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:黄旭
  • 作者:朱文利
【电脑报在线】廖若雪,百度的主任架构师,百度下一代搜索引擎负责人,最近又有一个新的民间封号————-读心“巫师”。

    

    廖若雪,百度的主任架构师,百度下一代搜索引擎负责人,最近又有一个新的民间封号————-读心“巫师”。

    不过,在搜索引擎中检索“廖若雪”,几乎得不到任何有价值的线索。不过,这个颇为中性化的名字,或许与中文搜索的未来有着重要关联。

    与多数“技术天才”的成长轨迹不大一样,廖若雪并不是科班出身,大学时在北京大学学的是材料化学。大学里的廖若雪酷爱玩游戏,是个中高手。“一想到材料化学,就赌得慌,哪里有游戏有意思啊。”

    爱好让廖若雪走上了他的游戏之路。大学毕业后,凭借在编程上的天赋和大学里的积累,他进入了一家游戏公司,开始了技术生涯。至今,廖若雪仍是狂热的游戏迷,而搜索引擎上关于他为数不多的最早的相关内容,是在一次招聘时候,他摆下擂台与前来的求职者PK游戏,“结果连败7名挑战者”。

    不过那段经历对廖若雪而言算不上成功,除了使他成为一个游戏高手之外,并没有让他体会到自己实现了自己的价值。2005年,一个偶然的机会,廖若雪看到了百度招聘的消息。那时候的百度已经算是中国互联网领域的风云企业,上市的步骤已经基本完成,对他而言,这家单纯凭借在搜索引擎技术领域的强大实力就战胜了对手,并征服了哪些苛刻的投资人和银行家的公司无疑令人向往,而且可以肯定,百度里面应该有很多的游戏高手能够相互切磋,这是非常令人兴奋的事情。

    “我告诉自己,一定要抓住这个机会,做一些能够改变互联网甚至人们生活的事情。因此我抱着试一试的态度去百度应聘,结果竟然真的梦想成真了。”廖若雪回忆。那是2005年,廖若雪就此加入了百度,开始做检索端方面的事情,工作的主要内容是确保和提升百度搜索引擎的稳定性、速度和可靠性,其实也就是一个做分布式集群,此后逐渐拥有一长串的头衔:百度主任架构师、第一任搜索技术委员会主席、索引新架构总技术负责人……并且负责过多个研发团队,从前端组,到检索端组,再到Rank组,带头打了很多硬仗。

    真正的转折是2009年。2009年9月的百度创新大会上,廖若雪上台公布百度“阿拉丁”项目,这是他第一次出现在公众面前。“百度正在瞄准下一代搜索技术。”李彦宏和李一男给了百度的未来如此定位,而廖若雪就是李彦宏为此项目第一个钦点的架构师。

    成为“阿拉丁”第一个架构师,廖若雪还肩负了另一个重任——“阿拉丁”项目出台时,恰逢从华为出来的李一男加盟百度,业内人士普遍将“阿拉丁”的成败作为李一男加盟百度的第一场大考。

    如果回到20世纪80年代,面对一台当时的电脑,人们很可能会不知所措。原因很简单,当时要访问电脑内的内容——不管是软件或者游戏,你起码必须掌握基本的Dos命令。换句话说,当时用户与内容链接的方式,是输入大量电脑“听得懂”的命令,再让电脑将其执行出来。

    信息爆炸时代的来临,海量的内容让用户无所适从,也催生了搜索引擎的快速发展,而糟糕的搜索推荐不仅无法达成正确链接,反而干扰了正常的内容消费,百度开始思考:搜索引擎如何更准确、更聪明?能否根据用户的兴趣在不同时间、地点送上及时恰当的信息?

    “阿拉丁”是百度尝试的开始。而推荐引擎,则是实现“根据用户性格,快速准确送上信息”的关键。2011年开始,在李彦宏的钦点下,廖若雪开始带领团队秘密研发百度推荐引擎,潜心于用户模型的建立、用户行为的研究。早期,百度推荐引擎实践于音乐随身听,自适应用户喜好变化、采用音乐专家系统技术。近期,推荐引擎实践于百度新首页、百度知道。

    “比如说,有一个北京用户在百度知道上问,正走在五环上,很堵,想了解什么情况,急着要回答。百度方面透露数据,从一个用户在百度知道上提出问题,到这个问题被合适的回答者看到,平均需要12个小时。”廖若雪说,因为推荐引擎的使用,五分钟这个用户就会及时得到回答。

    而在业界,廖若雪“读心大师”的称谓也不胫而走。

    对话:推荐引擎是读心工具

    电脑报:搜索引擎从历史发展来看,更多的是文本匹配,推荐引擎得到不一样的回答?

    廖若雪:搜索引擎早期发展不需要对用户行为去理解,不需要去考虑用户到底什么性格、特点,或者他在什么位置。但若采用推荐引擎,就要考虑用户性格、性别、还有地域的问题,比如说在北京和在深圳的,就需要不一样的回答。

    所谓“跨领域推荐”引擎技术,就是不用频繁地去搜索,“能够聪明地理解和感知不同用户对于信息的需求,并跨越产品、平台的局限,调用全网资源去努力满足这些不同类型的需求。”

    电脑报:据我了解, Pandora在DVD购买和租赁层次上面做推荐,亚马逊也在做商品推荐。这是否推荐引擎的应用形式?

    廖若雪:亚马逊、PANDORA、NETFLICX就是推荐引擎的典型应用。但与常见的推荐引擎不同,百度的跨领域推荐引擎是一个系统的推荐技术平台,可以支撑多媒体介质、多语言环境,为用户提供无所不在的推荐服务。例如,搜索“好看的电影”,就能获得符合该用户喜好的电影;搜索“怎么向女友求婚”,就能获得一套针对你和女友量身定制的方案,甚至连道具、路线、天气,乃至如何讨得她家小狗欢心的方法都考虑得一应俱全。

    电脑报:研发跨领域推荐引擎技术,最重要的技术是什么?如何做到快速理解用户,并给他们有用的内容?

    廖若雪:一个好的跨领域推荐引擎,首先需要大量的用户数据库。现在我的团队每天数据挖掘量超过1.5 PB,如果用A4纸打印,可以铺满海南岛,若摞在一起,比天宫一号轨道还高。

    这依赖于原有百度,百度搜索引擎储存了上千亿的网页,贴吧、知道、百科等社区类知识平台更积累了海量UGC(用户产生内容)数据库。每天处理100PB级数据的百度,拥有业内最大型的数据金矿。其次,要有海量数据的处理能力,能够对数量巨大的用户需求进行快速分析,有效地保证推荐结果的准确性和实时性。
本文出自2012-06-25出版的《电脑报》第25期 A.新闻评论周刊
(网站编辑:廖忠鑫)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖