当前位置:首页 » 业界资讯 » 业界动态

信息周刊:终极搜索引擎(1)

...

谷歌、微软、雅虎等公司正着手开发新一代技术,让信息搜索更为自动化和个性化。

搜索引擎,也就是那个小小的浏览器工具,你在其中输入一个词,并点击回车,之后就满怀希望开始等待,可它返回的往往是数百万个毫不相关的互联网地址。微软公司(Microsoft,下称微软)称,人们平均要花11分钟的时间才能找到所需内容,而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司(Gartner)估计,由于访问者根本无法找到所需内容,有一半的潜在Web销售因此而丧失掉了。

谷歌公司(Google)、微软、雅虎公司(Yahoo)、以及其他数十家专业搜索公司,其中也包括那些专注于商业领域的搜索公司在内,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具,人们无需再使用混合语言一遍又一遍地简化搜索。他们可以用英语或其他语言查询问题,或者根本不提出任何问题,只是基于其以前的查询或所用的应用软件,就能自动收到查询结果。

专注于中文搜索的百度公司(Baidu,下称百度)虽然没有就下一代搜索的话题表态,但是根据百度现有的一系列产品,从百度贴吧、百度知道、百度百科到百度空间等服务,不难看出这家公司正在利用用户生成内容(UGC)提高自身对于用户兴趣点捕捉的精确度。

除了文字内容之外,用户实际得到的搜索结果还将包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据,这些信息全部精选自Web、PC、以及公司数据库,并最终汇成统一的信息流。假以时日,图像搜索甚至能在图像中检测信息,而无需对元数据进行解析。

搜索结果将更加精确,并经过自动归纳总结,按照个人偏好依相关程度进行排序。聚簇、标签云(Tag Cloud)等可根据参数扩大或缩小搜索的新表达方法以及自动分类,可以简化对搜索结果的处理。同时,采用标签服务、社会性书签服务(Social Bookmarking)以及共享搜索等方式,充分发挥人类智慧特别是群体智慧的力量,搜索引擎将得到极大改进。

而且,我们无需翘首以盼,等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。

语义搜索

当今多数搜索引擎都要求使用速记语言,也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话。” Powerset公司首席执行官(CEO)巴尼·佩尔(Barney Pell)形容道。Powerset是一家将自然语言处理技术应用于搜索领域的初创公司。未来10年,佩尔指出,搜索引擎“理会意思”的本领会更为高强。

早在2000年,百度就曾经大力协助当时的ChinaRen公司推出了一个名为“孙悟空搜索”的提问式搜索引擎。“我当时使用过孙悟空搜索,感觉它对中文语义的理解已达到了相当的深度,虽然那时的技术可能还比较粗浅。”李鹏在接受《信息周刊》采访时回忆道。李鹏是加拿大英属哥伦比亚大学(University of British Columbia)计算机专业的在读博士,同时也是微软位于美国华盛顿州雷德蒙德园区(Redmond)的实习研究人员,专注于语义网(Semantic Web)的研究。

现在,Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎,这些搜索引擎应用语言学解释问题,分析Web内容,并且必要时,还通过与用户的互动来优化搜索结果。Hakia公司CEO里萨·博坎(Riza Berkan)憧憬说,未来搜索引擎会成为“知识渊博的工具,如果我们能教会它们如何讲话、如何理会用户的意思。 ”

语义搜索引擎对语言进行解析,就像学生学英文一样,用字典和辞典来解释字的意思,并依据句法的基本规则将之连起来。比如,“国际商业机器公司(IBM)于1996年斥资7.43亿美元买下了Tivoli公司”这句话,包括了购买、购买的主语、购买的时间、以及买入价等几个概念。

在理解问题之后,基于语义网的搜索引擎将会给出智能的回答。“比如,你表示要预约一个牙医,”李鹏给出了一个例子,“搜索引擎有可能从你的Outlook找出你的时间表,然后从你牙医的网站上找出他或她的时间安排情况,最后归纳出共同的时间点,再给你提出精确的预约建议。”

迄今为止,尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但人们应用语言规则,并对分类进行定义,以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化,我们就能宣告自己发明了新人类,”博坎调侃道。谷歌和雅虎等在开发Web搜索引擎时也都会雇佣语言学家,尽管他们的搜索引擎还远不能与Hakia或Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查,并返回所搜索的单词的同义词和变体,但并不能始终准确地解答问题。

联邦保存研究所(Federal Preservation Institute)的历史保存学习门户(Historic Preservation Learning Portal)采用的是企业搜索公司Autonomy公司的技术。该网站存有大量记录保存规则和保存方法的文档,研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。“他们应用这些工具,用普通语言即可提问,而其问题中无需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝·拉米雷(Constance Ramirez)介绍说。比如说,有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况,“看到返问的各类结果都是相关的,那种感觉真是妙不可言。”拉米雷回味道。

IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎,甚至可以分辨诸如情绪这样的细枝末节之处,而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的,客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。

“但是,基于精确语义的搜索有一个前提,那就是信息来源必须基于资源描述框架(RDF)、Web本体语言(Web Ontology Language,OWL )等信息格式。”李鹏指出,“信息源的格式化需要得到提供者的认可和规范,这本身就需要相当长的时间,是一个渐进的发展过程。”

无关键词搜索

好运难遇。目前仍处于开发阶段的这类搜索引擎无需提示,即会根据你以前的查询替你完成搜索;否则它们可能会在背景中搜索,根据Word文档或Excel电子表中的上下文内容提供相关信息。苹果公司(Apple)的iTunes项目与此类似,如果听者从硬盘中播放了一部音乐作品,iTunes Store即会显示相关的其他音乐。

说着容易,做起来难。“在搜索领域,遭遇意外的好运比登天还难。”国际数据公司(IDC)分析师苏珊·费尔德曼(Susan Feldman)指出。在这种计算密集型的环境中,设计接口着实不易,她补充道。

MediaRiver公司开发了一种可下载的搜索工具,这款名为Watson的产品,无需用户发出查询请求,即可利用Web浏览器或PC应用程序中的信息对Web进行搜索,并返回结果。这是一款出色的产品,可不是一项好生意,MediaRiver的CEO阿尔·瓦塞尔博格(Al Wasserberger)总结说。但是,Watson在MediaRiver的ClickSurge Widget中找到了用武之地,终于可以再现活力,后者负责确定网页上的重要概念,并将相关链接嵌入到网页的其他位置。Blinkx公司有款与此近似的产品Pico,但在该公司的网站上,Pico却居于次要地位,因为这家公司要全情贯注于视频搜索领域。

尽管如此,无关键词搜索的前景依然一片光明。谷歌和雅虎长期以来一直在不断提醒用户,他们可以订购搜索,当有新结果产生时他们即会收到电子邮件。用户只需轻轻点击一下StumbleUpon和Google Dice等浏览器工具栏按钮,系统即可根据Web历史记录将之带到推荐的站点上。雅虎的Y!Q服务和Mozilla公司的火狐浏览器(Firefox)都具备在网页上突出显示某个字或词的功能,用户只需于其上点击一下,即可执行搜索。

雅虎的这项服务可以增强搜索页上下文的关联性。比如,在有关大学橄榄球的网页上搜索“佛罗里达鳄鱼队(Florida Gators)”,返回的结果肯定不会跟大沼泽国家公园(Everglades)中的那类爬虫有关。

个性化搜索

“内战”这个词,在不同的人心中会激起完全不同的情感,其含义也大相竞庭。在美国历史上,它意味着一个国家的诞生;而在利比亚,它是武装冲突的代名词;它还是枪与玫瑰乐队的一首歌的名字。搜索引擎对搜索者了解得越多,它对搜索者意图的猜测也才会越有根据。

从用户数量来看,谷歌的个性化主页iGoogle是该公司旗下成长最为迅速的产品。谷歌明白用户需要什么,并通过RSS种子和谷歌Gadgets来体现其对用户需求的理解。而且,用户也能在谷歌的首页上创建推荐(Recommendations)标签,谷歌搜索系统可据这些用户以前的搜索提供相关信息,并置入该标签内。

拥有谷歌账户的用户均有机会将其曾进行的搜索保存起来,“疑问因而解除”,谷歌个性化部门技术负责人塞普·卡姆瓦尔(Sep Kamvar)指出。比如,有个女子对计算机感兴趣,而且她会定期搜索“苹果”这个词,这说明与其说她对计算机有兴趣,不如说她对计算机厂商的兴趣更大。利用存档数据,谷歌可通过浏览器工具栏按钮、iGoogle标签或者网络搜索历史(Web History)页面自动为用户推荐所需信息。

大量与搜索相关的信息保存在谷歌的数据库中这一事实,引发了有关隐私的担忧;基于同样的原因,雅虎等谷歌竞争对手也不再无畏地长驱直入个性化搜索领域。谷歌争辩说,它在使用历史搜索数据时所公开的透明度,恰是其为避免引起用户激烈反对而采取的关键措施。“如果我们打算使用你搜索过的某些内容,我们希望你能了解这一点,而且你有权做出决定。”卡姆瓦尔表示。

商业环境中也需要个性化。例如,Vivisimo公司搜索产品的管理程序给招聘人员的人事文档的赋值,比如说,就可以比给销售人员的高。“内部网的一个优势在于,人们无需再以匿名的形式存在。”IBM OmniFind搜索平台部门杰出工程师(Distinguished Engineer)兼产品经理迈克·莫兰(Mike Moran)指出。OmniFind搜索平台有4个版本:企业版、分析版、可在搜索结果中添加原文链接的版本、以及与雅虎共同开发的免费版。出版商锐德商讯集团(Reed Business)搜索部门首席运营官(COO)格雷伊姆·麦克雷肯(Graeme McCracken)强调说,事实表明,经常使用搜索的用户最需要个性化特性,而那些偶尔一用网络的访问者通常也对个性化没什么兴趣。

继续阅读
李彦宏:中国搜索引擎市场 20年后再论“极限”
专家揭密搜索引擎作弊:经济利益是“黑手”
美搜索公司开发个人信息搜索引擎
报告称搜索引擎改变隐私政策对用户有利
视频搜索引擎的Top 10
发表评论

昵称:
最新评论
暂时没有评论!