推荐系统的艺术、科学和生意(2)
除了亚马逊
亚马逊的系统相当棒。它是一个协作购物和自动化的天才,几乎没法复制。这个系统花了亚马逊十年的时间来建造和完善。它基于一个超大的物品和集体行为数据库,该数据库“记住”了你在几年以前和几分钟以前的行为。新公司要怎么样才能跟它竞争呢?
令人惊讶的是,确实是有方法的。答案在一个与在线购物没什么关系的领域找到——遗传学。如你所知,这门科学是研究DNA片段,即基因,是怎么对人类的特征和行为进行编码的。比如说,一个家庭的成员相貌和行为是相像的,因为他们有相同的基因片段。遗传学作为一门科学已经存在150多年了,它为医学和历史学提供了强大的工具。但是在2006年1月6日,事情发生了意想不到的转变——Tim Westergren和他的朋友们决定将遗传学的概念应用到音乐上。
潘多拉(Pandora)——基于基因的推荐系统
音乐基因组计划

旨在将音乐分解成基本的基因片段。其背后的想法是,我们喜欢一段音乐是因为它的属性——为什么不利用音乐片段之间的相似性做一个音乐推荐系统呢?这种类型的推荐引擎属于物品推荐(Item recommendation)。但是新奇而深刻的是,像一段音乐这样的物品,它的相似度需要通过它的“基因”构成来衡量。

这个项目经过多年的奋斗和处理大量的音乐,积累了足够的数据,并推出了这个服务:潘多拉(Pandora)。潘多拉的成功在于它的精确性和输入的简洁。用户只要选出一个艺人,或者一首歌,就可以建立一个始终播放类似音乐的电台。
这种快感是难以抗拒的。潘多拉理解是什么导致音乐相似,所以他可以在不知道用户喜欢什么的情况下抓住他们。潘多拉不需要知道用户的口味和记忆,因为它有自己的——基于音乐DNA。当然,有时它可能并不完美,因为用户的口味并不是完全固定不变。但是它很少出错。
一个自然的问题是,这种基于基因的方法可以用在其他领域吗——比如书籍,电影,红酒,旅馆或旅游地点?每一种分别由什么构成基因?比如,我们是否能够说,红酒的基因就是那些形容口味的东西:黑莓味、泥土味、水果味、复杂、混合等等。而对于书,基因是否就是描述情节的词?如果我们认为基因就是那些使得物体独一无二的东西,那么各种东西都可以毫不费力地用基因来描述。在过去的几年里,我们在网上就大量地做了这样一件事:标注。
美味书签(Del.icio.us)——标签是否能成为基因?
潘多拉启动成本很大,因为有成千上万个音乐片段需要人工注释。而del.icio.us的社会化书签现象则用到了另一个方法——让人们自己去注释。这种自组织的方法很好用,而且del.icio.us在早期的使用者中迅速地流行了起来。现在,del.icio.us已经不单单是一个书签网站了——它还是一个新闻站点和一个搜索引擎。但是del.icio.us是一个推荐系统吗?

答案是肯定的。这里有一个基本的推荐系统,它基于一个基因——标签。比如在上面的图中,我们看到了使用linux标签的一些流行的链接,同时,我们也看到了相关的标签比如open source和ubuntu.但是一个更让人兴奋的推荐系统是基于多标签匹配的。不幸的是,现在这种启发式的方法并不总是管用。这也是其推荐特征并不明显的原因。但是幸运的是,它对读写网(Read/Write Web)的页面很有效,产生了大量相似博客的列表。(见下面的"related items"):

所以,del.icio.us的方法极有可能被用于构造一个自组织分类和推荐系统。通过足够的用户量和更多打磨,社会化标签可以产生一个对书籍、红酒和音乐都很管用的推荐系统。当然,前提是标签要好到足以成为基因!
结论
推荐引擎是在线交易系统和用户体验很重要一块。零售商们有很大的激励向那些“只是浏览”的用户推荐产品,来诱导他们购买。Amazon.com,这个领域的领袖,提供令人瞩目的个性化服务。其他零售商面临的问题是缺少用户信息和基础架构。
最近被应用到推荐系统的一些方法,比如潘多拉的基因灵感和del.icio.us的社会化标签,都是值得思考的。这些方法能即时地产生推荐,而不需要用户暴露他们的喜好和过去的历史记录。不管将来怎样,亚马逊,潘多拉,美味书签都是拥有非凡推荐系统技术的典范。我们赞赏他们,并期待着接下来会出现什么。
- 暂时没有评论!
