“揣摩人心”的搜索引擎

作者：丹尼尔.坦克郎来源：麻省理工《科技商评》发布时间：2009-9-18 16:51:34 点击数：

导读:如果你向图书馆管理员寻找一本关于墨西哥的书，那么管理员肯定会向你确认：你是在找历史书籍、旅行指导，还是其他完全不同的类别？今天的搜索引擎也将受益于这种方式。使用现有的在线系统，用户可以将信息请求缩减成…

如果你向图书馆管理员寻找一本关于墨西哥的书，那么管理员肯定会向你确认：你是在找历史书籍、旅行指导，还是其他完全不同的类别？今天的搜索引擎也将受益于这种方式。

使用现有的在线系统，用户可以将信息请求缩减成几个字，然后搜索引擎就会返回一个按照相关程度排列的文件列表。搜索技术专家一直忙于相关性排序算法和问答系统，以便尽可能地理解请求内容而不额外询问用户。但信息检索专家却表示，这些方法已经进入了收益递减的地步。仅仅通过单个问题，搜索引擎是不可能可靠地揣测出用户意图的。

我们需要的是人机信息提取(HCIR)，这是由北卡罗来纳州大学的加里.莫彻尼尼(Gary Marchionini)教授提出来的词汇。这种方法倡导使用那些将人类智力和注意力主动应用到搜索过程当中的工具。这些工具向用户提供机会来阐明和解释自己的意图，而非自己猜想用户的需要。如果引擎不确定用户所需，它就会向他们提问。

人机信息提取方法令人想到图书管理员所称作的参考访谈。事实上，人机信息提取更多地依赖了图书馆学中的一些技术，例如面信息检索。在过去十年为互联网用户不断变革之后，面搜索(faceted search)扩展了关键字搜索，允许用户以不同方法精炼查询。搜索“墨西哥”就可以根据话题(历史、人口)、语言(西班牙语)、出版日期等等得到细化。这种方法对于在线图书馆非常流行就不足为奇了，它也成为在线购物的核心，家得宝(Home Depot)的网页就是一个例子。人机信息提取将搜索引擎从黑箱匹配引擎转换成可对话的图书馆管理员。核心的技术挑战不再是对结果的排序，而是对结果进行总结和组织，使得用户可以和它们互动。人机信息提取给了用户更多的透明度、控制权和指导来建立、说明他们的信息需求，然后进行解决。

研究猜测用户意图的算法是很有乐趣的，将纯粹的技术解决方案推向极致的欲望更是不可抗拒的，但有时，最好的方法往往是最显而易见的。我们可以引用诺贝尔奖得主理查德.费曼(Richard Feynman)在他的名为《别闹了，费曼先生》书中给出的建议：当和酒吧朋友讨论如何泡到女人时，费曼重述了那哲人般的断言，“你只需直接问她们。”(文/丹尼尔.坦克郎，信息搜索公司Endeca的创始人之一)

上一篇：“物联网”概念炒作过头下一篇：更好提问，才有更好回答

首席专家

首席专家王科峰