星期三, 四月 04, 2007

Blinkx为传统搜索技术补钙 震撼搜索巨头

【赛迪网讯】2005年7月11日消息,现有搜索技术很难满足类似这样的搜索需求,如“最便宜的笔记本电脑是什么”、“中国队能否赢得世界杯”、“本月最热门的IT新闻事件有哪些”等等。

  上述搜索需求暴露了现有搜索技术的软肋:建立在关键词全文检索理论基础上的搜索技术,在许多方面并不能满足人们的一些“模糊需求”,而这些“模糊需求”的数量则远远大于“精确需求”。

  Autonomy正是为给这个软肋补钙而生。Autonomy既是一种搜索新理论的代名词,又是一个公司的名称,同时还是一个产品的名字。从Autonomy目前的蔓延态势看,它很可能成为几大传统搜索门派的终结者。

  可以负责任地说,今年元旦之后的一个传言将与去年年中的一条消息一样,将引起Google、雅虎、微软等搜索巨头们的严重警惕。

  Autonomy的“样板工程”Blinkx

  2004年7月,一个位于美国旧金山的创业公司推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,系统经过“学习”积累了一定“经验”后,可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。

  有媒体把这种搜索方式称为“占卜式”搜索,也有人将其称为“职能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。

  Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。

  Blinkx公司同时发布了提供这种新型搜索功能的两个服务工具,一个是门户网站 (www.blinkx.com),一个是在该网站上可以下载的客户端软件,该软件大小约7MB。尽管这两个工具目前仅支持英德两种语言,而且都只是测试版,但它提供的震撼性功能已经开始让传统搜索巨头们为之瞩目。

  与传统搜索网站不同的是,在Blinkx的搜索框中键入用户指令,比如 “CDMA”,出现的结果可能被系统自动分为10类,可能其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,完成“进阶式”查询,通过这种方式逐步接近目标,最后达到用户期望查询的结果。

  如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Windows Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。不仅如此,它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

  美中不足的是,Blinkx目前在中国境内没有设立服务器,所以浏览网页的速度会受到较大影响。目前,Blinkx还处于测试阶段,它从网上抓取的数据还不够多,其数据库中装载的信息还不够完善,更新频度也不够快,所以,用户可能找到结果(文档)常常比较陈旧。

  2005年元旦刚过,又有消息传来:Blinkx将进入中国市场,其中文测试版已经 “竣工”。据英国Autonomy公司在国内的代理商卓越动力软件(北京)有限公司称,目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统。

  Autonomy公司是Blinkx公司的股东之一,后者的核心技术也来自前者,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Blinkx发布之前, Autonomy在公众中并没有太大名气;Blinkx发布之后,Autonomy仅有的名气也很快被Blinkx所超越。

  Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声煊赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

  正如Autonomy产品所体现出的人文设计思想一样,Autonomy公司也诞生在人文气息十分浓厚的英国剑桥大学。

  贝叶斯概率论与香农信息论的混血儿

  Autonomy的创始人是剑桥大学的迈克·林克(Mike Lynch)教授。1991年,林克教授创立了Autonomy的前身Nurodynamic公司,后者是林克从一个乐队老板融资3000多美元创建的,该公司主要致力于剑桥大学模式识别研究成果的产业化工作。

  到1996年时,林克教授已经积累了足够多的客户资源。于是,他向风险投资商借贷了 1500万美元,创立了Autonomy。同年,Autonomy推出了世界上第一套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产品系列。

  Autonomy产品的核心算法是两种数学理论的独特结合:贝叶斯概率理论和香农信息论。

  18世纪,英国牧师托马斯·贝叶斯曾经试图利用概率论证明上帝的存在,但他未能如愿,不过,他所创立的贝叶斯定律却奠定了现代概率论的基础。两个多世纪以后,这个定律成了Autonomy发家致富的敲门砖。不少数学家认为,贝叶斯定律描述的逻辑是一种跟人类思维模式最接近的数学逻辑,它通过一个概念出现频率的多少和与其他概念之间的关系来决定其成分的重要性。

  香农信息论则提供一种方法来提取一篇文章诸多概念之中最有意义的部分。香农信息论最基本的理论是:一个词重复频率越高,其内容越不具有概括性,反之,一个词重复频率越低,其内容越丰富。

  Autonomy中含有一个动态推理引擎(Dynamic Reasoning Engine,DRE),它是一个扩展性很强的、多线程的核心引擎。信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都由动态推理引擎来完成。它是一个跨平台的引擎,可以在多种硬件和操作系统环境下优化运行,支持从Intel PC使用的Windows NT到多处理器小型机运行的UNIX等系统环境。它可以与各种不同信息源相连,如互联网、数据库、内部网和本机数据库、文件系统等。当用户发出搜索指令后,它可以通过概念分析、模式识别、相关度计算等方法,从不同的数据源中找到与用户要求最匹配的信息。

转载自:http://tech.sina.com.cn/i/2005-07-11/1140659371.shtml

没有评论: