Patentics搜索透镜的成功,是建立在计算机硬件越来越便宜,算法可以越来越复杂,用成倍、数十倍计算量来换取排序精度的提高的判断上。当2009年1月,Patentics语义检索首次登上世界专利检索舞台,我们的语义引擎是简单的单模型-单知识库架构。随着CPU、内存的性价比每年成倍提升,使我们可以通过大幅度提升算法的复杂度来提高排序精度成为可能。
第一次尝试是采用单模型-多知识库架构,将一个全局知识库,切分成10-20个领域分知识库。就像原来是一个全科医师诊治全部病人,现在变成多个专科医师诊治对应专科病人一样,多个领域分知识库被用于对相关领域的专利全文进行排序。这样,虽然Patentics模型复杂度、排序计算量翻了许多倍,必须淘汰我们原来的硬件,但是排序的精度提升了30%,对应用户的检索、浏览效率提高了30%。
第二次尝试是采用双模型-多知识库架构。我们知道,每个发明都有其固有的特征量。但是,通过不同语言表示,往往会对这些固有的特征量表示带来不同的信息“失真”。我们发明的多语言模型-多知识库架构,就是希望通过不同语言的互补表示模型,构造不同视角的语义引擎来对被描述的发明进行全方位的排序。又一次以算法复杂度成倍提升,计算量成倍增加为代价,换取了Patentics的排序准确率提升10%。更关键的是,通过智能融合不同语言引擎的排序结果,我们又获取了一个新的排序决策量 -- 搜索“聚焦”,使产生“聚焦”的前20篇的浏览效率提高50%-100%。
上述Patentics搜索透镜是通过中、英文模型排序输出互为参考、对比实现。作为我们新一轮的尝试,Patentics新一代搜索透镜将采用多于两种语言(中、英、日)表示中国发明。这样,聚焦融合与决策算法可以采用多数表决来提高聚合排序命中率和聚焦命中率。
Patentics搜索透镜对于中、英、日文用户来说,与正常检索一样,输入都是公开号。只是对输出排序结果中被聚焦的那些文档号进行特殊标记处理。如CN101207555被标绿色,表示该文献被中、英文模型都计算排序在第1位。以此颜色提示用户对该文献加以特殊关注,因为根据大量统计试验,这些被第一位聚焦的文献为X文献的概率是20%。CN1819916分别被中、日文模型排序在第2位,标浅绿色提示用户加以关注。
从此,全文搜索技术中出现一个新的词汇,您的搜索结果有没有被“聚焦”!
希望更多了解Patentics搜索透镜技术,可以参考中国专利申请CN201310274941.X。