Patentics语义检索精解
许多用户在使用Patentics的语义检索中,经常误解语义检索“缺少可控性”。其实不然。
Patentics语义检索的精髓是排序。
排序可以在全部数据库中排序。比如,r/公开号, r/cn1128593, r/us4567890,等等;
如果是新颖性检索,则加上时间限制。如,r/公开号 and di/公开号,即对该公开号申请日之前公开的所有文档进行排序。同时,还可以给出年月日时间数据,指定为该日之前公开的所有文献进行排序,如 r/公开号 and di/yyyymmdd。如果希望做抵触申请,则时间限制用 da/公开号,或da/yyyymmdd,为对该公开号申请日(或yyyymmdd)之前申请的所有文档排序。这就是我们所谓的“大海捞针”般的全数据库排序,即完全依靠我们的计算智能,按文本内容进行语义排序。排序结果是全部数据库,显然那些排在后面的不相干文档,没有任何用处。因此,Patentics给出最相关的400个输出。而这往往给人以“漏检”的印象。其实,如果需要n个,你可以后加and ctop/n来控制输出最相关的n个文档,例如,r/cn 1128593 andctop/10000,就是用cn1128593对全库排序,输出最相关的10000个。
很显然,如果用户想对排序结果进行控制,除了上述输出个数以外,对于排序对象也可加以限制。例如,用户认为参与排序的文档必须包括某一关键词,如cdma,则可以用布尔检索式b/cdma来加以限制定义,r/CN1128593 and di/cn1128593 and b/cdma。
必须强调,Patentics支持所有传统布尔检索方法的命令。用户可以用任何传统检索方法来对排序的结果集数据进行控制(限制)。这样,采用传统检索来限定一个数据集,帮助我们的计算机算法从全库范围排序缩小到一个限定集排序,相当于人的智慧与机器的人工智能结合,产生更精准的排序结果。
什么是最理想的布尔检索式来限制排序数据集?答案是任何检索策略中有效的表达式都可以用。如关键词(b/关键词, ttl/关键词,abst/关键词,spec/关键词,等等)、IPC/(CPC/)分类,标准化申请人(ann/申请人)、申请人(an/申请人)。而且这些检索要素都可以像传统检索策略一样,通过and、or、andnot来组合。
与传统检索方法相比,什么是语义排序的优势?大家知道,传统检索输出的结果,没有相关度排序,每一篇文档都是一样重要,都必须阅读,不然就是漏检。因此,用户需要设计4-6个检索策略,将数据集限定在可浏览的范围(100-200篇),然后浏览每一篇文献。这样,许多相关的文献就会被4-6个检索策略排除在外,发生漏检。
而采用语义排序,被排序的结果集可以很宽泛。采用一个简单的关键词限定排序集在几十万篇中排序,经常也可达到理想结果。用户可以根据相关度从最相关到次相关依次浏览。往往浏览前面几篇,就可获得想要结果。而且根据系统给出的相关度排序,如果用户认为还需要进一步限定结果集,用户可以进一步添加检索式。
用户进行查新检索,可以是从简单到复杂,逐步渐进。
r/CN1128593,
r/CN1128593 and di/cn1128593,
r/CN1128593 and di/cn1128593 and b/cdma,或
r/CN1128593 and di/cn1128593 and ann/高通,或
r/CN1128593 and di/cn1128593 and icl/h04L,或,
r/CN1128593 and di/cn1128593 and icl/h04L and b/cdma等。
排序结果的最前面几篇是必读的。Patentics大数据分析告诉我们,第一篇就是审查员心目中的对比文件的概率为8-9%。而如果公开号被绿色标记,则表示该篇文献已经被语义透镜聚焦,其命中概率是20%以上。
当然,请记住!每引入一个检索要素进行限制,就会产生漏检。而这正是传统检索技术无法避免的。Patentics语义检索,可以将漏检限制在没有(r/)或很小的范围(r/ and b/)。