Patentics

Patentics语义检索过程标准化

    我们以科学为唯一索求。
    Patentics于2009年上线以来，大量的中国专利局审查员在每天的审查工作中使用我们的服务。我们的微信无非就是希望帮助审查员更好掌握新一代语义检索技术，为提高中国专利审查质量尽一份力。如果说我们的分析万一哪里冒犯了哪位领导，请看在科学的名义上，宽恕我们！
    【大家一定读完，虽说下面的开头看起来像是昨天的删除版，但是我们加了许多新的内容，附图也重做了，还包括从来没有写过的Patentics语义检索标过程准化】
    许多审查员对Patentics用户界面提出了改进建议。其中，最突出的是希望对搜索结果的排序与搜索结果的附图的高速批量显示集成。更进一步，提出希望能在浏览每一篇文献的全部附图（不是首图）时，能够同时快速阅读每一篇文献的摘要。就是说希望图文结合，最相关的最先看！
    为满足审查员快速检索、浏览、理解直至找到高相关度的对比文件，Patentics已与近日推出智能语义图文检索系统界面www.patentics.com/scn.htm（中文界面）和www.patentics.com/s.htm（英文界面）。当检索结果出来时，第一时间显示图文信息，而且每个页面的显示项数20/50/100可调。

    下面，我们还是以 “一种可电驱动的车辆”的检索过程分析为实例。通过本实例，我们希望发展一种标准检索过程，帮助审查员能快速找到中文、英文对比文件。
    输入(申请号或公开号)
    r/cn200710146226.2

快速浏览到第二篇，从图中发现很相关文件。查看公开日是在本申请后，虽不能用作对比文件，但是表示排序的方向是正确的，坚定了找到对比文件的决心！

    虽然该申请不能做对比文件，但是这并不妨碍我们通过该申请获取相关信息，比如说英文技术特征。
    做为标准化操作流程，我们介绍图文信息浏览器界面与专利信息浏览器间快速切换，通过专利信息浏览器界面快速获取该专利的英文翻译版本。
    大家一定熟悉Patentics专利信息浏览器界面，里面包含摘要，机器标引主权项，机器标引关键词项，同族、法律状态等信息。许多信息对于查新审查检索，可能暂不需要。当输入公开号或申请号进行相关度排序时，审查员一定是着急找到最相关的对比文件。为了帮助大家第一眼就能看出个大概，最大的帮助莫过于把专利附图与摘要同时快速原位显示，快速浏览。

Patentics带有高准确度的中国专利申请的全文英文库（近1000万篇）以及对应的智能机器标引的英文关键概念（1000万中文+1000万英文，人工标引？）。通过2个点击，我们就可以快速、原位获取这些关键信息。
点击标题，获得专利信息浏览器界面。按下CTRL键并同时点击右上角“复制”小按钮，复制该中国申请号的英文翻译版本。

点击专利信息浏览器中的标题，点击“索引”，即可获得机器标引的该申请CN201736931的关键技术特征。我们发现“grille”（隔栅）是一个非常好的关键技术特征的英文描述。

    选择美国全文授权、申请库，还是用该中国申请做排序基准。这时候系统会自动采用中国专利申请的英文翻译全文，对英文文献进行排序。新的检索式为，
    r/cn200710146226.2 and di/cn200710146226.2 and b/grille
    对所有公开日在cn200710146226.2申请日前（20070829）并包含关键词grille的美国专利、申请，按中国申请号cn200710146226.2（的英文版）的语义进行自动排序。
    快速浏览美国专利图文信息，被Patentics从5,925篇中排在第2位的US5919048A，只需扫一眼该美国专利的附图，就知道这是一篇大家想要找的对比文件！

有人可能认为，如果知道关键词“grille”，不用语义排序也可以找到US5919048A。这个我们可以试试看。大家可以点击“公开号”，这样检索结果就不按语义相关度排序，5,925篇美国专利将按公开日排序，US5919048A会出现在什么位置？出现在第1,559位。显然，没有语义相关度排序，5,925篇都一样重要，每一篇都必须阅读，最后必须借助于检索策略将数据集缩小到可阅读范围。这时，希望的对比文件非常有可能已经被排除在外。

    相比之下，Patentics语义排序，检索结果一篇都不少（5925篇），每一篇通过计算与被审发明内容的语义相关度，即两两间发明内容的相关关系来进行排序。相关度高的排在前面，相关度低的排在后面，决不会像传统检索靠去除
    检索策略来缩小阅读量那样的漏检。
    Patentics语义检索，把专利查新变成一个标准化的过程。我们总结一下，
    1、先用公开号或申请号对中国申请数据库排序（对1000万申请全文进行排序），
    r/cnxxxxxx and di/cnxxxxxx
    一般快速浏览前100篇，根据我们与国际检索报告的自动测试表明，前100位包含X对比文件的概率为48%左右;
    2、如果通过快速浏览没有发现合适的对比文件，可以考虑提供一个简单检索策略，将排序范围从全部数据库（千万级）压缩到特定范围（百万、数十万...都可）。可以是大家常用的布尔检索式定义，如关键词b/，IPC分类icl/等等，这个特定范围可以很大，因为最后可以通过排序将最相关的排到最前面；
    r/cnxxxxxx and di/cnxxxxxx and b/xyz
    r/cnxxxxxx and di/cnxxxxxx and icl/xxxx
    ...更多请见“字段组合”

。
    3、如果在中文库里不能找到合适对比文件，可以进一步考虑到英文专利申请库继续找。为了找到合适的关键技术点来限定范围，可以考虑先在中国全文库中找到最相关的申请，然后通过CTRL+“复制”按钮获得该申请的英文全文，就如本文前面所介绍的过程。借助于Patentics中国专利申请英文库，还是用原来的中国公开号、申请号为排序基准，只需把数据库指到美国、EP等即可。
    关于数据库的选择，我们建议根据全文数据的构成考虑。对于中国专利数据库，建议使用中国申请库，不加授权库。因为中国申请库包含每一篇授权的公开披露。加入授权库，里面许多信息都是冗余的。美国全文库则不一样，因美国的授权库与申请库不是全部重合的，因此一般需选择授权、申请。
    不靠运气，你能捡到我检不到还有他也检不到。靠的是r/cnxxxxxx排序。这个号是大家都知道的标准号-公开号或申请号！所以我们说现代专利检索技术与传统布尔检索技术的最大差别，就是检索过程标准化了！
    下一节我们还要介绍，如何使用Patentics排序加简单检索策略，对EPO对比文件进行回溯分析，找出“推测欧专局可能具有特殊的检索工具或检索方式，所以获得了这两篇文件”。