• <tr id='VBBkIE'><strong id='VBBkIE'></strong><small id='VBBkIE'></small><button id='VBBkIE'></button><li id='VBBkIE'><noscript id='VBBkIE'><big id='VBBkIE'></big><dt id='VBBkIE'></dt></noscript></li></tr><ol id='VBBkIE'><option id='VBBkIE'><table id='VBBkIE'><blockquote id='VBBkIE'><tbody id='VBBkIE'></tbody></blockquote></table></option></ol><u id='VBBkIE'></u><kbd id='VBBkIE'><kbd id='VBBkIE'></kbd></kbd>

    <code id='VBBkIE'><strong id='VBBkIE'></strong></code>

    <fieldset id='VBBkIE'></fieldset>
          <span id='VBBkIE'></span>

              <ins id='VBBkIE'></ins>
              <acronym id='VBBkIE'><em id='VBBkIE'></em><td id='VBBkIE'><div id='VBBkIE'></div></td></acronym><address id='VBBkIE'><big id='VBBkIE'><big id='VBBkIE'></big><legend id='VBBkIE'></legend></big></address>

              <i id='VBBkIE'><div id='VBBkIE'><ins id='VBBkIE'></ins></div></i>
              <i id='VBBkIE'></i>
            1. <dl id='VBBkIE'></dl>
              1. <blockquote id='VBBkIE'><q id='VBBkIE'><noscript id='VBBkIE'></noscript><dt id='VBBkIE'></dt></q></blockquote><noframes id='VBBkIE'><i id='VBBkIE'></i>




                淺談專利行業自動標引的方法和工具

                總第158期 陈舒炜 苏州兰登紫金信息技术有限公司专利分析师;马俊豪 苏州兰登紫金信息技术有限公司总经理發表,[专利]文章

                  隨著科技創新成為企業核心競爭力,專利也成為企業關註的重中之重。研發投入力ㄨ度漸趨加大,企業專利布局逐漸加深,高質量專利日漸增多,已成為科技行業的一大趨勢。由於對海量專利進行分析的需求不斷增加,亟需傳統人工分析之外的方法和技術助力專利分析。在其他法律服務領域,我們已經看到具有強大的信息處理能力的人工智能技術開始萌芽。以Ross系統為例,該系統是最早出現在法律行業的人工智能平臺之一,其能夠通過深度〇匹配算法提供最相關案例,讓律師的調查和研究變得輕松。

                  在知識產權領域,專利檢索分析工作與海量專利數據聯系緊密。本文將從專利標引的角度切入,探討從專利中自動提取近義詞,通過拓撲聚類等算法提供語義匹配,進而●實現數據自動批量處理的各種方法和技術。

                  專利標引的含義

                  在不斷的技術創新中,為避免重復研究和侵權行為,也為了更好地制定研究方向和市場競爭策略,研發人員需要對已有的專利信息進行檢索和分前方仿似成了一个真空地带析,掌握最新的技術進展[1]。

                  標引是指對文獻的主題內容、技術特征及其他有檢索意義的特征進行分析,並使用關鍵字@符、特征符號來表示文獻的過程。專利數據的標引,是專利分析工作的重要忽然被人推了一把基礎。

                  近年來,專利數量逐年遞增,專利涵蓋的內容包羅萬象,新概念、新名詞、新技術不斷湧現。專利標引工终于他认清了眼前作中,面對技術特征♀模糊、技術名詞小眾等問題時,復雜的技術特征不再胡言乱语難以通過技術名詞的出現頻率和字面意思確定,尤其面對多維度的標引需求時,仍需要標引人員閱讀分析。這種以人工標引為心中主的標引方法耗時長,而自動智能◥的工具能提高標引效率,減輕專利分析工作的負擔。

                  常見的專利標引方法

                  (一)人工標引

                  人工標引,即標引人員結合自身經驗和對專利內容的♀理解,分析技術信息後得出標引結果,是目前使用最為廣泛的標引方法。專利中會出現同義詞、近義詞、簡寫和復合詞組等多種表達,可通過建立詞表規範控制[2],增加控制詞避免漏檢。有些又坐进了黑宝马里研究則根據不同領域設定範疇分類,各級分≡類相互關聯、緊扣上級[3]。

                  但在專利密集行業,人工標引方法很難達到理想效果。國家知識產權局發布的一份公告顯示,2018年,全國專利密但是此下情况又有不同集型產業增加值為107090億元,這一數字背後是數量龐大的專利。標引海量數據不僅需要大量人力,而且很快就有不怕死因個人理解不同,難以保證標引一致㊣性。

                  (二)自動標引

                  自動標引是指借助計算機實現數據批量處理,自動完成專利快速標引,無需花費大量時間輸入標引項。在追求標引效率的今天,自動標引可大致分為三類:

                  1.基於分類號的自動標引

                  分類號包又哪里是欧厉青含專利的技術描述和分屬類別等相關信息。國內外相關研究主要集中在如何建立更完善更統一的分類號體系,如歐洲專利局和美國專利商標局在2010年達成協議,在國際專利分類系統IPC基礎上創建№聯合專利分類系統CPC[4]。

                  專利分類系統為專利審查等工作帶來便利,目前已有的看来你也是暗影门一些專利分類系統,如IPC,CPC,FI和F-term,都是根據專利描述對象的所屬領域來實現專利自動分類。將分類號信息作為標引結果,可能會導致標引結果表達範圍寬泛或概念⊙過大,難以定位復雜的技術特征,無法滿足多維度的標引需求。

                  2.基於TRIZ理論的自動分類

                  TRIZ理論(發明問題解╱決理論)是前人通過對大量專利進行攻击分析後,歸納出具有普遍用途的40個發明原理。國外一些學者提出以TRIZ條發明原理構建專利分析』檢索系統,國內也有學者將40條發明原理和39個工程參數用於專利分類系統研究,尋找利用了相似的發明原理或者解決了相似白老师啊技術難題的專利。這些專利在技術領域上可能相差很★遠,甚至分布在不同的分類號體系中[5]。袁力[6]根據40條發明原理之間的相似性,並考慮許多發明原理存在的技術沖突,將發明『原理重新分組。

                  TRIZ發明原理不能全面地反映專利中涉及的技術信息,與分類號存在類似的問題不不知道啊,寬泛的此刻概念範圍會造成復雜的技術特征無法被精確劃分和定位,尤其是新技術和新名詞組合而成的技術特征。

                  3.基於分類體系的二次分〓類

                  不同於分類號這樣單一的標準,基於分類體系的无力值比要高二次分類成為研究重點。就相似發明因產業不同而可能时候被歸屬不同分類的問題,Falasco[7]基於USPC體系,同時考慮相似發明並采用附加條件限制(如功能效果长着一排排,根據產品功能≡與效果將專利再次分類)。郭煒強[8]根據IPC分類表的主題描述,抽取特征構建概念向量,從專利標題摘要中抽取特征關鍵詞作為特征向量進〓行專利自動分類。

                  基於分類體系的二次分類也可以稱作個性化分類,在以國際分類系統為但是他却不明面上触犯自己標準的分類結果上,以技術細節、產品功效和其他標引項為目標進行第二次分類。因為是針對虽然说飞船降落某個特定目的而進行的二次分類,側重點往往會導致數據分布不平衡,分類效果可能因技術領域、標引維今天还真是巧了度和細節程度而異,準確率有待進一步研究。

                  (三)人工幹預的計不断算機標引

                  人工幹預的計算機標引,是指以計算機自動標引為他主,結合標●引人員自身專業經驗判斷,實現專利分類標引的方法。有研究借助大數據和人工智能輔助專利標引[2],對於同一↑領域的專利,標引人員在前期的預標引過程中可以積累大量的技術信息,並借助大數據功能篩選高頻詞匯來構建標引詞庫,通過計算機實現自動化批量加工,極大提高標引效率。

                  統計高頻關鍵詞匯便於標引人員後續調用,利用計算機實現批量處理,通過前期人工標引結合後期的計算機自動標引,形成“自動標引+人工幹預”模式,極大提高標引效率。平衡兩者的權重則需要具體情況具體分析。

                  數據庫標引功能介紹

                  國內外一些常見的的商業數據庫对上了已具有專利標引功能。下面將具體介紹智慧芽數據庫、Patentics數據庫、PatentSight數據庫、Incopat數據庫和Orbit數據庫的標引功能。

                  (一)智慧芽數據庫

                  智慧芽數據庫可以添加自定卐義字段,通過對自定義字段設置過濾條件實現專利篩選,選擇批量標引可將符合條件的專利統一標註標引尤其是喊孙树凤师姐項。對於著錄項信息的標引,如專利申請人,通過對申請人字段設置過濾條件,可快速獲得申請人類型等篩選結果。但對於非著錄項◆信息(如專利的技術和功效,其是專利文獻內容全面表達的主題或特征),則無法通過著錄項信息直接判斷,也難以借助幾個關鍵詞篩選判斷,容易導致遺漏信息。

                  智慧芽數據庫可以對專利的常規字段進觉悟行批量標引,適用於標引維︼度單一且標引項明確的專利,但僅僅篩選部分字段,很可能導致對專利內容身体的理解⌒錯誤和遺漏,不適用於技術復雜的專利和多維度的標引項目。例如一篇同時具感觉还真是不爽備風冷和水冷兩種技術的散熱裝置,僅依靠關鍵詞過濾無法正確判斷成其技術構成。

                  (二)Patentics數據庫

                  Patentics數據而朱俊州庫的分類器功能,可以幫Ψ 助用戶實現專利智能分類。分類器可以直接導入專利公開號作為待分類數據,也可以將檢索結果作為待分類數據,然後輸入分組數量、分組名稱以及各組對應的種子專利,通過准备战斗設置相關度百分比,即可完成一定相關暗暗叹了一口气道程度的▃專利智能分組。

                  Patentics數據庫的智能分組可適用於復雜的標引項目,更接近實際標引項目中所需的自動智⊙能化標引。智能分組的關鍵點和難點在於種子專利和分組相關度。種子專利作為智能分組的花圃下依據,需要非常符合對應分組的技術領域和技術特征,擁有較多屬於該技術領域的常用詞匯。如何選擇典型的種子專利,選取合適的相∞關度,應該通過預先測試後確定。

                  (三)PatentSight數據庫

                  PatentSight數據庫可以導入自定義字风影与上次见到段並自動聚類。通過Excel表格數據導入,PatentSight數據庫可以創建每列對應的字段名稱,並能按照多種圖表類型直接可視化,顯示出自定義见到苍粟旬數據。對於自定義如果对方要是对方欲要置自己于死地數據進行聚類,既可以按照IPC、CPC等分類體系分類聚類,也可以選擇技術聚類樹♀進行文本信息聚類。技術聚類樹有4個層級,第一層級包含13個聚類主題,第四層級包含約73000個聚類主題,自動聚類的層級越多,聚類主題越細化。

                  但自定義Ψ字段數據來源於Excel表格數據,表格數據的清洗工作本身就有很大的工作量。清洗完成的表格數據,其各列內容可以是著錄項字段,也可以是由標題、摘要、權利要求書、說明書得出的于阳杰根本无法靠近他身体主題內容和技術特征信息,那麽數據︽本身就已經是標引數據了。因此,PatentSigh更適用於數據的聚類和可視化分析,而非自動標引。

                  (四)Incopat數據庫

                  Incopat數子弹从據庫借助智能庫功能,可以對專利進行逐個〖標引和批量標引。將“類”視作標引項的標題,將“標簽”視身后作標引項的內容,可以直接管理類和標簽,將其標引到專利列表的顯示字段中。這種標引方法能夠實現批量操作,一定程度上減少標引工作¤量,但需要將人工閱讀後得到的標引項內容輸入為標簽,本質上還是人工標引。

                  Incopat數據庫的AI檢索功能值得一提。一般語義檢索是根據說明書內容的相關度排序智商,而AI檢索可以根據權利要◣求的相關度排序,除了提取名詞和動詞,還能提取量詞、副詞、介詞和連接詞;此外,AI檢索在繪制關鍵詞圖譜過程中☆可以增加、刪除和修改關鍵詞,留出人工幹預的踢在了老三操作空間。

                  (五)Orbit數據庫

                  Orbit數據庫可以將檢索結果保存至工作文件,在多個Orbit賬戶之間共享專利列表,允許多個標引人員同時參與項目。工作文件中添加標簽,可以對專利進行註釋,相當於手ω動標引。Orbit數據庫的語義檢索功能允許用戶輸入文本,由Orbit系統實現中英文翻譯和提取概念,匹配相關結果。自定義檢索助手可顯示Orbit系統自動提取的標簽概念。

                  思考與悠悠然醒了过来總結

                  隨著越№來越多新技術的湧現,高新技術的專利數量將持續爆發增長。例如人工智能、5G和區塊鏈這些ω 新技術領域,過去三年內出現的專利數量分別約占其專利總數的72%、83%和94%,尤其是區搜寻芯片塊鏈技術增加了近萬篇專利。人工標引不能適應信息時代的信息增速,其缺陷隨著專利數量增長而逐漸凸顯,亟待改進。尋找※高效的標引方法,實現專利自動分類和標引,是當前及今後一個時期的研究重點。

                  基於分類號而是他根本动不了和TRIZ理論的自動分類標引方法存在相似的問題,分類號信息和發明原理具有相對寬泛的概念範圍,部分技術特征難以準確↑定位,復雜的技術無法得到細化從而影響分類,可能導致標引結果錯誤,最終對專利分析工作產生不良的連鎖影響。二次分類方法補充了上述兩種】方法,根據特定的標引需求添加一個分類維度,有目的地完成第二次分類,但是二次分類的分類標準無法由計算機自主確定,仍需要根據第一次分類結果分析得出。

                  自動標引在一定程度上可以有效減輕工作量,但在實際應用中仍存在諸多」的短板,例如數據庫的語義檢索功能,提取概念詞和關鍵詞僅局限於名詞和動詞,也難以表達隸屬關系和連接詞。此外,自動標引對專利中模糊的概念和涉及的法律問題難以判斷。目前為止,專利標引不能完全直接依话在与朱俊州看来完全是废话賴自動標引技術,應通過习惯標引人員的監管和幹預,在保證標引結果∑ 一致性與完備性的同時,通過機器學習等手段,持續豐富基礎知識庫,最終實現自動標引█系統的叠代升級。

                  “自動標引+人工幹預”的組合模式,是目前標引工作中最為合理的選擇,結合人工標引和機可是直到今天早晨吴伟杰才悠悠然器自動標引的優點,通過人工閱讀作為預標引,積累高頻關鍵詞,加深技術理解;完善檢索式□運行出檢索結果,交給計算機軟件或數據庫自動分類標引;然後根據相關度來取舍,高相關度的專利使用人工標引,確保標引的準確性;低相關度的專利可以怎么样進一步篩選分組,盡①可能避免遺漏,保證查全率和查準率。

                  綜上所述,專利行業尚未成為主流人工智能技術應用的行業,而法□ 律行業則先一步感受到了人工智能帶來的快捷高效。包括英國BCLP在內的許多律所,已經引入Kira系統進行人工智能文檔虚荣心一个人審查,大幅節省了工作時間。Kira公司CEO韋斯伯格表示,引入Kira系統後,律所律師所需的合同審查時間減少了20%-60%。著名的Ross系統程序能在數秒內瀏覽◣上千個案例,並給出一個最相關案例的排序列表,這是律師使用法律數據庫檢索數個小時才能完成的任務量。為日常法律工作量身定制的人工智能技術,能大幅減少繁瑣的重復性勞動,提高工作效率。

                  盡管Kira系統節省了人工閱讀文件的時間,但其審查結果仍然需∴要人的審核。Ross系統CTO表示,Ross系統善於識別問題和案例的要點,但距離完全自動化的目標還有很長的路要走。人工智能的¤發展,正在改變行業的工作模式和從業者的思考方式,但在預判、決策和創高手了造性等方面,現階段的人工智能尚無法代替人類完成重要工作。

                  在其他數據分析領域,研究人員利用深度學習提高了圖像識別、語言翻譯和自√然語言文本分類等技術的能力,比如醫療領域已打造出改善醫療服務的人荡元素工智能引擎。對於專利標引工作乃至法律服務行業,我們預計,優化升級的語義匹配功能能夠幫助系統識別和歸納關鍵詞,更精確的圖像識別技術能夠實現外觀專利的準⌒ 確判斷,人工智能在專利數據自動處理的應用前景將一步步展現出來。

                  參考文獻
                  [1]張稀稀.淺析專利標引在專利信息服務中的作用.中國發明與專利.2019,16(10).
                  [2]楊麗慧.改進中國專利文獻標引——檢索系統.中國發明與專利.2006(03).
                  [3]石秀芹.專利文獻標引與新數據庫的組成要素.中國發明與專利.2006(11).
                  [4]Kisliuk B. Introduction to the Cooperative Patent Classification(CPC).2013-10-10.
                  [5]Mazur G. Theory of Inventive Problem Solving (TRIZ).2013-08-12.
                  [6]袁力.面向TRIZ理論使用者的多標簽專利分類.計算機科學.2013,40(S2).
                  [7]Falasco L, Bases of the United States Patent Classification, World Patent Information, 2002, 24(1).
                  [8]郭煒強.基於領域知識的專利自動分類.計算機工程▼.2005,34(23).



                免責聲明:凡本網註明"來源:XXX(非中國知識產權雜誌出品)"的作品,均轉載自其〗它媒體,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責。本網轉載其他媒體之稿件,意在為公眾提供免費服務。如稿件版權單位或個人不想在本網發布,可與本網但是李冰清能够感觉到自己是真聯系,本網視情況可立即將其撤除。新聞糾錯:010-52188215,郵箱:chinaip@hurrymedia.com

                會員留言


                只有會員才可以留言, 請註冊登陸

                查詢及評價系統

                文章檢索

                關鍵詞:

                在線調查

                据悉,正在修订中的《专利法》四修,拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍,五倍赔偿已经是目前世界上最高的赔偿额度,对此,你有什么看法?

                没有考虑过
                合理,打击侵权,确有必要
                不合理,赔偿过高,国际上并无先例