作者:王啟蒙 專利分析師
在專利檢索中,有兩個重要的指標,查準率和查全率,這兩個指標直接關系著后期專利分析以及報告撰寫的質量,是后期分析的基礎。
查準率是指專利檢索的結果中,檢索出的相關專利量與檢索出的專利總量的比值,用于衡量專利檢索的準確度。
查全率是指專利檢索的結果中,檢索出的相關專利量與專利庫中所有的相關專利量的比值,用于衡量專利檢索的全面性。
假設檢索出的相關專利量為A,不相關專利量為B,未檢索到的相關專利量為C。那么,查準率Z=A/(A+B)*100%,查全率Q=A/(A+C)*100%。
在一定程度上,查準率和查全率是一對矛盾體,難以雙全,要想確保較高的查準率,就會犧牲一定的查全率,反之亦然。想在專利檢索過程中同時保證查準率和查全率,幾乎是不可能的,同時,也是沒有必要的。不同的檢索報告,對于查全和查準的需求是不同的,比如,對于查新檢索和專利無效分析檢索,對查準率的要求更高,盡可能降低專利量的總數,將閱讀專利的精力集中在相關性高的專利上;而對于防侵權檢索和產業(yè)分析,對查全率的要求更高,需要盡可能命中所有的相關專利,尤其是對于防侵權檢索,如果漏掉了侵權風險高的專利,那后果將是致命的。
對于查準率的評估,是比較容易進行的,可以通過抽樣的方法,比如,在檢索結果總數中,隨機抽取100篇進行閱讀,若相關專利數為60,那么該檢索式的查準率即為60%。
但對于查全率的評估,無法像查準率的評估那樣直接進行,原因在于,查準率的評估中,檢索出的相關專利量A、不相關專利量B,都是已知的,而查全率的評估中,未檢索到的相關專利量C,由于并未檢索到,是不可知的,因此,專利庫中的所有相關專利總量A+C,是無法獲知的。
因此,需要借助其他的手段間接地進行查全率的評估,關鍵在于構建一個合適的、可操作的查全樣本。
構建重要專利集
目前最常被用到的評估查全率的方法是,基于重要專利集構建查全樣本。該重要專利集可以是重要申請人、重要發(fā)明人,或者某一年代的專利量。以重要申請人為例,首先,對檢索的結果中,以申請人為檢索入口,找出檢索結果中該申請人的專利量,并閱讀,得到檢索結果中該申請人的相關專利量a;其次,在專利庫中,以該申請人為檢索入口,找出該申請人的總專利,通過人工閱讀或者恰當的篩選,得出專利庫中該申請人的相關專利量b。由此可以得到,該檢索式的查全率為a/b*100%。借助重要發(fā)明人、申請年代進行查全評估的方法與此類似。
針對該方法,存在以下問題,有些情況下,難以構建重要專利集,比如,個別重要申請人的專利特點與整體專利有較大出入,國內外不同申請人對某些專業(yè)用詞習慣不同等,又或者,行業(yè)內相關重要申請人數據量過多,需要大量的閱讀,或者普遍數據量太少,不能構成樣本。即便是選取了多個不同國家的重要申請人的專利作為樣本,仍然難以反映整體專利的特點。如此構建重要專利集,容易出現以偏概全的情況。
下面介紹另外一種評估查全率的方法,可以避免出現這種以偏概全的情況。
構建查全率極高的“理想”專利集
查全率難以評估的難點在于,無法獲取專利庫中的所有相關專利。然而,在犧牲了查準率的情況下,通過一些全面的檢索手段,采用較為恰當的分類號或者關鍵詞,是可以得到一個查全率極高的專利集的。以碲化鎘太陽能電池為例,以碲化鎘和其英文表達方式cadmium telluride為關鍵詞進行檢索,幾乎能囊括所有的碲化鎘太陽能電池了,但得到的檢索結果中,還包括很多噪聲,原因在于,碲化鎘除了用于太陽能電池,還用于光譜分析、紅外探測器和磷光體等。假設該檢索式得到的專利總量為a,對檢索結果隨機抽樣b篇,得到b篇中涉及碲化鎘太陽能電池的專利有c篇,那么,可以依次估算出檢索結果中碲化鎘太陽能電池相關的專利總量d=a*c/b。由于該檢索結果中幾乎囊括了所有的碲化鎘太陽能電池,可以認定d即專利庫中的碲化鎘太陽能電池相關的專利總量。這樣,就構建了一個囊括所有相關專利的查全樣本。由于該檢索過程中,查準率通常會比較低的,難以用于專利分析,因此,需要進一步修改檢索式,提升查準率,才能得到一個便于進行分析的專利集。以碲化鎘為例,將碲化鎘相關的關鍵詞和太陽能電池相關的關鍵詞做“and”運算,能獲得查全率和查準率均相對較高的結果數,假設檢索結果數為e,對檢索結果隨機抽樣,評估得到查準率f,那么此次檢索中命中的碲化鎘太陽能電池相關的專利總量g=e*f。因此,可以得到查全率為g/d*100%。
這種方法,可以避免在構建重要專利集時出現的以偏概全的情況,能夠較全面地評估查全率。但這種方法的使用限制較多,主要在于,有些領域,難以通過恰當的分類號或者關鍵詞,獲得一個查全率極高的專利集,又或者,構建出的該專利集查準率太低,這樣的話,隨機抽樣的樣本專利數量過多,會造成大量的閱讀,致使對查全率的評估失去了意義。
第一種方法為主,第二種方法使用條件苛刻
綜上所述,本文中,介紹了兩種評估查全率的方法,一種是通過重要申請人等手段構建重要專利集,另一種是,采用恰當的分類號或關鍵詞盡可能獲得一個查全率極高的專利集。
第一種方法使用更普遍,第二種方法使用較少,僅適合那些可以構建出極高查全率,但又保證一定的查準率的領域。通常來說,第一種方法能夠適用大多數領域的專利檢索。但對于某些領域,難以選取合適的重要申請人,或合適的重要申請年代,此時,可以嘗試第二種方法,能夠防止對查全率的評估出現以偏概全的情況,評估出較為準確的查全率。