岡田テクノ特許事務所

クレーム(特許請求の範囲)の文字数調査



1)はじめに

 クレーム(特許請求の範囲)は、特許権の権利範囲を確定する権利書としての機能を有する最も重要な部分です。
 発明は技術的な思想の創作でなので、発明を書面に表したクレームには、先行技術を考慮した上で、その思想がなるべく広い権利範囲をカバーするように、つまり、広く解釈されるように記載する必要がある。
 そのため、基本的に、クレームには、発明を表現するのに必要な構成要件だけを記載し、不必要な限定は記載しないようにします。

 必要な構成要件だけを記載して限定が少なくするには、必ずしも、クレームの記載量を少なくしなければいけないわけではなく、クレームが長くても権利範囲が広い特許はもちろん存在します。

 一方で、1つのクレーム(1つの請求項)の長さが短く、記載の量が少ないということは、必須の限定事項も一般的には少ないと考えられます。

 つまり、権利範囲を広くすることに対して、クレームの長さは十分条件にはなりうるので、特許のクレームの長さの傾向をつかむことは、今後作成するクレームを評価する一つの目安となります。

 そこで、これまでに特許権の設定の登録を受けた特許の実際のクレームの一部をサンプリングして、クレームの長さを調査しました。
 具体的には、特許権の設定の登録を受けた特許の第1クレーム(大抵の場合、請求項1)の文字数を数えて、その度数分布を求めました。

請求項の文字数のヒストグラム


2)利用した特許データ(元データ)

 母集合の特許情報データは、特許検索データベースの1つであるSRPARTNER(日立システムズ)から入手しました。
 具体的には、特許権の設定の登録を受けて、2019年10月1日から2019年10月31日までに特許公報が発行された18591件の特許請求の範囲のデータと技術大項目で分類わけするために特許分類IPCのデータを取得しました。

 下表にSRPARTNERから入手した特許情報データ構造の一部を示します。「請求の範囲」データには、請求項1から順に複数の請求項のテキストデータが最大32767文字まで収録されています(某表計算ソフトで閲覧)。

SRPARTNERのダウンロードデータ


3)特許の第1クレームの抜き出し、カウント

上記の通り、各特許の「請求の範囲」データには、【請求項1】・・・【請求項2】・・・【請求項3】・・・と1つのデータ単位に複数の請求項のデータが含まれているので、最初の請求項のデータだけ(大抵の場合【請求項1】)を抜き出しました。

処理にはR言語を用いました。

例えば、以下のように、regexpを用いて正規表現にマッチした部分を抜き出します。この際、「【請求項1】」や末尾のスペースの部分は除くようにします。
ただし、実際には単一の請求項だけの場合等の対応が必要となりますが、下記のコード例では割愛しています。

第1の請求項だけを抜き出した後は、当該第1の請求項に含まれる文字数をカウントします。


    #---------------------------------------------
    #plural_claim_txt(複数請求項混在テキスト)から第1請求項の抜き出し例
    #---------------------------------------------
    
    
    #第1の請求項の位置を検索;正規表現にマッチした位置やマッチした長さを取得
    #  マッチした部分の開始位置:m[1]
    #  マッチした部分の長さ:attr(m,"match.length")

    m <- regexpr("【請求項.+?【請求項", plural_claim_txt)

    #文字の抜き出し
    # 文字列の一部を取り出し
    # substring(文字列 , 抜き出し文字列の最初の位置, 最後の位置)
    # 数字は【請求項1】やスペース等、余計な部分の削除のための調整

    one_claim <- substr(plural_claim_txt, m[1]+6,m[1]+attr(m,"match.length")-6)

    #第1の請求項に含まれる文字数をカウントする

    one_claim_count <- nchar(one_claim)


4)第1クレームの文字数の度数分布

 元データの特許18591件について、特許の第1クレームの文字数を集計した結果、
  文字数の平均:450.6
  標準偏差 :304.9
 となりました。

 以下に示すグラフがそのヒストグラムです。
 横軸がクレームに含まれる文字数で、分割の幅(bin)は50文字としています。
 尚、実際には1万文字以上のクレームもあったため、下記グラフは表示の都合上、2000文字までの集合に対してのヒストグラムとしています。

 下記より度数最大となるのは、300~350文字であることがわかります。

請求項の文字数のヒストグラム


5)特許分類(セクション)ごとの文字数の度数分布

下に特許分類であるIPCの各セクションごとの相対度数分布及び主要統計値を示します。

IPCセクション別の請求項の文字数のヒストグラム

IPCセクション別の請求項の文字数のヒストグラム

尚、各セクション及び数値の意味は以下のとおりです。

-------------------------------
 A:生活必需品
 B:処理操作;運輸
 C:化学;冶金
 D:繊維;紙
 E:固定構造物
 F:機械工学;照明;加熱;武器;爆破
 G:物理学
 H:電気
-------------------------------
 Mean:文字数平均値
 Std:標準偏差
 Count at Fmax:度数が最大となるbin
 Max:文字数最大値
--------------------------------

上記より、IPC:A,G,Hでは文字数300-350の度数がもっとも高いことがわかります。

また、IPC:Cは文字数150-200での度数がもっとも高くなっていますが、材料関係の特許が多く、化学式(図)で表されるとその分、文字数が減少しているようです。
半面、Cでは材料名などの羅列で極端に文字数が多い場合があり(最大で1万文字以上)、そのため、ばらつきが大きいのが特徴です。


6)総括

・特許の第1クレームを抜き出してその文字数をカウントすると(2019/10月発行の登録公報約1万8千件)、
 平均値は約450、300-350文字付近にピークを持つ分布となりました。

・クレームの内容や技術分野により一概には言えませんが、例えば350文字を超えたときには、発明の本質ではない余計な構成要件が入っていないか、物の属性や特徴の余分な表現が入っていないか等の再チェックの目安にしてもよいかもしれません。


7)蛇足

 今回調査した中では、1つの請求項で1万文字数を超えるものもあれば、逆に50文字以下の非常に少ない文字数で記載されているものもありました。
 技術的な思想の創作が的確に表現できるのであれば、権利範囲も広くなるかかはさておき、短い方が権利者以外の第三者も全体を把握しやすくなると思われます。

 例えば、50文字以下の大変短いクレームとしては、以下のようなものがありました。
 (2019年10月発行の特許公報の一部から引用)


(特許第6586337号)
  ザクロ果汁とフィチン酸を併用することによる、コラーゲンペプチド含有飲料の呈味改善方法。

(特許第6586268号)
  レシチンに炭素数8~36の脂肪酸金属塩を添加することを特徴とするレシチンの加熱着色抑制方法。

(特許第6585232号)
  HFO-1234yfと、HFC-254ebと、HFC-245cbと、を含む組成物。

(特許第6583082号)
  Ca又はNaの付着量が0.2g/m2以下であり、表面粗さRzが10μm以下であるばね用鋼線。

(特許第6582776号)
  圧縮凝集度が60%以上95%以下、粒子圧縮比が0.20以上0.40以下であるシリカ粒子。

(特許第6587057号)
  酢酸成分を除去した黒酢を有効成分とする脱顆粒抑制剤。

(特許第6592268号)
  炭素材料と、芳香族エポキシ樹脂とを含むことを特徴とするn型熱電変換材料。

(特許第6594514号)
  醤油粕を添加する工程を含む、ビール又は発泡酒の製造方法。

(特許第6592749号)
  鶏の羽毛粉末において、粒子の大きさが100μmから300μmの範囲であることを特徴とするスクラブ剤


特許情報プローブへ戻る