岡田テクノ特許事務所

Rを用いて特許分類(Fターム)の件数ランキングのプロットを作成する

Fターム(File Forming Term)は、先行特許文献調査を迅速に行うために機械検索用に開発された日本独自の特許分類コード(検索インデックス)です。FIを特定技術分野ごとに多様な技術観点(目的、用途、構造、材料、製法、処理操作方法、制御手段等)から別途区分したもので、調査時に製品の特徴、課題、構成要素等、さまざまな検索アプローチを可能にします。

また、今回のようにFターム付与情報による件数ランキングを求め、ある特定技術分野の特許出願群に付与されたFタームの傾向を探ることで、当該技術分野の旬の課題、要素技術や応用分野等を俯瞰することができます。ひいては自社の課題との対比や開発方向の確認に活用することができます。

そこで今回は、以下のように、母集合の特許情報データから、Rを用いて、Fターム情報を抜き出して、件数ランキングをプロットしてみます。
Fタームのプロットの方法/手順は、基本的には、FIの件数ランキングのプロット作成の方法/手順となんら変わりません。

   注)R (R言語)は、統計解析等に活用されるフリーのプログラミング言語及びそのソフトウェア環境です。

Fタームランキングプロット


0) 母集合データの内容・構造

母集合となる特許情報データは、例えば特許検索データベースの1つであるSRPARTNER(日立システムズ)から入手することができますが、今回は各出願についてのFターム情報が必要なので、ダウンロード時にその旨指定する必要があります。

下表にSRPARTNERから入手した特許情報データの一部を示します。Fターム(最新)は日本の特許に付与される特許分類であって、各特許出願に対して付与されますが、必ずしも1つではなく複数付与される場合もあります(下表の場合、特許出願ごとにセミコロンで分けられて格納されます)。尚、該当するFタームが付与されない出願も存在しますが、その場合は空欄となります。

母集合データ

上記のように特許情報が格納されたcsv(下記例では”入力データ(おむつ).csv”)から、以下、特許分類データ(Fターム)を抜き出して、集計、グラフ化します。



1) Rへのデータ読み込み

まず、上記特許情報データ(csv)をデータフレームとしてR に読み込みます。

今回は具体例として、あらかじめ「おむつ」関係の特許(登録)データを収集(約3700件)、SRPARTNERからダウンロードしてcsvデータを作成して、あらためてそのcsvファイルをread.csv()を用いて読み込みました。

尚、fileEncodingとして"Shift-Jis"を指定していますが、これはデータベースから提供されるデータによって異なります。
例えば、SRPARTNERから直接ダウンロードできるcsvはUTF8-BOM付きのようなので、fileEncoding ="UTF-8-BOM"と指定します。
一旦、Excel等で編集して"Shift-Jis"で保存した場合は、fileEncoding = "Shift-Jis "と指定することになります。


   dpat <- read.csv(”入力データ(おむつ).csv”,stringsAsFactors=FALSE, fileEncoding = "Shift-Jis")
   


2) 特許分類データを抽出・分離・集計・ソート

読み込んだデータフレームから特許分類Fタームの列データを取り出して、セミコロン(;)を区切り文字として分解してリストを生成します。
ただし、単に件数ランキングを見るにはリストである必要はないので、unlist化によりベクトルデータに変換し、当該ベクトルデータをtable関数を用いて集計します。
さらにグラフ化するので扱いやすくするために、降順にソートした上でtableからデータフレーム(data.frame)に変換します。


  ranking <- dpat$"Fターム" %>% strsplit(';') %>% unlist %>% table %>% sort(decreasing=TRUE) %>% data.frame()
    

尚、パイプ(%>%)を利用するために、dplyrパッケージを利用しました。

生成されたデータフレームの列名を適当な名前に変更すれば、


  colnames(ranking)<-c('Item','Number')
  

以下のようなランキングデータを作成することができます。

式

ここでItemが注目する特許分類Fターム、Numberが母集合の中で当該Fタームが付与された特許件数です。



3) 特許分類件数ランキングをプロット

最後に、上位数個の項目(特許分類)を選択して、barplot()で棒グラフとして、特許分類件数ランキングをプロットします。


  barplot(ranking$Number, 
    names.arg=ranking$Item, 
    main = "Ranking of FI classification",
    col= cm.colors(15),
    horiz=TRUE,
    las=1)
    

barplotのオプションとして、names.argで各項目の名前を指定、lasで当該項目の方向を指定します。
col(カラー)はc()を用いて個別に指定できますが、カラーパレットを指定すると簡単です。
例えば、rainbow(n),heat.colors(n), terrain.colors(n), topo.colors(n),cm.colors(n)等が基本カラーパレットとして準備されています。
今回は、cm.colors (寒色の色指定)を使用しました。

以上により、特許分類の件数ランキングのプロットを作成できます。

特許件数ランキングプロット

特許情報プローブへ戻る