【流通】文書データから固有名詞を高精度に抽出する技術を開発
--- 富士通研究所 固有名詞辞書を自動生成する技術を新規開発 ---
富士通研究所は、文章中から人名や組織名、地名などの固有名詞を精度良く抽出する技術を開発した。今回開発した技術により、新聞記事から約97%の精度で人名を正しく抽出し、従来の抽出手法と比較して抽出ミスの数を60%近く減少させることに成功した。
単語抽出に必要となる固有名詞辞書を、文書データから自動的に生成する技術を開発したことにより、文書検索や、固有名詞チェック、個人情報の匿名化などの作業を効率よく実施することが可能になる。
新聞の編集やWebサイトの更新など大量の文書データを扱う業務においては、文書データのキーワード検索やそれを用いた文書作成が業務の中で大きな割合を占めている。しかし、キーワード検索においては、目的のキーワードとは無関係な結果が数多く検索されてしまい、必要な情報をすぐに見つけられないという問題がある。例えば、目的のキーワードを見つけられない原因として、「川崎さん」や「川崎市」の「川崎」のように、単語の意味が「人名」や「地名」であることを区別できていないことがある。これを解決するためには、人名や組織名、地名などの固有名詞を判別して抽出する必要があり、以下の2つの技術が必要とされる。
1)「川崎さん」のように“右隣が「さん」は人名”という、固有名詞を文脈情報に基づいて抽出する「規則」の作成
2)「富士通の川崎さん」を、「富士通」は「組織名」で、「川崎さん」は「人名」と判別する固有名詞辞書の作成
従来の人名や地名などの固有名詞辞書は辞書データを人手で作成しなければならず、登録件数の多い辞書の作成や更新には多大な時間とコストが必要とされこのため、辞書を自動的に生成することが重要な課題となっていた。
今回、精度の高い固有名詞抽出のために、固有名詞辞書の自動生成手法および、生成した辞書を用いる抽出技術を開発した(図2)。固有名詞の抽出は、学習フェーズと抽出フェーズの2つのフェーズで処理を行う。
富士通研究所が行った人名抽出の実験では、新聞記事から約97%の精度で人名のみを正しく抽出した。自動抽出によって項目を追加した辞書を利用しない場合と比較して、抽出ミスの数を60%近く減少させた。また、新聞記事1件あたり、平均0.1秒で固有名詞を抽出でき、多数の文書データへの適用もできる。
■ 物流情報・物流サービスが満載、「株式会社 合通」のホームページ
※ 製品名および会社名は、各社の商標または登録商標です
投稿者:gotsuat 10:03| 流通