【流通】テキストデータから企業活動に関する情報を自動抽出する技術
--- 野村総研が開発 意味や概念を指定した企業情報検索を実現 ---
野村総合研究所(以下「NRI」)は、新聞記事等のテキスト文書から製品販売、生産、研究開発などの企業活動に関するメタデータ(※)を自動抽出する情報抽出エンジンの技術を開発した。抽出したメタデータによって、意味や概念を指定した企業検索や分析が可能となり、従来は人でなければ整理・構造化できなかった企業に関する情報整理を自動で行うことができる。
企業情報を調べるためにWeb検索エンジンを利用する場合、企業情報以外の検索結果も大量に表示されるため、利用者が検索結果を選別しなければならない。一方、情報提供会社が提供する企業情報サービスでは、企業名称/銘柄コード/業種などからの検索はできても、具体的な活動や取扱商品などから企業を探すのが難しい。
NRIが開発した情報抽出エンジンの技術は、テキスト文書を意味解析することで企業活動のメタデータを[主体企業]‐[活動]‐[目的語]の形式で自動的に抽出する。例えば、「液晶テレビ」を「販売」している企業を探す場合は、[A社]‐[販売]‐[液晶テレビ]という形式で情報を抽出する。さらに本エンジンの内部では、商品や技術用語に関する概念辞書を保有しているため、単に文書に表記されている文字列ではなく、同義語や類義語・表記ゆれを吸収した「概念」としてデータを保持している。その結果、特定のキーワードだけを含んだ検索結果だけでなく、関連したキーワードを含めた検索を実現する
この情報抽出エンジンの技術によって、新聞記事などから企業活動データベースを作成したうえで、例として以下のような検索や分析が可能となる。
●「燃料電池」を「研究開発」している企業を検索する
● 目的の企業と「業務提携」「資本提携」関係にある企業を検索する
●「エコカー」に関する企業動向を整理して表示する
(「エコカー」の下位概念の「燃料電池車」「ハイブリッド車」などに関する
企業活動を時系列や活動種類ごとに整理)
また、抽出した企業活動データベースを他の企業データと組み合わせることで、企業活動の可視化や業界動向分析、企業リスク管理などの高次な加工分析アプリケーションへの応用も今後検討していく。
本情報抽出エンジン技術をはじめとする、意味や概念を含んだ情報をコンピュータに処理させるセマンティック技術は、人間の知的作業を支援する次世代ウェブ技術として大きな期待を集めている。NRIでは今後、本技術を企業内における情報整理や分析業務高度化のためのITソリューションとして幅広く提供していく予定。
※ メタデータ:元のデータに対して意味の情報を付与するデータ。
※ 製品名および会社名は、各社の商標または登録商標です
投稿者:gotsuat 10:03| 流通