<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2010年06月15日

【流通】日本IBM 外国語のテキストデータを一つの言語で分析できる言語横断テキストマイニング技術を開発

--- 日本IBM東京基礎研究所 言語横断テキストマイニング技術を開発 ---

日本IBMは、海外でビジネスを行う企業が、外国語で記述された文書データを一つの言語で分析することを可能にする言語横断テキストマイニング技術を開発した。

近年のグローバル化に伴い、海外でビジネスを行う企業は、「お客様の声」、「社内文書」、「特許文書」など様々な文書データを、日本語だけではなくビジネスを行う各国の言語で記述された形で蓄積する機会が増えている。今後企業がより効果的な意思決定を行って行く上で、外国語で記述された膨大な文書データから経営に役に立つ情報を検出する需要は高まっている。

膨大な文書データを活用する技術には「検索」、「分類・整理」、「知識発見」という異なるレベルの技術が存在し、その目的も言語処理の内容も異なる。IBMのテキストマイニング技術では、「知識発見」を目的としている。今回日本IBM東京基礎研究所が開発した言語横断テキストマイニング技術は、IBMのソフトウェア製品であるIBM Content Analytics*にも採用されている同研究所が開発したテキストマイニング技術、TAKMI(R)に、同研究所が開発した言語や分野に依存しない訳語対抽出手法を組み合わせている。

IBMの研究員が開発した訳語対抽出手法では、解析したい概念が母語のデータにおいて出現する文脈を解析し、一般的に使用されている辞書を活用して出現文脈を母語から他言語に変換した上で、他言語中の似たような文脈で出現する表現を訳語の候補として抽出する。データを全て翻訳するのではなく、解析したい概念の訳語のみをデータ中の文脈に基づいて抽出するため、一般的な辞書には掲載されていない特殊な表現や分野特有の表現であっても、母語と他言語の対応を推定することができ、分布の変化や偏りを捉える上で有益であることが実験結果からも実証されている。解析担当者は専門分野に関する知識を持っていれば、他言語の知識がなくても未知の言語の文書データを分析することができる。

例えば、世界中に設置されたコールセンターへ日々入ってくるお客様の声。多くの場合、各オペレーターは様々な文体でお客様の声をお客様が話される言語でデータベースにインプットする。基本的に同様の製品を各国で販売している場合、その製品について分析を行う担当者の母語以外の言語で蓄積されているデータを母語に翻訳することなく分析し、新たな知見を得ることが理想的。IBMの言語横断テキストマイニング技術は、たとえば日本語といった一つの言語で定義された分析対象表現に対応する可能性の高い表現を、IBMが開発した訳語対抽出手法を使って他言語のデータから自動的に探し出し、日本語で分析する。企業はその結果をもとに、分析対象表現の出現傾向を把握し、特定の製品への偏りや急増傾向を捉えることで、まだ把握していない事実や問題点を早期に発掘し、調査のきっかけをつかんだり、適切なアクションにつなげることができるようになる。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通