<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2011年03月29日

【流通】富士通研究所 重複した顧客データを高速に1つに統合する名寄せ技術を開発

富士通研究所は、顧客データベースの中から同一の顧客を示すデータを高速に検出する技術を開発した。顧客データの名寄せに特化した類似検索手法を用いることにより、従来と同等の精度を保ったまま、処理速度を従来の約10倍に高速化した。同技術により、大規模な顧客データベースに対して高い精度で高速な名寄せ処理をすることが可能になり、企業合併やITシステム統合の際に必要となるデータベース統合を支援する。

企業合併や企業内のITシステムの統合などに伴い、複数存在する顧客データベースを統合するニーズが高まっています。複数の顧客データベースを重複なく統合するためには、同一内容のデータであることを特定する名寄せ処理が必要となる。複数の顧客データベースを統合する場合、単純に一致するものを特定するだけでは表記や略し方の違い、入力ミスなどが原因で、同一の顧客であるはずのデータを見落としてしまう。

顧客データベースの名寄せでは、顧客の名称や住所、電話番号といった顧客を特定できる項目の類似性を調べて、多くの項目で一致または類似した値をとるデータの組を同一顧客と判定する。しかし、大規模な顧客データベースにおいて、全てのデータの組み合わせについて項目ごとの類似性を計算するのでは処理に時間がかかってしまう。

そのため、顧客データベース中の郵便番号などの特定の項目を用いて、データをいくつかのグループに分割しておき、分割したグループに属するものどうしで類似性を判断することで処理速度を向上させる方法が使われてきた。しかし、この方法では郵便番号などが同じグループ内にあるデータの組しかデータの類似性を判断できないため、グループを小さく分割した場合には名寄せしなければいけないデータの見落としが発生し、逆にグループを大きく分割すると処理に時間がかかるという問題がある。このように精度と速度を両立させて大規模なデータに適用できる名寄せ手法が課題となっていた。

今回、従来の手法と精度を同等に保ちつつ、約10倍高速に顧客データベースの名寄せを行うことができる技術を開発した。開発した技術の特徴は以下の通り。

1.名寄せの見落としを防止
顧客データベース中のデータを、従来のように郵便番号といった一つの項目だけを対象に分割するのではなく、すべての項目内容を対象に他の顧客データの中から類似するデータを検索し、各項目の検索結果を総合評価することで、名寄せの見落としを少なくした。


2.顧客データの名寄せに特化した類似文字列検索
顧客データの表記の違いについて、すべてのケースを網羅して検索すると処理に時間がかかる。今回は、データどうしに共通部分があり、文字の先頭や末尾、あるいは中間部分の一箇所のみが違う程度のものであれば類似であると限定したうえで、データを高速に検索できる手法を用い、名寄せ精度を保ちつつ処理速度を向上させた。

富士通研究所では、2011年度中に今回開発した技術を用いた顧客名名寄せの実用化を目指す。また、顧客データ以外のテキストや画像・動画のタグなどに対象範囲を広げてデータを統合する研究開発を進め、さまざまな情報を連携させたサービスの提供につなげていく。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通