<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2011年02月18日

【流通】有害ページを効率的に自動収集するWebクローラを開発

KDDI研究所は有害情報を含むWebページ(有害ページ)をインターネット上から効率的に自動収集する『有害クローラ(※1)』を開発した。この有害クローラを利用することで、有害ページである可能性が高いURL を推定して優先的に情報を収集できるようになり、従来のWebクローラ(※2)と比較して効率的に違法有害サイトを集めることが可能になった。本技術はサイト上の有害情報から、青少年を保護するためのフィルタリングサービスへの適用が期待される。今後は、大規模な実験を行い技術開発を進めて行くとともに、本技術の導入を進めていく。

インターネット上のWebページ数の増大に伴い、出会いや犯罪予告などを目的とした有害ページも急増しており、現在、ブラックリスト(※3)方式を代表とした青少年向けの有害情報フィルタが注目されている。有害情報フィルタを生成する場合には、まずWebページをWebクローラにより大量に収集し、収集したWebページの内容を人手または自動で検査し、有害判定に役立つ有害ページを大量に収集する必要がある。ここで、インターネット上のWebページは大量であるため、すべてを検査することは困難であり、また、多くのWebページは無害であるため、有害である可能性が高いWebページを効率的に収集できる高度なWebクローラの実現が急務となっている。

こうした課題を解決するために、有害ページを優先的に収集する『有害クローラ』を開発した。有害クローラは、URLから得られるWebページの様々な特性を抽出し、Webページ自体を収集する前に有害ページである可能性を推定する点が最大の特長で、有害ページに現れやすい特性とは、例えば安価なサーバを利用している(IP アドレスを他のWebページと共有している)ことや、有害情報規制の緩い場所にサーバを設置している(他の有害ページとIP アドレスが近い)ことなどがある。これにより、Webページを発見した順に収集する従来のWebクローラよりも、収集したWebページ中に有害ページをより多く含めることができ、Webページの検査効率を飛躍的に高めることができる。実際に、20%の有害ページを含む10,000ページを対象とし、このうち2,000ページを収集する条件で有害ページの収集効率を計測する実験を行ったところ、Webページを発見した順に収集する従来のWebクローラの場合では、2000ページのうちの400ページ(全有害ページの20%)が有害ページであったのに対し、今回開発した「有害クローラ」ではその3.5 倍以上となる1430ページ(全有害ページの71.5%)の有害ページを収集できた。

今後は、ブラックリストを作成しているフィルタリング事業者等に対して本技術の導入を進めるため、開発した有害クローラの大規模な実験を行い、技術開発を進めて行くとともに早期の実用化を目指す。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通