<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2011年08月11日

【流通】日本IBM 国立国会図書館の全文テキスト化システム・プロトタイプを開発

日本IBMは、国立国会図書館が蔵書の大規模デジタル化作業の一環として実施した全文テキスト化システムプロトタイプ構築事業において、全文テキスト化システムのプロトタイプを開発した。この技術は、推論技術や時間や場所を問わずインターネットを通じて多くの人々が特定の目的達成支援を行うというアプローチを組み合わせることで、画像からのテキスト化に係る作業効率を改善する。また、この技術を取り入れることで、全文テキスト化の作業を効果的に進めることを目指す。

日本語は、ひらがなやカタカナに加え、多数の漢字(常用漢字2,136文字、旧字・異体字等を含めれば約10,000文字)を用いて表記される。さらにルビ、縦横書きの混在など、アルファベットなど数十種類の文字だけで表現される言語と比較して表現の多様性に富んでいる。欧米では、文化財保存を目的とした書籍のデジタル化や、印刷物の読書が困難な状況にある方々が電子化の恩恵を受けられるよう、様々な全文テキスト化の活動が活発に展開されている。一方、日本では、日本語に特有の表現の多様性が全文テキスト化の実現を困難なものとしている。

今回のプロトタイプは、この様な日本語特有の問題を解消し、明治以降の各年代の日本語書籍の全文テキスト化作業の効率化、印刷物の読書が困難な状況にある人々に配慮したアクセシビリティの実現、そして効果的な全文テキスト・データ検索および表示の実現を目指して開発された。同プロトタイプ・システムの主な機能は、以下の通り。

1.共同校正機能
共同校正機能は、Webブラウザー経由で多数の文字校正者が同時に作業を行うことを可能にすると同時に光学式文字認識(OCR)の精度向上を実現する。共同文字校正インターフェースは、OCRで同じ文字として認識された文字群を一覧表示し、作業者は一括して校正を行うことができ高い効率で校正を行うことが出来る。日本語の文字を認識できる人であれば誰でも作業を行うことができる。また、作業結果をOCRの再学習に用いることで徐々に精度を向上することができる。共同仕上げ校正インターフェースは、紙の原本や原本のスキャン画像と校正対象の文字を見比べながら一つ一つレビューしていくというアプローチではなく、共同文字校正で予め校正された結果を原本の画像上に表示したり対比させることにより、校正者が一目で確認、修正できるような配慮がなされている。また、共同文字校正担当者からの申し送り箇所は赤枠で強調表示され、仕上げ校正者による修正を促す。

2.共同構造化機能
共同構造化機能は、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要となる構造化を実施するため、構造情報付加機能と読み上げ順序修正機能の2つの機能を提供する。IBM東京基礎研究所で開発された、読み上げ順序を一筆書きで表現しドラッグ・アンド・ドロップ操作のみで修正を可能にする技術を採用すると共に、全文テキスト化された書籍の構造の種類に応じた最適な構造化インターフェースを用意することで、HTMLやXMLといった記述言語の知識がなくても構造化をおこなうことができる。また、読み上げ順序、見出し、本文、目次、図、表、注釈、ページ番号といった構造情報を自動的に推論し、構造化担当者にガイドを提示する機能など、作業のワークロード軽減を目指す仕組みを提供する。

このプロトタイプ・システムには、2008年にIBM東京基礎研究所が開発した、一般のユーザーと視覚障がいをもつユーザー、アクセシビリティの専門家などがインターネット上で協働し、ウェブページのアクセシビリティを向上させるSocial Accessibilityのコンセプトが応用されており、多数かつ多様な作業者がWebブラウザー経由で同時に協調して作業を行うことを可能にしている。また、IBMハイファ研究所が欧州連合と進めている大量の歴史的資料のデジタル化プロジェクト、IMPACT(IMProving ACcess to Text)の一環として開発された、シンプルな操作を繰り返すことで生産性を向上させる協調型文字校正技術を採用している。この技術には、適応型OCRエンジンが文字認識エラーの校正作業がなされるたびに自動的に学習し、より正確な文字認識を実現するという機能も含まれており、作業効率の向上に貢献している。なお、この全文テキスト化システムのプロトタイプは、将来的な国際協力や標準化を視野に入れた開かれたシステムとして設計されている。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 流通