【IT/出版】国会図書館が出版物の全文テキスト化実験、参加出版社・印刷会社を募集 [10/07/20]

このエントリーをはてなブックマークに追加
1依頼@@@@ハリケーン@@@φ ★
 国立国会図書館は20日、出版物の全文テキスト検索のための実証実験を行うとして、参加
する出版社や印刷会社の募集を開始した。募集期間は8月31日17時まで。

 実験では、出版物の版下データや電子書籍データなどからテキストを抽出し、汎用フォー
マット化する。さらに、このテキストデータを館内で検索・表示したり、出版社など外部か
ら利用するためのAPIについても実験する。

 10月から2011年1月まで実証実験用のシステムを構築した後、2月から3月までかけて実証
実験の実施および結果のとりまとめを行う。

 参加する出版社や印刷会社は、デジタル出版データの提供などで実験に連携・協力するか
たちになる。

【追記 18:30】
 実証実験では、賛同する出版社などから提供されるデータに加え、国立国会図書館が独自
にデジタル画像データ化を進めている、著作権保護期間が終了した古い出版物の汎用フォー
マット化も並行して行う。こちらは主に視覚障害者向けの読み上げのための活用を想定して
いるという。

 なお、実験で用いる汎用フォーマットは、テキストデータに、出版物のタイトルや目次、
本文、章などの構造を示す情報が付加されたものだが、具体的なフォーマット名は現時点で
は未定。どのようなフォーマットが汎用フォーマットとして利用できるかも含め、今後、
調査・検証していく。

関連情報
■URL
 プレスリリース
 http://www.ndl.go.jp/jp/aboutus/digitization_fulltext.html

ソース:impress
http://internet.watch.impress.co.jp/docs/news/20100720_381934.html
http://internet.watch.impress.co.jp/img/iw/docs/381/934/ndl1.jpg
2名刺は切らしておりまして:2010/07/22(木) 13:30:24 ID:0ysP+oyZ
googleが既にはじめています!以上終わり。
3名刺は切らしておりまして:2010/07/22(木) 15:02:56 ID:Sgd7ykZM
特殊な漢字や記号はどうする?
4名刺は切らしておりまして:2010/07/22(木) 18:24:30 ID:IfBJc4Uu
青空文庫?
5名刺は切らしておりまして:2010/07/22(木) 19:36:01 ID:Lsr8sBq9
>>3
そこらへんがGoogleだとすごく雑に扱われそうなので、一応期待してる。
6名刺は切らしておりまして:2010/07/23(金) 13:15:45 ID:OgrELepS
変態毎日新聞の活動場所ですね
7名刺は切らしておりまして
写真やイラストはAA化