【IT】日本IBM、国会図書館の全文テキスト化システムのプロトタイプを開発

このエントリーをはてなブックマークに追加
1なうなう@うんこなうρ ★
日本IBMは1日、国立国会図書館が蔵書の大規模デジタル化作業の一環として実施した
全文テキスト化システムプロトタイプ構築事業において、プロトタイプを開発したと発表した。

欧米では、文化財保存を目的とした書籍のデジタル化が活発に展開されている。
一方で日本では、ひらがな・カタカナに加え、多数の漢字(常用漢字2136文字、旧字・異体字など含めて約1万文字)
を用いて表記されるほか、ルビや縦横書きの混在など、表現の多様性が全文テキスト化の実現を困難なものとしている。

今回のプロトタイプは、このような日本語特有の問題を解消し、明治以降の各年代における
日本語書籍の全文テキスト化の効率化、印刷物の読書が困難な状況にある人に配慮したアクセシビリティの実現、
ならびに効果的な全文テキストデータ検索・表示の実現を目指して開発された。

機能面では「共同校正機能」や「共同構造化機能」を備える。共同校正機能は、Webブラウザ経由で
多数の文字校正者が同時に作業できる環境と、光学式文字認識(OCR)の精度向上を実現する。
インターフェイスには、OCRで認識された文字群を一覧表示され、作業者が一括して校正できる。
共同仕上げ校正の際には、紙の原本やスキャン画像と文字を見比べながら1つずつレビューするというアプローチではなく、
共同文字校正であらかじめ校正された結果を原本の画像上に表示・対比させることで、一目で確認・修正できるという。作業結果をOCRの再学習に用いることで少しずつ精度を上げていく仕組みも備える。

一方の共同構造化機能では、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要な「構造化」を行うため、
「構造情報付加機能」と「読み上げ順序修正機能」の2つを提供。IBM東京基礎研究所で開発された、
読み上げ順序を一筆書きで表現しドラッグ&ドロップのみで修正できる技術を採用するとともに、
全文テキスト化された書籍の構造の種類に応じた最適な構造化インターフェイスを用意することで、
HTMLやXMLなどの記述言語の知識がなくとも構造化できるという。
また、読み上げ順序、見出し、目次、図、表、注釈、ページ番号といった構造情報を自動推論し、
構造化担当者にガイドを提示する機能なども提供する。

同プロトタイプには、2008年にIBM東京基礎研究所が開発した、Webページのアクセシビリティを向上させる
「Social Accessibility」のコンセプトが応用され、多数かつ多様な作業者がWebブラウザで同時に協働作業できるよう工夫された。
また、IBMハイファ研究所がEUと進めている歴史的資料のデジタル化プロジェクト「IMPACT(IMProving ACess to Text)」の一環として開発された、
シンプルな操作を繰り返して行う協調型文字校正技術も採用。OCRエンジンが文字認識エラーの校正を自動で学習し、少しずつ精度を向上していく機能も含まれており、
作業の効率化に貢献するという。

http://cloud.watch.impress.co.jp/docs/news/20110801_464541.html

プロトタイプのシステム概要
http://cloud.watch.impress.co.jp/img/clw/docs/464/541/01.jpg
共同校正機能
http://cloud.watch.impress.co.jp/img/clw/docs/464/541/02.jpg
共同構造化機能
http://cloud.watch.impress.co.jp/img/clw/docs/464/541/03.jpg
2名刺は切らしておりまして:2011/08/07(日) 07:05:36.04 ID:b/Hjeejn
閲覧は日本人限定にしろよ
3名刺は切らしておりまして:2011/08/07(日) 07:24:19.06 ID:xocFLal+
ネットで国会図書館の蔵書が読めたらいいね 出版から十年経過した本を見開き二ページを一円でお願いします。
4名刺は切らしておりまして:2011/08/07(日) 07:26:39.31 ID:i+KgwPzV
頑張れ基礎研! 元IBMerより
5名刺は切らしておりまして:2011/08/07(日) 07:27:13.60 ID:U0Ko/TWA
エロ漫画とかも全文テキスト化するんですかね。
6名刺は切らしておりまして:2011/08/07(日) 07:28:47.10 ID:U3cmslzg
フジテレビ、韓流は閲覧禁止。セシウム汚染の恐れあり
7名刺は切らしておりまして:2011/08/07(日) 07:29:19.47 ID:GxJQuatm
昔のコロコロコミックとか全部あるのか
8名刺は切らしておりまして:2011/08/07(日) 07:49:15.75 ID:ANiFwbWA
でも、お高いんでしょぅ
9名刺は切らしておりまして:2011/08/07(日) 08:02:13.90 ID:uB0ZN7Gs
手動じゃん
10名刺は切らしておりまして:2011/08/07(日) 08:17:21.75 ID:fyhLqM9w
達筆の毛筆を正確にテキスト読み取りできるシステムを開発してくれ。

俺には必要ないけど、、、
11名刺は切らしておりまして:2011/08/07(日) 08:18:53.69 ID:fyhLqM9w
笑い男の潜伏場所がなくなるじゃん。
12名刺は切らしておりまして:2011/08/07(日) 08:24:23.21 ID:PMDbV0IR
>>4
アイビー絵馬ーって、懐かしいな。久々に聞いたよ。
途中退社のSEが自慢げに使ってたな。
現役の時は、使わない言葉なの?
13名刺は切らしておりまして:2011/08/07(日) 08:26:35.77 ID:/eBNBeJR
画像はすべてAA?
14名刺は切らしておりまして:2011/08/07(日) 08:28:04.05 ID:CyCeCb2S
くそワロタw
自動AAかいいなそれw
15名刺は切らしておりまして:2011/08/07(日) 08:42:48.66 ID:jXhuFG+J
チップ屋としてのIBMはすごいけど
いまやNECとか富士通みたくパッとしない会社になっちまったなぁ

チェス用のスパコンやり始めたころ辺りから、
「しょうもない研究テーマしか残ってないんだな」って思い始めた
しかも明らかに受け狙いのカッコつけた名前つけてたから「あちゃー」みたいな
16名刺は切らしておりまして:2011/08/07(日) 08:43:52.95 ID:vuOmU8Qn
         ____
       /      \
     /  _ノ  ヽ、_  \
    /  o゚⌒   ⌒゚o  \   時給600円でスキャナーとOCRソフトが読み取った内容をチェックして
    |     (__人__)    |  タイプしなおすIBMの孫請けのそのまたバイト仕事が始まるお・・・
    \     ` ⌒´     /

17名刺は切らしておりまして:2011/08/07(日) 08:45:02.27 ID:gxu5CMTc
>>16
あのーリアルすぎて笑えないんでつが・・・
18名刺は切らしておりまして:2011/08/07(日) 08:45:02.63 ID:pPgaWxhh
こういう国家プロジェクトはNECとか富士通に投げろや
19名刺は切らしておりまして:2011/08/07(日) 08:56:21.57 ID:Jrydsjuf
同じ文字をズラーっと並べて校正すんのは確かに便利そうだな。
大文字小文字と数字と記号ぐらいしかない英語圏なら結構楽なんだろう。

>>16
お前単純作業得意じゃないか。
僕もアスペ気味だからこういう作業は好きだ。
20名刺は切らしておりまして:2011/08/07(日) 09:04:15.86 ID:BsNenKqV
何らかの技術革新が起きて
今の文書ファイルフォーマット自体が10年後、20年後に
もう対応してる機器ありませんとかなりそう
21aurora:2011/08/07(日) 09:04:25.09 ID:1U1P4K/z
三菱電機インフォメーションシステムズ株式会社は、論外。
22名刺は切らしておりまして:2011/08/07(日) 09:16:40.12 ID:f1Gr2h26
>>18
IBMの点字関連とかで培った技術はなかなか真似できないのでは?

IBMは新聞屋のシステムも作ってるしDBも老舗だからな。
23名刺は切らしておりまして:2011/08/07(日) 09:30:08.24 ID:+tNdnT56
日本IBM製のシステムを使うことがよくあるけどほんとクソだよ
どうやったらこんなわかりにくい、操作性の低い、不安定なシステムができるんだろうと思うほど
24名刺は切らしておりまして:2011/08/07(日) 11:09:07.90 ID:Wwbb5ewi
少なくとも日本I●Mはオワコン。
自分の不手際を詫びずにユーザー企業相手に反訴するようなメンタリティは一昔前の日本I●Mにはなかった。
そんだけ追い込まれてるんだよね、お察しします。
頑張って。
25名刺は切らしておりまして:2011/08/07(日) 11:45:29.28 ID:K1znBQOR
>>15
よほどパッとした人なんだろな・・・
俺は自分を振り返るとそこまではよう言わん。
26名刺は切らしておりまして:2011/08/07(日) 11:45:34.05 ID:mQZfCSh2
JPG のままだとダメなん ?
27名刺は切らしておりまして:2011/08/07(日) 11:47:39.72 ID:0Hx+IuZJ
>>26
既に公開されている分みてきなされ
28名刺は切らしておりまして:2011/08/07(日) 12:11:21.83 ID:Lt5UZnwS
IBMって自社開発やってたんだ

他社を買収して、ロゴマーク付けて
高値で売るだけの商売じゃなかったのね
29名刺は切らしておりまして:2011/08/07(日) 12:17:16.59 ID:b7LYtndi
閲覧で金とって、誤植を報告すれば無料で良いんじゃね。
30名刺は切らしておりまして:2011/08/07(日) 13:50:48.47 ID:sIeJ/L+Q
年金と同じく、校正作業を外人にやらせて滅茶苦茶にされるんだろ?
せめて、あの時にボロ儲けした派遣会社に格安でやらせろ。
31名刺は切らしておりまして:2011/08/07(日) 16:11:09.08 ID:IUzXRd5m
焚書のチャンス
32名刺は切らしておりまして:2011/08/07(日) 16:16:15.02 ID:PAxxVBf6
ページを一枚ずつ人がめくってスキャナーするのか
そこも自動なのか?
33名刺は切らしておりまして:2011/08/07(日) 16:20:10.87 ID:sfZz8w17
なんか人手がかかるシステムじゃん 完全自動化してから自慢しろよ
34名刺は切らしておりまして:2011/08/07(日) 16:26:01.26 ID:0vYdqecA
>>1
難解な手書き台帳を中国アウトソーシングして失われた年金オンライン記録と違い、
書籍はあらかじめ当時の輪転機で使えるフォントが決まってたからOCRしやすいだろうな
35名刺は切らしておりまして:2011/08/07(日) 16:31:09.77 ID:Bg2MWION
2010 9,377億7,300万円 1,242億7,200万円
2009 9,545億6,800万円 1,128億1,300万円
2008 1兆1,329億3,200万円 1,543億3,100万円
2007 1兆1,926億1,100万円 1,540億4,800万円
2006 1兆1,932億8,700万円 1,390億4,300万円
2005 1兆2,453億4,300万円 1,155億4,700万円
2004 1兆4,609億21百万円 1,511億94百万円
2003 1兆4,979億82百万円 1,498億95百万円
2002 1兆5,834億34百万円 1,665億94百万円
2001 1兆7,075億35百万円 1,728億90百万円
2000 1兆6,438億28百万円 1,820億300万円
1999 1兆4,770億82百万円 1,190億43百万円
1998 1兆4,740億95百万円 901億01百万円

リストラと切り売りだけで利益確保してる落ち目企業
36名刺は切らしておりまして:2011/08/07(日) 17:00:18.61 ID:QaoRv0e6
>>一方で日本では、ひらがな・カタカナに加え、多数の漢字(常用漢字2136文字、旧字・異体字など含めて約1万文字)
>>を用いて表記される

大漢和辞典はこんなレベルじゃないだろ。数万字収録されていて、
クソ重たい辞書が15巻構成のシロモノなんだから。
37名刺は切らしておりまして:2011/08/07(日) 17:08:44.76 ID:I+1BlKxF
>>32
古い書籍は劣化してるだろうから、自動ページ捲りスキャナーなんか使ったらバラバラになるだろうな。
重要な蔵書は手作業だろう。
38名刺は切らしておりまして:2011/08/07(日) 17:53:49.11 ID:lODX3wkU
>>1
トロン使っているの?
39 忍法帖【Lv=20,xxxPT】 【関電 80.9 %】 :2011/08/07(日) 20:43:08.43 ID:Fhe9E53G
umu
40名刺は切らしておりまして:2011/08/07(日) 20:46:25.06 ID:rUiYtNpN
こういうのって挿絵や写真はどうなるんだろう?
41名刺は切らしておりまして:2011/08/07(日) 21:02:30.56 ID:/eBNBeJR
>>20
マイクロフィルムは加水分解するし、何が起きるかわからんね。
42:2011/08/07(日) 23:19:14.25 ID:kYXEQp2/
 電子化自体はすすめて欲しいなあ。
 勿論、原本もちゃんと残して、マイクロフィルムとか幾種類かのメディアに分散して欲しい。
43名刺は切らしておりまして:2011/08/07(日) 23:41:50.40 ID:DuMH+C6u
さまざまな難題があると思うけど、そもそも現在のワープロでは扱えない外字が
多すぎるんだけど、それはどうクリヤーするのだろう。

今のOCRソフトでもふりがなはほとんど認識できないし、全文テキスト化と
いっても一字一字人が手作業でやらないといけないだろう。
44名刺は切らしておりまして:2011/08/08(月) 00:30:40.50 ID:b7aUz90h
>>20
テキストファイルだったら、いくらでもフォーマット変換できるだろw
45名刺は切らしておりまして:2011/08/08(月) 00:39:19.28 ID:1/kOTLi9
>>43
こういうとき、日本人はわりきりが出来なくて一歩も進めなくなったりする。
ある程度、表現できない字やふりがなをあきらめてでもやっちゃった方が
やらないよりいい。
完全にテキスト化できなかったものは、スキャンイメージも残しとけば
後でなんとでもなるしね。
46名刺は切らしておりまして:2011/08/08(月) 00:44:35.49 ID:VRNCjJaw
80年代にunicodeを提唱したゼロックスが適任と思うんだけど。
47名刺は切らしておりまして:2011/08/08(月) 01:10:16.01 ID:35l88l5w
>>43
超漢字ならOK。
48名刺は切らしておりまして:2011/08/08(月) 04:36:16.21 ID:6iXQTIqy
プロトタイプだから、まだ実用性は証明できてないのだろう。
いまさら大雑把な理論など、どうでもいいから、
OCRの変換精度を高めることだな。
49名刺は切らしておりまして:2011/08/08(月) 06:14:25.47 ID:+bbENrjY
>>3
いまでも読めるじゃん。
画像が汚いけど。
50名刺は切らしておりまして:2011/08/08(月) 11:34:05.46 ID:kMJSH8Ii
>>33
日本語で完全自動化は夢のまた夢
大文字小文字、記号数字合わせて100程度
全て横書き、左から読みの欧文

文字数1万以上、旧字込み5万字以上
縦書き、右から読む横、左から読む横書きの混在

>>20
テキスト形式は70年代からあまり変わっていないし
記録媒体ではなくフォーマットなら
時代が経ても読み込むソフトは残っているだろ
今はDVDとHDDにWin7コンピュータで記録しておけば
10年は安心、10年後の記録媒体にコピーすれば、また10年安心
51名刺は切らしておりまして:2011/08/09(火) 00:37:31.22 ID:bapipuhC
昔の日本人は自分の都合で勝手に漢字を変更したから、電子媒体で
全ての事例に対応するのはほとんど困難だな。例えば、偉い人の
名前と同じ漢字を自分の子供の名前に使うのは気が引けるといって、
勝手に棒を1本抜いたりして自由に異字を作った。
52名刺は切らしておりまして:2011/08/09(火) 15:15:44.78 ID:5PpkvZ5n
>>51
超漢字ならOK。
53名刺は切らしておりまして:2011/08/22(月) 17:27:10.72 ID:zLUc3PI1
>>35 アホ? 為替考慮しろよ
54名刺は切らしておりまして
>>53
国内だけで商売してるのになんで