富士通、TIFFじゃなくてJPEGでもきちんとOCR出来る技術を開発

このエントリーをはてなブックマークに追加
1( ● ´ ー ` ● ) はスバラシイ:2006/01/27(金) 21:10:41 ID:tvk/LrGM0● BE:8429235-#
 富士通研究所(本社川崎市)は,JPEG圧縮した画像からテキスト部分を高精度に抽出できる技術
「ハイブリッド型テキスト領域抽出技術」を開発した。同技術により,電子化した文書の検索が可能になる。
同社では今後,この技術を利用したスキャナの製品化を目指す。

 JPEG形式で電子化した文書を,キーワードから検索するためには,(1)テキストが含まれている領域
(テキスト領域)の抽出(2)文字の認識---という2段階を踏む。しかし,JPEG形式で圧縮した画像は,
元の文書に比べて劣化している上,色づかいが多様なため,そもそも(1)が困難だったという。例えば,
白抜き文字に関しては文字ではなくその周辺の背景をテキスト領域として抽出してしまっていた。

 ハイブリッド型テキスト領域抽出技術では,テキスト領域を抽出する前段階として,「テキストパターン」の
抽出と,「テキスト存在領域」の絞り込みを行う。

 まず,JPEG形式の画像において色変化の大きな領域を「文字輪郭領域」と推定。これによって文字色を
割り出し,テキストパターンを抽出する。

 このようにして得たテキストパターンとテキスト存在領域を組み合わせることで,JPEG形式の画像に
含まれるテキスト領域を高精度に抽出する。この技術により,テキスト領域の抽出エラーを従来に
比べて約6割削減。テキスト領域抽出率は96%で「業界トップ」(同社)という。
http://techon.nikkeibp.co.jp/article/NEWS/20060127/112783/
2番組の途中ですが名無しです:2006/01/27(金) 21:12:03 ID:wbFJb0ht0
あの富士通か
3番組の途中ですが名無しです:2006/01/27(金) 21:12:47 ID:X/XcgRK20
そこでくさちゅー変換ですよ。
4番組の途中ですが名無しです:2006/01/27(金) 21:14:16 ID:cI5+uzoE0
でかした!
なにがすごいのかわからんけど!
5番組の途中ですが名無しです:2006/01/27(金) 21:15:41 ID:pBHS4a7HO
なっち久々に見た
6番組の途中ですが名無しです:2006/01/27(金) 21:16:07 ID:Lxlg0/Z/0
.jpgを.bmpに変換してからスキャンすればいいじゃん
7番組の途中ですが名無しです:2006/01/27(金) 21:19:23 ID:p+1XY0KHO
テキスト領域抽出率がトップなだけで
テキスト認識率がトップじゃ無いのねこれ
8番組の途中ですが名無しです:2006/01/27(金) 21:20:12 ID:dzHtYRqb0 BE:225379384-
>>1
死んだかと思ってた
9番組の途中ですが名無しです:2006/01/27(金) 21:23:09 ID:cI5+uzoE0
というか、東証の鯖をちゃんと保守してよ
10番組の途中ですが名無しです:2006/01/27(金) 21:34:15 ID:9BpYuIEX0
なんか大昔からある技術の焼き直しの気がするけどな。
だいたいこれ、jpeg関係なくて、ただの劣化画像からの文字抽出じゃね?
デコード前の周波数画像からナニするとかならともかく。
11番組の途中ですが名無しです:2006/01/27(金) 21:34:37 ID:tJ7yyhgX0 BE:132297582-
ZIPでくれ
12番組の途中ですが名無しです
読取革命が最強というのはホント?