使い物になるOCR教えろよ!

このエントリーをはてなブックマークに追加
143130
こんどはエクセルで作った表(比較的単純なもので、英語、数字のみ、A4)を使ってトライしてみました。

FineReader7.0Pro
セルの再現性は最高。文字もほぼ完璧。全部ボールドになっちゃったのは不思議だったが。
書体についても、少なくともセリフとサンセリフの違いは区別して再現しようとしている。
A4横の表ですが、自動的に縦横を認識するのも便利です。

OmniPagePro12Office 
意外にうまくいかないときがある。売り物の一つ、Excelなどのソフト側のプラグインとして動かすのも、
修正が多く出る場合はいまいち面倒。また非常に大きな文字(タイトル)を複数行にわたる文字の一部として
認識してしまう場合があり、こうなると修正が出来ない。
縦横を自動的に認識するのはFineReader同様良くできている。

読んde!!ココ
セルの再現性は非常に良かった。しかし文字は、数字の1をDと読んだりして誤認識が多かった。
(誤りパターン辞書はクリーンな状態)しかし縦横の自動認識はFineReader同様よく機能した。

e.Typist
セルの再現性はよくない。行の高さが全て同一になり、列幅の再現性も、いまいち。
例えば日付を示す幅狭のコラムが並んでいる上に全体をまとめてSeptemberなどとが書かれていると、
その幅に引きずられてSeptemberの冒頭あたりのコラムがぐっと幅広になってしまう。
認識そのものは良好。

読取革命
画像の縦横の自動認識が上手く機能しない。また、領域の認識もいまいちで、文字が認識枠の外に
はみ出したりする。画像回転や認識枠の修正は簡単なので、この辺りに注意すれば認識そのものは
精度が高い。セルによってなぜかフォントサイズが大きくなったり小さくなったりするのも変。