マジで質問。いいOCRソフト教えて下さい

1 ：すくーぷ：2000/03/07(火) 04:30

こんにちは。
皆さん、いいOCRソフトご存じないですか？もう３つも買ってるんですけど、
ナカナカ上手く動いてくれなくて泣いています。
今のOCRって、文字自体は割と正確に読みとってくれるんですけど、
プレーンテキストであることが前提なんですよね。
今、構成的にプレーンテキストである文章をスキャンすることなんて
ほとんどなく、みんなデザインされてるものばかりなので、
そうすると、画像としてよみとったり、役に立たないのです。
こういうのって高級ソフトとかあるのでしょうか。
よろしくおねがいします。

2 ：バッカーです：2000/03/07(火) 09:09

マジで回答：結局人間OCRに行き着く

マジで理由：企業内などで定型の書類、決められたフォントを
　　　　　　　　読むのであれば問題ないが、OCRを使ってテキストに
　　　　　　　　落としたい場合に限って罫線バリバリ段組バリバリフォント
　　　　　　　　使いたい放題の書類である事が多い

マジで経験：５種類くらい使ったよ
　　　　　　　　テストも兼ねて１万～３０万位のヤツ
　　　　　　　　OCRがマトモに使える日なんて来るんだろうか？

マジで大変：認識率が上がるとそれだけ間違ったところが見つけにくい
　　　　　　　　という事でもある
　　　　　　　　デジタルデータならばパソコンでコンペアできるけど、
　　　　　　　　アナログ（紙）とデジタルだから結局人間コンペア
　　　　　　　　マジでアホらしい

3 ：すくーぷ：2000/03/08(水) 02:48

30万でもだめなんすか。。。。
どこか、OCRの話を専門的に扱ってるBBSとか
NIFTYでもいいです。ご存じないですか
修正作業で死にそうです。ぐふっ

4 ：名無しさん：2000/03/08(水) 13:51

逆転で音声入力はどう？

5 ：バッカーです：2000/03/08(水) 22:18

いや、やっぱ修正・音声の辞書登録を考えれば
手で入力した方が早いデショ

これは２の補足になるけど、同じ形式で３０枚くらい
あればOCRを使う意味があるかも
OCRの使い心地っつーのは、いかに辞書を鍛えるかに
かかっているので、数枚の原稿ならば辞書を鍛えてる
途中で終わってしまうんだ
しかも、その中途半端な辞書は後生使うことがない

つまり
・大量の枚数
・使用フォント少ない
・文字の大きさ一定
・段組なし
これらの条件をクリアして初めてOCRの恩恵にあやかれる

逆に言うとこれらの条件をクリアしない場合、
「最初っから手で打ちゃよかったよ」
ってな事になりかねない

１がどういった書類をOCRにかけようとしてるか
不明だけど、その辺も考慮してね
OCRのBBSは知りませぬ
ニフにはエーアイソフトのユーザーフォーラムが
あったような気がするね

6 ：すくーぷ：2000/03/09(木) 02:37

5さん、レスどうもありがとう。
スキャンするのは、雑誌の記事とかが多いです。
読み取り革命2000は割と使えたんだけど、
やっぱり「表」と「段組」が複雑になると使えなくて。
それと、なんでOCRって英数字を全角に読み込むのかな。。。

今日も話し合ったんですけど、結局
枚数が多くて、綺麗に読み込める場合＞OCR
ダメそうなとき>手打ち
なんでしょうかね；＿；　現在のところ

7 ：デザイン文字を読めるOCRについて：2000/03/09(木) 03:50

>今、構成的にプレーンテキストである文章をスキャンすることなんて
>ほとんどなく、みんなデザインされてるものばかりなので、
>そうすると、画像としてよみとったり、役に立たないのです。

画像として読み取ってしまうようなデザイン文字とはどんな文字のことですか？
例えば「YAHOO!」ページのトップに使われているようなデザイン化された「YAHOO!」
という文字。
或は、PC雑誌「日経クリック」の表紙に使われている「日経クリック」のような文字
のことですか？

もしそうなら、ああいうデザイン文字が文庫本や新聞記事の本文のように何百文字・
何千文字と並んでいるケースってあるかしらん？
デザイン文字は、たとえ使われていたとしても、その文字数はあまり多くないと思うん
だけどなあ。
とすれば、その部分だけ手入力してもあまり手間はかからない、というかその方が早い
と思うけど。

今出てるOCRで、上で言ったようなデザイン文字を読み取るものは、ないと思う。
考えてみればそれも当然のような気もする。
デザイン文字って自由にデザインできるから、それこそ何十種類・何百種類と考えられる
からねえ。OCRで対応のしようがないんじゃないだろうか？

8 ：名無しさん：2000/03/09(木) 13:48

OCRってどうして日本語と英語を自動認識してくれないんだろ？
俺が持ってる「読んでココ for エプソン」は全然ダメ。
英語と日本語を設定段階でわけてやらないと。

認識率そのものは、比較的OKなんだけどね。

9 ：>7：2000/03/09(木) 14:19

>画像として読み取ってしまうようなデザイン文字とはどんな文字のことですか？

ああ、これは説明が不適切でした。
デザインとは、フォントデザインの事ではなくレイアウトデザインの事です。
例えば、OKREADERというソフトでは、罫線のかかっている
表は、文字で読み取ろうとせずに、その部分をJPGなどの
画像として表示します。

また、読み取り革命2000では、罫線のかかっていない表を
読み取ろうとすると、縦に並んでる文字列の画像として
表示されます。

こうした画像で読み取られた物はテキストデータとしては
利用できないので、その部分を新しく打ち直さなくてはいけないのですね。
凄く手間がかかるのです。

デザインされたフォントは問題にしていません。

10 ：名無しさん：2000/03/24(金) 17:02

WinReader Proは結構使えたよ。
数字ばっかりの表、それも電話帳並みの細かい文字だったんだけど、
ほとんど修正なしで使えた。

但し、
・大文字Oと数字の0
・小文字のlと数字の1
は相当間違えるので、該当部分だけをエディタで検索してチェックする必要はある。
それさえやっておけば、人間が入力するよりもはるかに正確で早い。

文字ものは、まあ、そこそこかな。

11 ：便乗質問：2000/03/25(土) 00:14

今時のＯＣＲの英文認識の性能ってどんな感じなのですか？
自分は英日翻訳のために大量の英文をＯＣＲにかけたいのですが。

なお工学系の論文なので多少の記号なども含みます。（元素記号など）
Ｃａｎｏｎの薄型ＵＳＢスキャナにオマケで付いてくる e.Typistバイリンガル２というのを使おうと思ってるのですが、どんなもんでしょうか？（まだスキャナも買ってない状態です）

やっぱ英文とはいえ、市販ソフトが必要ですか？　また英文に強いＯＣＲってありますか？

12 ：ＯＣＲを走らせる前に：2000/03/25(土) 19:12

マイトークFAXのようなソフトの場合、罫線とかを手作業で消してから
認識させるとかしてるけど

　グラフィック系のソフトで前処理したらいいんじゃないの？

　そういや頭脳Winとか TurboCADとかで線画を取り込めるとか
　あるけど、こういうソフトで線の部分だけ消してくれるのがあればいいのにね

13 ：職業的出版翻訳家：2000/03/31(金) 04:00

　私は英文単行本をプラグンスキャン（添付OCRソフトは超整理er）で
テキストファイルに変換して、翻訳ソフト（東芝The翻訳V4.0）で
下訳に変え、それを“日本語としてまともな文章”に仕上げています。
　翻訳家に必要なソフトウェア（翻訳ソフトとOCRソフト）については
「グリーン・アンド・ホワイト」というHPが市販されているほとんど
すべての商品の働き具合の詳細な比較評価をしていてホント、参考に
なりました。（ちなみに「翻訳ソフト評価」のいうキーワードで検索
して見つけた。）
　超整理erは“おまけソフト”だったけど10カ国語対応で、使い勝手
がよくて私は気に入っています。ただし英文イタリック体は誤差が出るし
書籍をフラットヘッド・スキャナで読みとらせると、陰影が写りこんで
きれいに読みとり難いという問題もある。だから見開き２ページごとに
手動で読みとり原稿を修正せねばならず、その労力はけっこう大変ですが
いったんテキスト化すれば、あとの処理は便利なことこの上ない。
　数式などはテキスト化の段階で手動修正が必要でしょうね。でも普通の
論文や書籍のようなものならば、たいていのOCRソフトは楽勝だと思います。

　

14 ：私も超整理erユーザーです：2000/03/31(金) 07:27

本来ファイラーである「超整理er」は、その付属機能としての位置付けにあるOCRが、
意外と高性能なので、私も重宝してます。
それにしても、今では「超整理er(Ver.1)」は、スキャナーのおまけについてきますか？
昔(3年程前)は2万円くらいしたのに。

15 ：名無しさん：2000/03/31(金) 11:25

入力系なんだけど
FormWare 使ってみれば？
日本語はリコーがサポートしてるみたいだけど
認識に関してはフォーマットに依存しないし
（自分で認識ゾーンの設定をする）

もろ業務用だけど・・・

16 ：>11：2000/03/31(金) 18:13

ＣａｎｏｎのＦＢ６３６Ｕなら持ってますが、e.Typistバイリンガル２
はレポートで工学系の本（日本語）をスキャンしたけど、イマイチ
でした。英文は使用してしてないので、わかりませんが・・・。

17 ：名無しさん：2000/04/02(日) 12:46

スキャナーのおまけについてきますか？
＞
今ならどこのメーカーの製品がついてるかな。

18 ：＞13：2000/04/06(木) 17:21

＞「グリーン・アンド・ホワイト」というHP
ここですね。翻訳ソフトを選ぶとき大いに参考にさせてもらいました。
http://www.bekkoame.or.jp/~oto3/
職業的な翻訳者ではないんですが、私も出版予定の本を訳してます。
こういう、ある程度まとまった量をこなす作業でないと、入力にPCを
使うメリットは実感しにくいかもしれませんね。
使っているのはe.Typistで、修正機能がかなり気に入ってます。
どんなOCRソフトでも後からの手直しは欠かせないはずですが、それが
かなりやりやすいと思う。認識後に単語や文章のチェックが行われ、
誤認識が疑われる部分の文字色が変わります。そこを選択してマウス
を右クリックすると、別の候補が表示されるという。
このとき、スキャナで読みこんだ元の画像を別ウィンドウに表示して
おくと、テキストを選択したときに該当部分の画像がマークされます。
ほかのOCRソフトを知らないので、この機能がe.Typist独自のものか
どうかはわからないんですが、重宝してます。

19 ：名無しさん：2000/04/06(木) 21:21

http://persoweb.francenet.fr/~cambien/eindex.html
無料の英文・仏文OCRソフト。
記号の類はどうでしょうかねぇ･･･
うちのスキャナについてきた日本語OCRソフトはつかえねー
と思ったけど、これはつかえるかもとおもった。

20 ：がぶがーる：2000/04/16(日) 05:53

読之介っていうのが、かなり安く売ってますが、使ってる方、いらっしゃいますでしょうか？定価は、39＠｀800なのに2＠｀980で売っているのですよ。http://www.tokka.com/使ってる方の声が聞きたいです。名刺管理のいいソフトウェアをさがしています。

21 ：読之助？：2000/04/18(火) 16:03

読之助ですが、私は買いました。
まず、セントロ接続なのでプリンター切替器でもないことには困ります。
ソフトはＴゾーンでバージョンアップをダウンロードすればＷＩＮ９８でも動きました。
読み取り精度は、普通の名刺であればきれいに読みます。
と言うことで、２９８０円の価値はあると思います。
ちなみに私はもう使ってません。

22 ：名無しさん：2000/05/04(木) 17:01

段組の認識操作は手動でしてます。
認識率がたかくなります。

読み取り革命V2.0

23 ：名無しさん：2000/05/07(日) 14:29

　１さんのような、雑誌の整理にＯＣＲソフト使おうと思って挫折
しました。

　で、考えたのですが、「アドビ・アクロバットで取りこみ」で
紙の情報をデジタル保存っていうのはどうですか？
　むりかなぁ？

24 ：名無しさん：2000/05/09(火) 12:19

ageとこう

25 ：名無しさん：2000/05/10(水) 04:15

　アドビ・アクロバットユーザーいない？？？

26 ：名無しさん：2000/05/10(水) 04:49

WinReaderっていう、20万？のOCRソフトはいい感じらしいぞ。

27 ：名無しさん：2000/05/10(水) 09:48

WinReader　Pro5　を使ったことあるが、高いだけあって認識はよいけど、
デザインされたフォントを読んでくれるかなぁ。むずかしいかもよ。

28 ：名無しさん：2000/05/13(土) 04:02

ageよう

29 ：名無しさん：2000/05/14(日) 03:48

omcrがいいと思うよ。雑誌で読み取り率が高かったので
買ってみたけど、誤読率はかなり低いっす。

30 ：23：2000/05/16(火) 05:17

アドビ・アクロバット・・・

31 ：名無しさん＠使いまくり：2000/08/30(水) 13:30

>30
それじゃテキストの検索できないよ

32 ：名無しさん＠一周忌：2000/08/31(木) 08:33

大地は？