使い物になるOCR教えろよ!

このエントリーをはてなブックマークに追加
1瀬空臼
おい!朕は9月に提出する英文資料を和訳してるのだが、エ○ソン製スキャナ付属
OCRは全く使い物にならず、英文をパソコンに『文字として』取り込むのに苦労しておる。

誰か「使い物になる」OCRを教えろよ!待っててやるから、至急うぷしる!
2名無しさん@1周年:02/08/19 21:08
2
   ∋oノハヽo∈ / ̄ ̄ ̄ ̄ ̄ ̄ ̄
     ( ^▽^) < 新スレおめでとうございま−す♪
   = ⊂   )   \_______
   = (__/"(__) トテテテ



 
4名無しさん@1周年:02/08/20 03:11
>「使い物になる」OCRを教えろよ

あるよ!>>1のおめめとおててでやれよ!









 ヴォケ!!!!!!
5名無しさん@1周年:02/08/20 03:28
GENSOU
6名無しさん@1周年:02/08/20 03:30
しぇええええええええー。
7名無しさん@1周年:02/08/20 03:53

     ____
    /∵∴∵∴\   >>1 歯を食いしばれよ……
   /∵∴∵∴∵∴\   こうなっちまった以上 あんたは普通の
  /∵∴∴,(・)(・)∴|   2ちゃんねらーじゃない……
  |∵∵/   ○ \|   今日その境界線を越えちまったんだ………
  |∵ /  三 | 三 |  
  |∵ |   __|__  |    もうあんたのスレは普通じゃねえ
   \|   \_/ /    あんたはドキュソ……厨房の類…
     \____/      人々に見下され、コピペを張る
   ______.ノ       (⌒)   それだけが生きがいの厨房が
  //::::::::|-、 ,-/::::::ノ ~.レ-r┐  煽りにへこたれてどうする……?
/ /:::::::::::|  /:::::ノ__ | .| ト、   メンツを捨ててどうする……?
| /:::::::::::::::| 〈 ̄   `-Lλ_レ′
レ::::::::::::::::::|/::: ̄`ー‐---‐′ふんぞりかえれ……

                 あんたの傲慢さは弱点でもあるが
                 同時に強力な武器でもあったんだぜ

                 あんたのその人をなめきった態度
                 オレは嫌いじゃなかった…
8名無しさん@1周年:02/08/20 04:10
etypist
9名無しさん@1周年:02/08/22 22:44
>1
シェアウェアでもなんでもいいから日本製以外のOCRを使うこと。
日本製のは使い物にならん。
10名無しさん@1周年:02/08/25 04:35
>>9
これで決まりだな

よかったな、1
11Goonies ◆flYWrXB6 :02/08/27 00:13
>1
表の形式そのまんまとか、フォントの大きさ、イタリック、などのいらない
素のテキストでいいなら、シェアウェアやフリーウェアで十分。
エプソンにバンドルされている「4deココ」と同じ操作性が楽だと思うなら、
同じくエプソンスキャナーに同梱されている、別の英文専用OCRを購入すべし。
「4de」を使うよりはるかに精度が高いし、高速だ。
言い換えると、「4de」の英文OCRはまるでだめ。

日本製のOCRはパターン認識に止まっており、行頭の文字と次の文字で横ピッチを決める傾向がある。
ところが英文には最初の一文字を2〜3行にまたがった大きいフォントを使うことがあるし、
カーニングという特殊ピッチで版を組む。そのときにピッチパターンを決められないで、
認識に失敗する。するとその横一行がぼろぼろになる。
とにかくOCR技術者が、英文の方が日本語よりも楽だと平気で誤解しているかぎり、
いつまでたっても技術が進歩しない。

俺は電子辞書を使いたいから、8ビットの時代からずっと、
一旦OCRしてから英文を読んでいるが、別段高価なソフトを必要としていない。
12名無しさん@1周年:02/08/31 06:09
>11
非常に参考になりました。OMINIページって言う製品があるので参考にして見ます。
リコーの読み取り革命なんかも考えてるけど・
13Goonies ◆flYWrXB6 :02/08/31 09:50
>12
Omini PageはPC用英文OCRソフト界のセルシオ。
あそこまでの高性能が必要かどうかは利用状況次第。
量:本をまるまる一冊OCRするか、1ページなのか。
図:表・写真を多く含む。表の形式をそのままExcelの埋め込みにしたいか。
フォント:厄介なのが和英混在。ギリシャ語など非アルファベット系が入るか。
色:背景色が白で文字色が黒でない場合。
フォーマット:新聞など編集レイアウトが定型の場合。
などのチェック項目があるだろう。
英文報告書を日常的に読む関係で、一度OCRを始めると500ページぐらい一気にやる。
そういうボリュームだと、ある工程の操作で数クリック余分にかかるだけで、
1時間ぐらい余分にかかってしまうから、真剣に比較しているつもり。
OCRの所要時間をトータルにみると、実はOCRソフトの出来・不出来はほとんど影響ない。
最も取られる時間は、本のページをめくってひっくり返してスキャナーの上に置き、
センサーが走るのを待っている手空き時間であり、これが65〜79%を占める。
フィーダーを使って高速にスキャンする高級機も使っているが、本原稿はお手上げ。

常に7種類ぐらいは最新のものを試しているが、たとえ1ページでも和製のOCRで英文には使えない。
まぁ1頁以内なら、OCRソフトを買うまでもなくタイプ打っちゃた方が安い。
14名無しさん@1周年:02/09/03 07:12
>13 玄人レスに感謝。
大まかに2種類使用目的が有って、一つは海外企業から届く契約書、引き合い仕様書、見積書
なんかをテキスト入力して、それを翻訳した後社内ネットに載せる。プロジェクトに関係する各課は
自由にアクセスして自課の担当業務をこなすと言う訳。
従来は各課の各担当がバラバラに翻訳して業務遂行してたんだけど無駄なオーバーラップを減らす為
漏れに白羽の矢が立って翻訳する事に成りました。作業の手順上、一旦テキストでファイルに入力すると
後々やり易いのでOCRで悪戦苦闘してた訳です。

もう一つは、イラストや設定値一覧表が随所に記載されてる輸入機械操作マニュアルを翻訳して
これも現場や関係各所に配布する予定だけど、これも時間が無いのでOCRで取り込んでパソコンの上で
翻訳した方が早いので「英文が正しく読み取れる」OCR探してた所です。

分量:どちらも200頁〜1,000頁の製本、又は3穴綴じファイル形式
図表:出きればjpegかbitmapで取り込んで、ワードか AdobeのPageMaker辺りで原書のレイアウト通りで
   文書作成したい所です。
フォント:基本的に12ポイントぐらいの英数字だけですが、ギリシャ文字は有ります。
色 :白バックに黒文字です。

今の所、一番時間取られるのはOCR段階での誤字を手作業で修正する作業で、物凄く時間が
掛かっています.....
15Goonies ◆flYWrXB6 :02/09/03 09:08
>OCR段階での誤字を手作業で修正する作業、物凄く時間が・・・
欧米製(含むイスラエル製)のOCRを使えば"大幅に"短縮されます。
12ポ活字なら、原稿と照合してチェックするのも、1頁あたり2〜3ヶ所以下に減ります。
原稿照合などは高卒一般職で十分な作業ですから、サブの人間にやらせ、
ご自分は翻訳に専念しまょう。

ブック原稿ですね?しかもボリュームが多い。
であれば、現行の編集レイアウトに一定のフォームがあり、印刷濃度も一定でしょうから、
そのレイアウト情報、最高率白黒しきい値をきっちりと確定したうえで、
自動連続処理を心がけましょう。

急ぐとき私のところでは、近所に住むPCとスキャナーを持っているトレーニング済みの主婦バイトの人に、
製本原稿を渡し、彼女の自宅でせっせと本を丸ごと一冊スキャンしてもらい、
社員がその人の家に行ってCDRに焼いて持ち帰ります。
これを夜中に自動で、OCR→テキストにアペンド保存。
翌朝、社員がスペルチェックソフトに懸け、元原稿と照合、
それから図表レイアウトを埋め込み修正、です。

時間に余裕があるときは、コネのあるスリランカの大学に外注して全部やらせています。
我々がやるのはDHLで元原稿を送るだけです。
1週間後に出来あがりが入ったCDRと元原稿を送り返してきます。日給450円!
往復のDHL代5000円でも安いですよ。
世界一高給で世界一英語処理の下手な日本人を使う気にはなれません。
日本語翻訳後のレイアウトも、東欧のある国の大学の日本語科の学生グループに外注しています。

16名無しさん@1周年:02/09/05 10:09
>15
凄い!経営者の方のようですね。自分でナンでもカンでも抱えて翻訳に専念できないのは
指示能力の欠落だと反省する事しきりです。

OCRは色々調べて見ましたが、OMNI PAGEの様にページの中に有るグラフや図表がレイアウト
通りの位置にスキャニングされる奴がいいナーとは思っていますが、10万円以上する値段がキツイので
TextBridge辺りの英文専門OCRを使ってテキストを取り込み、レイアウトはAdobeのPage Maker 辺りを
使おうかと思っています。

今の所全社を挙げて海外調達に取り組み、製品のコストダウンに取り組んでいますが
何分英文と契約行為に弱い日本人は、客先の契約書を大急ぎで読んで見積りや図面作ると後で見解の相違と言うか
欧米人得意の法律論に持ち込まれて、結局大赤字の原因になってます。
んで、最初っから和訳してからじっくり客先契約書を読みこんでから見積もりや提案書出すように
した方が結局安上がりと言う結論に達しました。

そしたらお年寄り達が考えたのが「機械翻訳でやらせろ!」でした。custom areaを慣習領域とか
翻訳する機械に契約書は任せられず、やっぱりある程度専門知識と実務能力が有る人間がやれと言う事になり
自分がやってます。

東欧関係は人件費安いですよね。接待の為に休日深夜に呼び出された外人クラブで東欧人女性と話し
しましたが、英語が判る日本人は自分だけでしたのでここぞとばかり文句言ってくれましたね。
なんか月給が8万円で、お国の月給3万円よかまぁマシだと。けれどパスポートは取り上げられて
携帯電話と1日1,000円の生活費を支給され、それでコンビニでサンドイッチ買って生活してるとか。
17Goonies ◆flYWrXB6 :02/09/06 00:25
>16
複数のソフトを渡り歩くのは、一見スマートそうに見えて、実は得策ではありません。
人員訓練に費用と時間がかかり、交代要員を確保できないからです。
どんどんあなただけしか出来ない事になっていき、あなたのストレスも会社のリスクも増大します。
これでは会社としては困るんです。
内野手というぐあいに、いざというときは誰かがフォローできるようにするのが基本でしょう。
僕があなたの上司なら、あなたの構想は職人芸化につながり、管理の標準化の面から見て却下です。

あなたの日給を15Kとして計算し、能率の悪いソフトによって年に数日余分に手間がかかれば、
数万円高いソフト購入費など取るに足りません。
そんなことも計算できず、何でもかんでも経費削減という程度の会社なら、
無能そのものだし、先行きもないでしょう。
機械翻訳なんぞで契約文書が翻訳できると思うような上司がいうところの、
全社挙げて海外調達?も危なっかしいですな。
Omni Page以外にも100ドルぐらいの英文OCRで十分使えます。
Epsonのスキャナーを買われたなら、評価版の英文OCRソフトが付属していたはず。
あれを購入するなら割引があります。
なぜそのソフトを薦めるかといいますと、Epsonスキャナーには『読んdeココ』がバンドルでしょう。
あのソフトと操作性、GUIが同じほうが他の人に教えるあなたの負担も軽くなるからです。

いくら高いOCRソフトだろうが、どの道OCRするときは白黒二値でスキャンし、
挿入写真があれば256階調ぐらいで採らねばならなりませんから、ワンパスではいきません。
スキャン画像のゴミ掃除がやりやすいものを選びましょう。時間の短縮になります。
イライラさせられるのが多いですから要注意。

問題は、どのOCRソフトがいいかの買い物相談ではなく、
いかにあなた以外の人間にも仕事を分担させるか、他の人も出来るように訓練するかです。
何度も申し上げますが、OCRソフトは使い手の力量/経験に大いに左右される分野です。
したがって、ソフトの購入コストよりも訓練費を考えましょう。
平たく言えば、あなたにいちいち聞きに来なくても他の人が使えるかどうかが基準です。
でないと会社は二人の生産性を下げます。
18製パン隊長:02/09/11 18:44
>17
大変に参考になります。

愚問で申し訳ありませんが、「自分一人で」使うとしたら?
textbridgeと「製品版の」4でここ、も使っています。

小生は、永遠に部下など出来ない階層の者なので。
19Goonies ◆flYWrXB6 :02/09/13 01:13
挿絵・写真・表のExcel埋め込みオブジェクト化やらに面倒でないなら、
Epson Scannerにバンドルされている、presto の評価版を使ってみて、
ふむ使えるなと思ったら正規版を買って、それで1年ぐらいは文句なしだと思う。
「読んdeココ」とGUI、操作性が同じだから、新たに覚えることがない。
安いし、性能は他の英文OCRに比べても遜色ないレベルだ。

読んdeココだろうがなんだろうが、日本語OCRで英文OCRをやるのは具の骨頂。
英文OCRを使うと日本語OCRの出来の悪さが気になってしまうかもしれないが。
20名無しさん@1周年:02/09/19 02:02
フリーの英文OCRと書いてありますが、
具体的に製品名はなんですか?
21名無しさん@1周年:02/09/19 22:59
age
22Goonies ◆flYWrXB6 :02/09/20 16:20
>20
検索エンジンを使って自分で探さずに、聞いちゃうわけ?

Ziff-Davisのダウンロードサイトに上がっている中には、「今週のTOP10」にも選ばれたほどの実力派OCRソフトがあるし、
フリー版OCRでも物足りないなら、「パブリックドメイン版」まで範囲を広げよう。
すると、かなりな種類があることがわかる。
10種類も試さずとも、二三個でぴったりくるものがあるだろう。
事実、その中にはバージョンアップも頻繁で、どんどん多機能化しているものもある。

操作性の分りやすさを選考のポイントにする人が多いが、
なかには数式をそのまま読み取り、Wordの数式エディターと互換性が欲しいという視点で選ぶ人もいる。
商社でアフリカ諸国と取引のある部署などでは、フランス語のフォント読み取りと仏語スペルチェッカーがついているOCRにニーズがある。
よくしたもので、フランス語機能を付加できるシェアウェアのOCRもある。
そうしたOCRの多国籍化の流れに取り残されているのが、日本のOCR業界。
23名無しさん@1周年:02/09/21 08:36
検索サイトで引っかかったやつを1個1個見ていってもそれらしいのが
みあたらなかった。なんかいやらしいページとかひっかかったりして。

アメリカのフリーソフトのダウンロードサイトを知らなかったので、
ZIFF-DAVISを教えてくれてありがとうございました。

では、皆さんが良いといっているのは具体的にどれのことを言っている
のか教えてもらえませんか?

24Goonies ◆flYWrXB6 :02/09/22 21:55
>23
検索エンジンの使い方を決定的的に間違えてないか?
いかがわしいサイトなんか出ないぜ。変だよ。
いったいどんなキーワードでどのエンジンで検索したの?
25名無しさん@1周年:02/09/25 00:41
www.yahoo.comで
freesoft ocr
とかのキーワードで検索してみました。
26Goonies ◆flYWrXB6 :02/09/25 01:46
>25
Googleでやろうね。できるだけ少なく出すのが良いと考えているのがyahoo。
それはそれで、性格を知った上で使うなら便利。いわば電話帳感覚。
それと、freesoft なんてのより、
freeware or shareware, ocr, download がいいと思うけども。
スペースはもちろん半角の方がいいよ。カンマは要らない。
Good Luck!

27名無しさん@1周年:02/09/25 08:21
なかなか参考になりました。ocr freeでやってみたところ、
いくつか見つかりました。Abby fine reader 6.0というshareware
を試していますが、かなりの正確さなので驚いています。
ただ、なかなかfreeが見つかりません。あと、ドイツ語とか、
私が読めないHPで紹介されているものが結構ありますね。
28Goonies ◆flYWrXB6 :02/09/25 14:01
>27
いくらか前進したようだ。よかったじゃない?
でも、どうしてfreewareと打たないでfreeとするのか不思議。(まさか4文字以上打てないとか(^.^)
freeとした場合freewareとはすこしニュアンスが違うよ。
(会員制でもないし制限なしに)誰でも・・・みたいなニュアンスになってしまいがち。
あなたの場合2000〜3000円も出したくないと言う事だろうから、
はっきりとfreewareと打つべきだろうね。
OCRに関する海外のフォーラムも参考に、精度の高さや操作性、スピード、他のソフトとの連動性などを検討されると良いでしょう。

ちなみに、どうして欧米にはfreewareのOCRが結構あるかというと、
向こうは源泉徴収じゃなくて、自己申告の人が少なくなく、
そうなると、いろいろな領収書の金額を打ちこんで合算する必要があるからだよ。
それには本当はペン型のスキャナーがあれば便利だと多くの人が言うけれど、高いんだよね。


29名無しさん@1周年:02/09/25 18:04
27ですが、私は別人のヨコレスです。
それから、フリーソフトもみつけることができました。
webocrとかです。
30名無しさん@1周年:02/09/25 19:38
翻訳のバイトしてたときに、スキャナのおまけの欧文専用OCR「Presto! OCR」を
使ってましたが、結構いい感じでしたよ。和文には使えませんけど。
31名無しさん@1周年:02/09/26 00:15
20,23,25の者です。1日見ないあいだに
ちょっと進展があってうれしい限りです。

Webocr含め探してみますよ、うん。
あとスキャナのおまけも見直します。

ところで、GooneisさんなりのおすすめOCRソフト
って教えてもらえないですか?だめ?
32Goonies ◆flYWrXB6 :02/09/26 03:28
>30
Presto!は台湾の技術者集団の作品。丹青(タンチン)という中文OCRからの派生。
初めてカラーバックの原稿をOCRできるようにした点で丹青は当時世界中から注目された。
繰り返すが、日本語のOCRに読んdeココを使っているユーザーには、操作フィールが統一され、
その分、教育訓練に時間がかからない。低価格帯としてはまとまっている。
>31
だめ。
あなたがどういったOCR処理のためにどんな機能を必要としているか、知る由もないからアドバイスのしようがないのよ。
あしからず。
敢えていうと、正確さとトータルなスピード、そしてボリューム次第で、いいOCRの評価はわかれる。

33 :02/10/04 08:48
所でgooniseさんの正体は?
34Goonies ◆/XflYWrXB6 :02/10/04 12:58
ただのユーザーだよ。
35名無しさん@1周年:02/10/04 16:35
Gooniesもうイラネ! (゚听)
36おちけつ!:02/10/04 17:09
>>34
歳だからな。そろそろ脳梗塞に気をつけろよ。
 まず自分はどんなの使ってるか教えてやりゃいいのに。
 それが使えるか否かは実際に触れてから判断するっちゅ〜の。
 
 4Deでも設定次第で結構使えるよ。シンプルな構成の英文に限られるけど。
37名無しさん@1周年:02/10/04 17:36
−−−−−−−−−−−−−−−−−−−−−−−−−−
俺様用しおり
  ∧_∧   
 ( ´∀`)< 今日はここまで読んだ      
−−−−−−−−−−−−−−−−−−−−−−−−−
3827:02/10/04 17:40
いくつか試してみました。
やはり、フリーソフトはちょっと不便です。フリーを使うのならば、
読んでココのほうが使いやすいです。(もちろんバンドル版ではないもの。
私のはちょっと古いVER.6.現行のはVer8)。

シェアウェアのABBYY FineReader 6.だと、イラストつきのものでも、
かなり正確に読みとることができます。ちなみに、私が試してみたのは、
Peter Rabbit の小さい絵本なんですが、Wordに絵本を写し取る
ことに成功しました。(もちろん、文字はテキスト化した)。
39Goonies ◆/XflYWrXB6 :02/10/04 20:33
>35
そうかい。
あんたの相手をしたつもりはないけど。かまって欲しかったのか。
>36
あんたもいずれその歳になる。
俺のことはいいから自分の親の卒中を心配しろ。
脱衣所と便所を温かくしてやれ。


40名無しさん@1周年:02/10/04 21:07
>>39
相手にしないほうが・・・。
なんか、はじめはいい人っぽかったのに結構嫌な性格なのな。
(´・ω・`) ショボーン
41G:02/10/04 22:41
>27
あなたのいうバンドル版という意味は違っていないか?
Epsonにバンドルされているのは、Prestoの試用版だろう。
>40
人によって使用状況が違うから、Aが使っているものがBにもいいとは限らぬという、「常識」を言ったまで。
ばかばかしい。
人は皆、あんたのいう「いい性格」じゃない。
自分に得な人間はいい人か?自分中心に都合良く考えるなよ。
ここは35,36のようなアホを追放する自治能力がない。
せいぜい知りもしない者同士教えっこしていなさい。ばいばい。
4227:02/10/05 00:54
>>41 presto というのは知らないのですが、
私はヴァージョンアップで、今の読んでココVer.6を購入したのです。
43名無しさん@1周年:02/10/05 09:06
>>41
いや、単純にもっと別の対処法があったろう、と。
やっぱり文面から素敵な性格だということが伺えますね(はぁと
44名無しさん@1周年:02/10/05 09:59
ああ、また英語板から上級者が去って行く。
Gooniesさんて、kunnysさんの別名かと密かに期待していたんだけど。
35-36みたいなのはいつものヒガミだから仕方ない。
2chを見ていればそれぐらい納得でしょう。出来る人への勲章とも言える。
でも43、はっきり言ってあんたのような、いいこぶっているのがたちが悪い。
情報交換の場は、仲良しクラブの必要はないし、
人はそれぞれ人格が違ってあたりまえでしょ。現にこうして俺はあんたにむかついている。
ぐず27もだよ。PrestのことはAIソフトに電話して見りゃいいじゃん。
試供版で提供されてるんだから、送ってくれるかもしれない。
Peter RabbitがOCRをテストするのに適切とは思えないな。
イタリックもアンダーラインも、文頭の飾り文字もない。
もっともあれなら、タイプ打っちゃった方が早いしな。英語の勉強にもなるし。

どうせまた自作自演だっていう間抜けがレスつけるんだろうけど。
ま、後はよろしく43。検索もできないような27の面倒をみるのは君だ。
Gooniesさんが来ないなら、やれやれ俺もここに来る意味がない。
45名無しさん@1周年:02/10/05 10:22



            大    成    功


                (´,_ゝ`)
4627:02/10/05 17:10
>>44

>Peter RabbitがOCRをテストするのに適切とは思えないな。
>イタリックもアンダーラインも、文頭の飾り文字もない。
> もっともあれなら、タイプ打っちゃった方が早いしな。

甘い!
イラストを取り入れつつ、英文だけをテキスト化する作業は、
案外難しいのである。
(最初に試みたテキストは、Bhabhaのlocation of culture
だったが、フランス語や特殊なハイフン文字以外は、
よく認識されました。だからこそ、難しいイラストたっぷりのものを
試してみたのである)。

しかも、Peter Rabbit にも文頭の飾り文字は一応ある。
それはうまく認識できませんでした。

>PrestのことはAIソフトに電話して見りゃいいじゃん。
PrestoがEpsonのバンドル版ではなさそうだいということを
書いたまで。余計なお世話である。

だいたい、お前はいったい何をやったんだい?
自分はなにもしないで、えらそうな口をたたくんではない。
47名無しさん@1周年:02/10/05 17:57
ちょっとみない間に書き込みが増えていたので
ちょっと期待していましたが、肝心のソフト名はあんまり
でてないですね。

さてWebOCRはオンラインじゃないとだめみたいなので、
WinOCR4.0ためしてみました。
もひとつ割と有名らしいフリーソフトも

あんがい読まないなあという印象です。
解像度をあげるとある程度読むんだけど、
handheld が handhold になったりしてるのが
いや。
48名無しさん@1周年:02/10/05 19:12
31、47のものです。

ちなみに使い道は雑誌や英語教材などを、PDAとかに取り込んで、
読みたい(使いたい)のです。この目的なら何が向いているのでしょう。
でも上でかいてあるほど、すごく優れているという印象もなくって。
4927:02/10/06 01:56
>>48 やっぱりフリーはダメかなあというのが正直な感想。
 少し金を払わうと、やっぱり出来が違うような。
 私が紹介したabbyyを試用したら良いと思いますよ。

 それから、読んでココ!のマルチリンガルというのを購入すれば、
 Prestoがついているみたいなので、これも良さそうですよね。
 
 で、思ったことは、OCRも大事だけれど、スキャナーも大事ということ。
 モノクロで速いかどうかが、決め手ですね。OCRにカラーや精密描写は必要
 ないですからね。
50名無しさん@1周年:02/10/06 02:38
スレの内容からすると、参考にならないかも知れんが・・・。

■OCRソフト、読んでココか、Eタイピストか■
http://pc3.2ch.net/test/read.cgi/software/998465769/l50

OCRのことなんですが…
http://pc.2ch.net/test/read.cgi/bsoft/996505150/l50

認識率が一番いいとおもわれるOCRソフトは?
http://mentai.2ch.net/bsoft/kako/971/971160198.html

マジで質問。いいOCRソフト教えて下さい
http://mentai.2ch.net/bsoft/kako/952/952371038.html
51名無しさん@1周年:02/10/06 14:29
>47
heldがholdになるのは、「しきい値」が不適切なだけ。
「e」の横棒が消えるほど、線が細いだけ。
OCRはユーザーの使いこなし技術が4割。
52名無しさん@1周年:02/10/06 14:51
いろいろありがとうございます。
49>>
abbyy早速たしてみます。

50>>
OCRはどのカテゴリにかけばいいのかわからないですよねえ。
ちょうど英語板にスレッドがあったので便乗しました。
みさせてもらいます。

51>>
WinOCR修正できる画面で出てくる画像は、認識時の画像と思われる
(スキャンした画質とちょっと違うので)のですが、eの横棒は消えて
いません。あと人の名前とかだめです。BettyはBetaになってました。
なんか辞書に引っ張られている感じです。

53名無しさん@1周年:02/10/08 07:40
52ですabbyy試してみました。
かなりいい感じ。
テスト的にHarryPotterを読ませてみました。
読み間違いがほとんどないですね。
54名無しさん@1周年:02/10/08 15:46
おい>>44よ、お前は本気でkunnysが上級者だと思っているのか?まさか本人か?
あいつはどっかのスレである奴が使った表現を「調べもせずに」間違いだと指摘し
たのだが、即効でほかの奴にkunnys自身が間違っていたことを指摘されてトンズら
こいた奴だぞ。
上級者なら誰でも知っている表現だし、本当の上級者ならまず調べてから指摘するだ
ろ?それにクンニ本人を知っている奴がいて、そいつによるとあいつは明らかに脳内
評価と実社会評価とのギャップがあって、2ちゃんとかで憂さ晴らしをしているんだそ
うだ。かわいそうな奴なんだよ。初心者は盲目的になりやすいから注意しろよな。

本物はもったいぶったやり方で時間稼ぎすることなく、「わからない人の立場にたっ
た視点」でアドバイスする。ただ自分をできる奴だと思わせたい奴の手口はこのスレの
Gさんの文章を見てもわかるだろ?目を覚ませヴォケ!
55名無しさん@1周年:02/10/09 00:09
>54
スレの主旨からは離れちゃうけどごめん。
Gさんと44が同一人物かもしんないし、Gがkunnysかもしれない。
だから、まさか本人か?はもうこの2chでは考えてみてもしょうがない。
"トンズラこいた"てのも54の勝手な思い込みかもしれないし、
クンニ本人を知っているやつがいると54がいうのも信じようがないし。
単純な間違いを指摘された、ってのも別人kunnysのなりすましかもしれないし。
kunnys氏がいなくなる直前は、だれかれとなく成りすましていたし、
その後も後を絶たないみたいだし。
つまり、
あんたみたいにいまだに「埋めてやる」っていきまいてみてもしょうがないってことだよ。
56名無しさん@1周年:02/10/09 23:55
53の者です。
自分の目的に合うかは試してみるので、
フリーなり安価のOCRソフト名、たく
さん教えてください。
ABBYYは良いけど、目的に対しては高いっす。
5727:02/10/10 23:51
abbyy ver.5 home editionがamazonn.comで26ドルくらい
だったんだが、アメリカ以外には売らないだって。
58名無しさん@1周年:02/10/12 21:04
WinMXでDLするって手がある。

59名無しさん@1周年:02/10/14 02:43
∩_∩     / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
(∞∂∞) ∫ < ウ゛ァカじゃねーの。そんなに2ちゃんはあまくねーんだよ
〔   ⊃ ̄   \大人になれよ55。てめぇが無視すりゃ終わりだ。
 |||       ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  ̄ ̄
60名無しさん@1周年:02/10/17 01:02
読取革命2002ってのに付いている英文OCRが結構使えると思っていたんだが
単に ABBYY ver5.2 だったというオチ(苦笑)。
61名無しさん@1周年:02/10/23 18:52
age
6254へ:02/11/10 16:36
guni = kuni
は、既知だったよ。
kuniは上級者だよ。実際に会った俺が認めるよ。
後、kuniを批判する奴がいつもソースにあげる
keep a diaryの件は、もう許してやれよ。
俺が書いたんだよ。
それに、kuniが間違いだと突っ込んだら、別のヤシが正しいと
訂正したんだよ。
俺も、kuniに直されたとき「あれっ」と思ったが
まあ、kuniの性格から「フライングしたな」くらいに思って見逃していたよ。
ただ直後に別のヤシにkuniが突っ込まれてしまったが。
だから、もう許してやれよ。
kuniでもguniでもいいから、おれは上級者のレスが
読みたいんだよ。
はっきり言ってkuniを批判している奴の英語力は
kuniの鼻くそ以下だよ。
63名無しさん@1周年:02/11/18 14:22



極秘挙げ



64名無しさん@1周年:02/11/18 17:19
すみません、OCR関連の質問していいですか?
複数の言葉が混ざった文章とか読み込む時は、
上手な人は、どうやってるんですか?
文献表とか年表で、英独仏併記、みたいな、
認識枠を言葉別にしようもないほど混ざってる場合。
65Goonies ◆/XflYWrXB6 :02/11/18 20:55
>64
日本語の漢字が入らないなら日本製以外のOCRで問題なし。
英独仏だろうがキリル文字だろうがギリシャ文字だろうがほぼ自動で識別。
問題は64氏も悩んでいるように、日本語の漢字と英仏独希の混在で、
日本製のOCRは日英混在モードにしても、その後の修正の手間が多大で使えない。
台湾の漢字と中国本土の漢字と英仏独の混在も台湾製のOCRで問題なし。
中国本土製のOCRは、漢字と英独仏の混在にまだすこし難あり。
しかし日本製のOCRの混在モードのだらしなさに比べればはるかに実用レベル。

どうして日本製のOCRがだめかというと、
日本語OCRのエンジンは自分たちで作ったが、英語については他から買ってくっつけたからだ。
66名無しさん@1周年:02/11/19 05:08
(´,_ゝ`) ふっふっふっ。
67名無しさん@1周年:02/11/19 05:09
(´,_ゝ`)楽しみにしていてね。
68名無しさん@1周年:02/11/19 05:10
(´,_ゝ`)ふっふっふっ。じゃ、じゃまた。
69名無しさん@1周年:02/11/19 05:14
>はっきり言ってkuniを批判している奴の英語力は kuniの鼻くそ以下だよ。

まだわかっていないようだね。いままでの書き込みから判断されたわけだろ?
非英語圏の人が話す本物の英語を知らないんだろ?
70名無しさん@1周年:02/11/19 05:14
(´,_ゝ`)みんなを呼んでこようかなぁ。
71名無しさん@1周年:02/11/19 05:18
(´,_ゝ`)やっぱり、まだ泳がせてあげるね。行動開始するときは宣言するから、
それまで顔は出さないので安心してね。また会いましょう。さようなら。
72名無しさん@1周年:02/11/19 06:37
>>65
そうなんですか。Text Bridge Proを使ってやったら、
上手く行かなかったので諦めていました。
きっと使い方が悪かったんですね。
なんか、どの言語で読み取るかを設定すると、
それじゃない言葉のアクセントが落ちたり、間違われたりして、
直しが多くなり、手で打ち込んだほうが速いぐらいになってしまって。
もう一度試してみます。ありがとうございました。
73(^∀^):02/11/19 06:37
いいめえるさんの方がいいな〜。
ここで上級といわれている人のレス呼んでみて素直にそう感じたよ。
74名無しさん@1周年:02/11/19 06:38
「アメリカ人は、ダーッと打ったらドイツが爆発したとか、相変わらずそんな映画ばっかり作ってるでしょ。
いちばんシンプルに取り残されているのはアメリカ映画です。
敵だったらいくら殺してもいいわけで、「ロード・オブ・ザ・リング」だってそうです。
敵だったら、民間人でも兵隊でも区別無しに殺していい。誤爆の範囲なんですよ。
一体アフガニスタンの爆撃で何人殺してるんですか?
それを平気でやっている映画が「ロード・オブ・ザ・リング」です。
原作を読めば分かりますけれども、実は殺されてるのは、アジア人だったりアフリカ人だったりする。
それがわかんないでファンタジーが大好きって言ってるのは、馬鹿なんです。
「インディ・ジョーンズ」なんかでも、白人がパーンと人を撃つでしょ?
一緒に喜んでいる日本人っていうのは、信じられないぐらい恥ずかしい事なんですよ。
自分はパーンと撃たれる側なんですよね。そういう自覚なしに観るということが信じられない。
誇りも歴史観も無い。自分がアメリカという国にどう思われているかも知らない。
USアーミーなんて胸につけたシャツを着てね、スタジオの若い奴がパリに行くっていうんで、
「お前は馬鹿か」って言うと「ファッションです」って言うんだよね。
行ったとたんにパスポートかなんか盗まれて。ざまみろって、そんな話はどうでもいいんですけどね(笑)」 
75名無しさん@1周年:02/11/19 13:08
「アメリカ人は、ダーッと打ったらドイツが爆発したとか、相変わらずそんな映画ばっかり作ってるでしょ。
いちばんシンプルに取り残されているのはアメリカ映画です。
敵だったらいくら殺してもいいわけで、「ロード・オブ・ザ・リング」だってそうです。
敵だったら、民間人でも兵隊でも区別無しに殺していい。誤爆の範囲なんですよ。
一体アフガニスタンの爆撃で何人殺してるんですか?
それを平気でやっている映画が「ロード・オブ・ザ・リング」です。
原作を読めば分かりますけれども、実は殺されてるのは、アジア人だったりアフリカ人だったりする。
それがわかんないでファンタジーが大好きって言ってるのは、馬鹿なんです。
「インディ・ジョーンズ」なんかでも、白人がパーンと人を撃つでしょ?
一緒に喜んでいる日本人っていうのは、信じられないぐらい恥ずかしい事なんですよ。
自分はパーンと撃たれる側なんですよね。そういう自覚なしに観るということが信じられない。
誇りも歴史観も無い。自分がアメリカという国にどう思われているかも知らない。
USアーミーなんて胸につけたシャツを着てね、スタジオの若い奴がパリに行くっていうんで、
「お前は馬鹿か」って言うと「ファッションです」って言うんだよね。
行ったとたんにパスポートかなんか盗まれて。ざまみろって、そんな話はどうでもいいんですけどね(笑)」


いや、同感だ!どうでもよくなんかないぞ。
76名無しさん@1周年:02/11/19 13:19
英語の勉強大変ですよね。そこで!勉強効果をUPさせる方法を編み出し
ました。まず、人間の脳は外から3割、中から7割の影響を受けると言われ
ています。個人差はあるけど1ヶ月間毎日続ければ効果は出始めます。
細胞の移り変わりが一番遅い血液でも約200日で生まれ変わるので、
30歳以上なら200日続ければ誰でも記憶力が5歳は若返るんじゃない
でしょうか。では、何をするのかというと、精飲を飲むのです。精液を
飲んだ場合、亜鉛等脳に必要なミネナルがバランス良く入っています。
さらにHGH(人成長ホルモン)の分泌を促すアルギニン(アミノ酸の一種)が
精液中の蛋白質の8割をしめているから新陳代謝を活発にして脳が若返り、
しかも、DNAの材料である核酸が精子には多く含まれてるのです。今、
全米で話題を呼んでいるよねアルギニン。アミノ酸HGH(人成長ホルモン)の
分泌を促します。魚の白子(精子)やサプリメントからの摂取も可能ですが、
人間の精液には及ばな〜い。その効果は脳の若返り、記憶力増加、筋肉生産、
脂肪燃焼…etc 人間の精液にはこれらの栄養素がバランス良く入っていて、
水溶性だから吸収にも優れている。男の精液が脳にとって優れていることは
十分に理解してもらえましたか?
というわけで、勉強効果をアップさせる方法、それは精液を飲む事です。
ぜひみなさんでチャレンジしてみてくださいね。
77名無しさん@1周年:02/11/19 13:26
ちょっと参考までに、ぶっちゃけた話しましょうか。

このスレッド、または英語板にネイティブに近い英語力がありまた
良い文章を書ける人が書いたと思われる英語は、まずありません。
たとえば、この英訳スレッドというと短い文章ならまだマシだけどちょっと
長い文章になると、
5割ぐらいは明らかに問題があったり、かなり不自然な英語
3〜4割は不自然ではあるが、なんとか通じる英語
一応、まともな英語になっているのは1割ぐらいです
ただし、その1割もネイティブの英語ほど滑らかではなかったり、どこかに
不自然さが残る英語という感じです。

これはけっして誰かを批判するものではありません。
ここで英訳をしている人は無料のボランティアのようなものだし、正確な英訳を
出さなくては義務もないし、英訳を頼む人も無料で英訳を依頼しているのだから
正しい英訳が出されなくても文句を言う権利はないからです。

また英語圏滞在経験のない人のために参考までに述べておくと、仮に英語圏に
10年滞在していても、しっかりした英語を話せない人はたくさんいるし、
文法的におかしい人もたくさんいます。
まぁネイティブでも皆が読みやすい英語を書けるというわけではありませんが。

もちろん滞在歴が長くなればなるほど、それなりに知識もあり、日本で英語を
勉強しただけで変に自信を持っている人よりは自然な英語を書けるとは思いますが、
言葉の習得というのは非常に個人差が大きく、中にはアメリカ滞在歴何十年
(たとえば一世のような人)でも、あまり英語を話せないという人もいます。
アメリカから来た野球選手や海外から来たサッカー選手などが5年、10年
日本にいてもほとんど日本語を話せない人がいるのを知っている人も多いでしょう。
その人のセンスや言葉を学ぶ姿勢によって、言葉の習得速度はまったく違って
くるというのが実態です。
78( ´D`)ノぷりぷり:02/11/19 13:37
                 ┌─┐
                 |キ|
                 |タ. |
                 │ん│
                 │じ.│
                 │ゃ│
                 │ね.|
                 │ ぇ.|
                 │の |
      キタ━━━キタ━━.│ !?│━━━━━!!!!
                 └─┤
    ヽ(゚∀゚)ノ  ヽ(゚∀゚)ノ   (゚∀゚)ノ    (  ゚∀)
    | ̄ ̄ ̄|─| ̄ ̄ ̄|─| ̄ ̄ ̄|─□( ヽ┐U
〜 〜  ̄◎ ̄  . ̄◎ ̄   ̄◎ ̄   ◎−>┘◎
79名無しさん@1周年:02/11/19 16:50
>>30
翻訳のバイトってどんなことした???
80名無しさん@1周年:02/11/19 18:15
>>62
英語だけじゃなく、日本語までボキャ貧かよ。
これまでの怠惰な生活が今のお前をつくったんだろ?
人に助けを請うだけの知識乞食がなに吼えてんだよ。
みっともないからROMるだけにしろよ。
81名無しさん@1周年:02/11/19 20:05
↑相手を間違えていると思われ。
 それとも文脈が読めないのかしら?
 恥ずかしい、晒し挙げ
82名無しさん@1周年:02/11/19 22:14
↑英語だけじゃなく、日本語までボキャ貧
83名無しさん@1周年:02/11/20 11:24

>>80 = >>82 = Kunisの犬

頭悪すぎ。あげんなボケ!
84名無しさん@1周年:02/11/20 11:30
>>83
kuniに犬は明らかに >>62 だろ?
手前であげてんのは極上のしゃれのつもりか?
85名無しさん@1周年:02/11/20 14:58




kuniに犬???????????????????








86名無しさん@1周年:02/11/20 20:14
誰にでもあることだよ。寒いし。
87Goonies ◆/XflYWrXB6 :02/11/27 13:49
OCRソフトも確かに大事だが、スキャナー選びも能率に多いに影響する。
廉価版フラットベッドスキャナーはキャノンとエプソンの2社にほぼ絞られた感があるので、
同等クラスである、CanoScan LiDE50とEpson GT-8300UTのどちらにするか考えてみたい。
まずI/FはUSB2.0でないと話にならないので、LiDE20,30は候補から落ちる。
LiDE 50はスキャンしただけの書類画像でもOCRによる自動検索が可能。
マルチPDEファイル作成をワンタッチでできるFILEボタン機能もある。
オフィス使用をよく研究している。
LiDE 20,30はUSB2.0にも接続できるが、スピードはUSB1.1でしかない。
キャノンはUSB2.0でもエプソンにスピードでは勝負にならないのに、1.1なら4倍遅い。

セイコーエプソンのGT-8300UTを選ぶなら、そのスピードと内蔵型FAUを評価してのことだろう。
8300UTには最大6枚のフィルムスキャンユニットが内蔵されている。
エプソンのTWAINドライバーは頻繁に更新されるし、OA用として信頼性が高い。
廉価版の7300Uは世代的に古く、魅力はない。
エプソン製品はプリビューがキャノンの半分の時間だし、本一冊まるごとOCRするとなると、
トータルの作業時間は多いに違ってくる。
ペン型スキャナーについては次回に譲る。
88名無しさん@1周年:02/11/27 22:34
おい・・・待ってやるからうっぷしろ、まで言われて、よくみんな反応しているな。
こんなに失礼な1はいないだろ。
89Goonies ◆/XflYWrXB6 :02/11/28 21:01
キャノンだと、エプソンのより1頁あたり20秒近く遅い。
500ページのOCRをやるとすると30分ぐらい余分にかかってしまう。
キャノンは縦に置けるって宣伝しているけども、縦じゃOCRはできない。
SCSIだとかUSB2.0のインターフェースよりも、
スキャナー自体のスピードを重視した方がいい。
プリビューが早くないとOCRの能率は上がらない。

OCRソフトのほうで対応しているのが400dpiぐらい。
600dpi〜でもOCR精度が飛躍的に上がるわけでもない。スキャンに時間がかかるだけ無駄。
OCRが目的ならそんなに高解像度のスキャナーはいらないよ。
90Goonies ◆/XflYWrXB6 :02/12/10 23:38
本日、久々にOCRす。
foot notesが小さい字だったので、OCR解像度を600dpiでやった。
挿入されたグラフをbmpで画像保存してテキストと合体させたのだが、
600dpiだったから異様に画角がでかくなりA4に入りきらない。
画像のサイズを縮小すると今度は字がつぶれる。
仕方がないからもう一度本をひっくり返して、400dpiで絵だけ取り直した。
困ったもんだ。
91名無しさん@1周年:02/12/22 14:34
>>90
その後どうしたの?
92名無しさん@1周年:03/01/05 20:52
残念ですが、くにはもちをのどに詰まらせて他界なさりました。
93Goonies ◆/XflYWrXB6 :03/01/08 09:47
正月が明けるとなんだかんだと名刺交換する機会が多い。
名刺といえばいまだに紙であり、もらっても手入力するしかない。

OCRで名刺を読ませて管理しようなどとは思わない。
名刺情報は正確さを要求されるからOCRするよりも手入力の方が速いし確実だ。
だが秘書にやらせるなんて人は一握りだろう。
なぜどこかが音頭を取って日本の標準名刺フォーマットを決めないのだろう。
ついでにバーコードも決めよう。でないと国全体で非能率だ。
社員章にICを組みこませ、あまり使うこともないIrDAででもピッと飛ばして
おたがいに電子名刺を交換し合えればどんなに楽だろう。
10年も経てばおたがい会社もポジションも変わる。
前に貰った名刺をどうにか探し出して新しいのに差し換えるのだって一苦労だ。
竹中IT5年プランも頓挫している。日本の名刺文化ぐらいからIT化したいものだ。

かつてよく社葬の手伝いをやらされたが、香典返しの宛名書きが一苦労だった。
会社の正式名称、住所、肩書きを調べ失礼にならないように確認しなければならない。
郵便番号だって書いてくれないし、たとえ書いてあっても2割ぐらい間違っていた。
葬儀や婚礼、会議の芳名記帳にもピッて済ませたい。
筆で書かせるなんてナンセンスだ。

IT関係の展示会でもいまだに名刺入れの箱が置いてある。
その向うで「先端のソリューション」なんてやっている。笑うしかないのか。
かつて入場証をバーコードでピッとやることもあったにはあったが、最近はまたお名刺頂戴に戻ったみたいだ。
94山崎渉:03/01/11 04:06
(^^)
95Goonies ◆/XflYWrXB6 :03/01/11 22:11
give me a break, who is he?
96名無しさん@3周年:03/01/28 23:08
(´,_ゝ`) ふっふっふっ。
97 :03/02/03 10:37
結論出てないなあ.....
98山崎渉:03/03/13 13:29
(^^)
99名無しさん@3周年:03/03/23 11:34
Give it a try.
100名無しさん@3周年:03/03/23 11:39
100                       
101山崎渉:03/04/17 09:59
(^^)
102山崎渉:03/04/20 04:47
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
103Goonies ◆/XflYWrXB6 :03/04/23 10:32
都内図書館でPCを使わせてくれるところは少ないね。
やっと一ヶ所見つけた。
キーボードがカチャカチャうるさいというのが拒否理由らしい。
グループ学習室なら声出していいのだし、なぜ?と聞いても相手は役人だ。
なかには、PCはいいが、電気コンセントは使わせないというところもある。
なぜ?と聞くと、掃除用だからとか訳がわからん。

僕は図書館にある洋書を、ペン型のOCRでなぞって辞書ソフトでひきながら読みたい。
借りてくれば良いのだが、重い本もあるし、つぎつぎ調べたいときもある。

ペン型OCR一体化の電子辞書が売られているが、単語数が少なくてお話にならない。
自分なりの辞書も構築できないし。
妙案募集。
104Goonies ◆/XflYWrXB6 :03/05/20 22:48
300dpiの時の走査時間と、96dpiの時とでは同機種でありながら、
かなり違うのがキャノン。
どの解像度でも同じような増加だが、機種ごとに速いものと遅いものがあるのがエプソン。
エプソン速い、キャノン遅いと決めつけちゃいけない。
OCR資料によっては、96dpiでも300dpiでも
読み取り率に大差のないときがあるのだから。
105山崎渉:03/05/22 00:43
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
106山崎渉:03/05/28 15:16
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
107名無しさん@英語勉強中:03/06/20 06:25
日本語を読みとってくれとは言わんから、まともに英字を読み取ってくれる
ソフトを教えてくれ!
108名無しさん@英語勉強中:03/06/20 20:31
もう手打ちは嫌だ!
英文の読み取りには、精度、スピード、書式、
まったく問題ないですけど、なにか。
>107
どこのOCRソフトに失望したの?
sage
112Goonies ◆/XflYWrXB6 :03/07/11 01:03
独立型のペン型OCRがあったら買いたい。
USBメモリースティックで記録して、家に帰ってからPCに取りこむんでもいい。
地元の図書館じゃPCが使えないからね。
ちょっとなぞって、メモしときたいことは一杯あるし、
さらに、大型辞書がひけたら便利だと思うんだ。
今売られているのは、だれが辞書ひくんだこんな単語!みたいなのしか入ってない。
[a]とか[the]なんかひいてどうするかっての。
メモリーモジュールを中上級者用に書き替えられるようにしてくれればいいのだけれど。
113名無しさん@英語勉強中:03/07/11 17:47
日本語と英語の入り混じった文で、
両言語をバランスよく認識してくれるソフトは、何でしょうか?
114113:03/07/11 17:59
すみません。言葉が足りませんでした。
日英混在文用のOCRには、ろくなものがない、という理解でよろしいですね。
それでもなお、まだましなものを選ぶとしたら何でしょうか?
というのが>>113の趣旨です。
115113:03/07/11 20:15
ABBYYは持っているし、日本語のOCRについてはスキャナのおまけで満足しています。
>>65
ふと思ったのですが、このABBYYと、スキャナのおまけを使って、結果をマージする手間と
>>65の修正の手間とは、どっこいなのでしょうか?
116Goonies ◆/XflYWrXB6 :03/07/11 20:44
>113
この30年、日英混在の文書OCRで格闘してきました。
結論を先に申し上げます。今のところ容易ではありません。

混在には、(a) 英文頁と和文頁が左右に分かれているか、領域がはっきり分かれているもの、
あるいは(b) 英文和文が一行ずつ交互に記載されているもの、その他いろいろあると思います。
まず(a)ですが、我々は英文OCRと和文OCRを二つ使ってます。
市販されている1本の日本製のOCRソフトで、英文指定して認識させても、
我々の使用に限っては、時間の無駄、腹が立つだけ損だという結論です。
宣伝とは裏腹に、ほとんど進歩してませんので、今後もあまり期待できません。

(b)の場合、和文部分だけを手動で領域指定し、まず和文だけをOCRしてしまいます。
そのときにスキャンした画像をBMPないしTIFFファイルで保存しておきます。
次に英文OCRを起動し、先ほど保存した画像ファイルを読みこみ、
これまた手動で英文領域を指定してOCRします。
あとはページレイアウトソフトにマクロで和文と英文を吸わせます。
画像編集機能を使って、和文部分を囲み、消しちゃってから英文OCRしても良いのですが、
うっかりミスもありますからあまりお勧めしません。

では方法がないのでしょうか?ないこともないのです。
全体量が少ないとき、我々は英文の個所だけハンディスキャナーを当ててOCRしています。
8ビット、16ビットPC時代の古いものをいまだに使っていますが、
ハードを改造したり、秘技を編み出したり、フィルターソフトを書いたり、ちょこまかやってます。
守秘義務がありますので書けませんが、近々、面白いものが出るかもしれませんよ。
テスト機を借りたので、今、遊ばせてもらってます。
非常に参考になりました。
現状では、欧米語専用のものと、日本語用のものを併用する他ない、
ということですね。
とはいえ、いつか良いものが出るかもしれないので、
今後も、ときどきこのスレをチェックすることにします。
瀬空臼さんとGooniesさんに、感謝。
118117=113:03/07/11 22:36
すみません。
119113:03/07/12 14:04
ビジネスsoft板のOCRスレ
http://pc2.2ch.net/test/read.cgi/bsoft/996505150/
で、読取革命というのの評判が良く、気になりました。
読取革命のサイトに行くと、機能制限無しの試供品があって、
しかも、ABBYYのエンジン(FineReader5.02)を内蔵していると聞いて、
期待が高まりました。
20分ほど試したところ、以下のことがわかりました。

- 日本語認識モードと、英語認識モードがある。
- 日本語認識モードでも、それなりに英語を認識するが、精度は悪い。
- 英語認識モードは、ABBYYそのもの。
- 領域(自動認識されたものを含む)ごとに各モードを手動で設定することができる。

というわけで、かなり満足しています。
少なくとも、ABBYYと国産OCRを併用する理由は無くなりました。
自動認識された領域に、どの認識モードを適用するか、そこまでやってくれれば、
相当に使えるソフトになると思います。そうなるのも、時間の問題でしょう。
120113:03/07/12 14:23
>>65
台湾の漢字と中国本土の漢字と英仏独の混在も台湾製のOCRで問題なし。

これは、行内に混在しても問題ないのですか?
日本語で言うと、こんな感じ。
【答え】 Is this good to eat?
この領域を、先ほどの読取革命で、日本語認識モードで読むと、
【答え】Is this 9ood to eat?
英語認識モードで読むと、
[g*J Is this good to eat?
>119
>そうなるのも、時間の問題でしょう。
だと良いですけどね。
10年前もそう言ってましたから。
参考にさせてもらっています。
僕の理解では、[g]を[9]に誤認識するのは、
しきい値が低く、スキャン原稿がかすれぎみな時に起きます。
そのときは濃い目にしますと"少しですが"改善されます。

119でおっしゃるように、英日二つのエンジンを持っているのは、
読取革命にかぎらず、どれでも大体そうなっていますよ。
手動で領域を指定する面倒を厭わないとおっしゃることに驚きました。
123山崎 渉:03/07/15 12:37

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
ハッキリ言ってアメリカなどの多民族国家では黒人の方がアジア人よりもずっと立場は上だよ。
貧弱で弱弱しく、アグレッシブさに欠け、醜いアジア人は黒人のストレス解消のいい的。
黒人は有名スポーツ選手、ミュージシャンを多数輩出してるし、アジア人はかなり彼らに見下されている。
(黒人は白人には頭があがらないため日系料理天などの日本人店員相手に威張り散らしてストレス解消する。
また、日本女はすぐヤラせてくれる肉便器としてとおっている。
「○ドルでどうだ?(俺を買え)」と逆売春を持ちかける黒人男性も多い。)
彼らの見ていないところでこそこそ陰口しか叩けない日本人は滑稽。
125名無しさん@英語勉強中:03/08/02 16:05
(ノ゚ー゚)ノ age
手で打つより速いか楽なのか、その一言に尽きるよ。
>113
日英混在モードはないのですか?

もっとも僕が試した限り、
混在モードでもまるでダメですが。
混在モードでやってもも、日本語モードで英文をOCRしたときのだめさ具合と変わらない。
OCRソフトの関係者に問い詰めたい。
どうして混在モードがすかたんなのか。どうでもいいバージョンアップばっかりやってる。
ヤフオクのハンディスキャナのセクションを見てると、
NECのA5サイズの出物が急に増えた。
どうやら、ほかの人が売りに出したのを見て、
「そうかやっぱりこれって使えないんだ、売っちゃってもいいんだ」って決心がつくんじゃないかって思う。
実に中途半端で、まるで使えない代物だった。
あんなものがどうして商品化会議で通ったのか不思議だ。
保守
130名無しさん@英語勉強中:03/10/03 02:07
このスレやソフトウェア板などのスレなどを見たり、体験版を使ったりして
いろいろ検討した結果、松下の読取革命を買いました。

英文読み取り能力に関して、致命的に劣っていたのは読んdeココ。
PCからダイレクトに出力した普通のビジネス文書でも、スペースを読みとれず
ずらずらとアルファベットが並んでしまいましたし、英語モードにしても
判読が難しい所では漢字がまざることもありました。
しかしユーザーインターフェースは、見かけは子供だましのようですが、なかなか使いやすそう。

e.Typistは英文読み取り能力そのものは非常に優れていたのですが、
ワード文書にして出力すると、用紙の余白設定(既定値)に引きずられて元の文書の
レイアウトがふた回りくらい小さくなってしまいます。
これは後処理が面倒そうなので没。
ユーザーインターフェースはカッコイイのですが、いまいち使いにくいような気がします。

読取革命は、英文読み取り能力はe.Typistとほぼ同等で、
ワード文書での出力もオリジナルに非常に近いのが良いと思います。
ユーザーインターフェースは一番すっきりしていますし、全体に使いやすいのですが、
その分ボタン類が少なく、細かい調整や修正をする場合に面倒なこともあります。




131130:03/10/03 02:12
なお、英文読み取り能力そのものについて、
読んdeココが大きく劣っているのは非常に不思議な現象でした。

というのは、英文OCRエンジンそのものは、

読んdeココ ABBYY社FineReaderエンジン
読取革命 ABBYY社FineReaderエンジン
e.Typist ScanSoft社TextBridgeエンジン

というものなので、読取革命と同じはずだからです。
バージョンが違うとかそう言う問題ではなく、
日本語OCRソフトへのインプリメントの際、プロポーショナルなスペーシングへの
適応性を著しく損ねてしまったのではないかと推測しています。
132名無しさん@英語勉強中:03/10/03 02:29
130
また、読んdeココは、 i の字を、上のポチと下の縦棒と分けて読みとる癖があるようで、
これが別の行になってしまうため両者を結合させて再認識させる、ということが不可能なのも痛い。
ちなみにトライした文章は普通のArialフォントで作成したもの。
これでは殆ど無用の長物。

いったいエーアイソフトは何をやってるんでしょう。

使っているのがエプソンのスキャナ(簡易版の読んdeココが付属)なので、
読んdeココなら安く買えるから、ある程度は我慢しようと思ったのだが・・・
133130:03/10/03 02:30
>>132は俺です。
134Goonies:03/10/03 08:29
読んdeココの英文は全く使い物になりませんね。
また、お試しでついているPresto!は傾き修正機能がないので、
一度スキャンだけは読んdeココでやって傾き修正して、
その画像をPresto!に読みこむという苦肉の策。
135名無しさん@英語勉強中:03/10/03 09:10
読んdeココがエプソンのスキャナにおまけでついてたから
日本語の新聞や雑誌を散々やってみたけど、
使い物になりませんでした。
「英語はどうなのかな」と思ってたけど、ここを読む限りダメっぽいね。
そのうちに自分で試してみまつ。
136130:03/10/03 15:12
>>134
その他のソフトはトライしてみましたか?
もし何か情報があれば教えてください。

個人的には、英文に関しては、論外の読んdeココだけでなく、
どうも読取革命もe.Typistも学習能力が不足しているようで、不満はあります。

今検討しようと考えているのは、TextBridgePro(e.Typistのメディアドライブ取扱)とか、
OmniPageProあたりの製品です。

OmniPageもTextBridgeもScanSoft社の製品ですが、OCRのエンジン自体は別物のようで、
これは、TextBridgeはXeroxで開発していたものがルーツであり、一方OmniPageの方は
CaereのOCRエンジンをルーツにしているようです。ScanSoft社は、Xeroxの子会社だったのですが、
その後Visioneerのソフト部門と合併し、さらにCaereを買収した、という経緯があり、
いくつかの異なるエンジンを持っているのはそのためなんでしょう。
137130:03/10/03 15:14
>>135
読んdeココの名誉のために付言しておきますが、
日本語の読み取り能力だったらe.Typistと比べても遜色はないです。

あくまで、話にならないほどレベルが低いのは「英文読み取り能力」ということです。
138130:03/10/03 19:34
どうやら、読んdeココは、設定の仕方を誤っていたようです。
認識パラメータの設定で英語モードを選択し、文字種をアルファベット、数字、記号に限定しても、
それは現在選択中の認識枠にのみ適用されるので、
これを「全てにコピー」ボタンを押して他の認識枠にも適用しないといけなかったのです。
この結果、数百の誤認識が発生していたわけですが、他のソフトと比べてわかりにくいですね、この辺り。

ちゃんとした設定をすると、英文の認識精度は素晴らしいものになりました。

A4一ページ、約2200文字430単語程度、Arial 10ptの文書(ファーストジェネレーション)
のテストでは、

e.Typist9体験版   誤認識5箇所
読んdeココ9体験版 誤認識0箇所
読取革命7      誤認識0箇所

しかし、今日ダウンロードしたOmniPagePro12というアメリカのソフト体験版はもっと素晴らしいことが判りました。
日本のソフトはどれもスキャン後に文書から文字のある場所を発見して認識枠で囲み、
認識後ワードに転送するとそれはワードのテキストボックスになるんですが、
そこがOmniPageProはそうならないで、インデントなどで文書のレイアウトを再現してくれるのです。
つまりOmniPageProの方が後処理において一日の長があるようです。
(OmniPageProも認識枠という機能はあり、グラフィックが混在していたり文字がとびとびだったりすると
それぞれを枠で囲って個別に認識します)

やっぱり餅は餅屋ということですね。


139130:03/10/03 19:43
認識枠についてちょっと付け加えます。

読んdeココなどでも、文書全体を一つの認識枠で認識させることも
手作業で枠のサイズを変えたり、不要な枠を削除したりすれば可能です。
しかし、その場合、ワード文書に書き出すと、
各行の改行位置、各段落の形が変わってしまうという不都合があります。
またいくつものテキストボックスに別れているよりはマシにしても、
全体が大きなテキストボックスに納められているのでまだまだ扱いにくいと感じます。

それに対し、OmniPageProでは、各行の改行位置、ジャスティフィケーションまで含めて
オリジナルに近いように再現してくれるのが大きな違いです。
ワード文書でテキストボックスにならないのもいいですね。
140名無しさん@英語勉強中:03/10/05 05:58
どどどどうしたんだ、この突然の活況は。

しかし >>130 さん、松下の読取革命だったら、ソースネクストがOEMして
\1980で買えたのに。実売はもっと安いかも。
http://ascii24.com/news/i/soft/article/2003/09/09/645857-000.html

このパナソニック ソリューションテクノロジー製って、要は読取革命だよね。
ただなにしろソースネクストなので、安心のためには本家版でよかったのかも。
141130:03/10/05 18:30
>>140
活況と言ってもまあ私一人でカキコしてるようなもんですが。マイブームってやつですかね。

ソースネクストのが松下のOEMだってことは知ってたんですが、安いのには何か訳があるはず、
と思ってパッケージやサイトを見ても、何も情報がなく、お試し版もないので、
読取革命との比較検討が全く出来なかったんです。で、読取革命自体比較的安いので、それにしました。

あれこれ試した結果としては、現在のところ、日本語と英語の両方をOCRするのなら、e.Typistと読取革命が良いと思います。
読んde!!ココも設定を正しくしたら英文読取の誤りはほぼ解消したわけで、どれも認識率は問題ないと思いますが、
読んdeは、文字認識の結果を表示する画面のモードが一種類しかなく、レイアウトが無視された形式でしか
表示できないのが劣っていると思います。このモードだと数字とアルファベットを色を変えて表示していたりして、
それはそれでメリットはあるとは思うんですが。
e.Typistや読取革命はその辺の表示を切り替えられるのがイイですね。

しかし、やはり日本製のOCRソフトの最大の欠陥は、認識率ではなくて、オリジナル文書のレイアウト再現の
方法だと思います。テキストボックスを多用したやり方は全く実用的とは言えません。
英語の場合、パラグラフを空白行によって示すことが多いわけですが、このテキストボックスによる方法だと、
各バラグラフが独立したテキストボックスを構成してしまうわけで、たしかに一見レイアウトが再現されている
ように見えても、その後の加工性などこれではゼロに等しいわけです。
この欠陥は、読んde、e.Typist、読取革命、いずれにも共通している問題です。

OmniPagePro、FineReaderProと二つの英文OCR体験版をダウンロードして見ましたが、この点、
それらはきちんとインデントや空白行を使って再現しているし、ジャスティフィケーションも設定されているので、
その後の調整が非常にラクなわけです。
142130:03/10/05 18:51
ちなみにFineReaderは、シェアウェア版はバージョンが古く、WindowsXPには対応していないようなので、
ABBYYのサイトから7.0Professional EditionのTrial版をダウンロードしました。
正規版にするには、179ドルかかるということで、結構高いんですが、
ScanSoft社のOmniPageProは定価599.99ドルとさらに高い。
日本ではヒューリンクスが10万以上のぼったくり価格をつけてますが、
アメリカの通販の最安価格は279ドルです。

ちなみにScanSoftのTextBridgeなら通販で100ドル以下で販売されてますし、
日本でもメディアドライブが扱ってますね。
143130:03/10/06 01:56
こんどはエクセルで作った表(比較的単純なもので、英語、数字のみ、A4)を使ってトライしてみました。

FineReader7.0Pro
セルの再現性は最高。文字もほぼ完璧。全部ボールドになっちゃったのは不思議だったが。
書体についても、少なくともセリフとサンセリフの違いは区別して再現しようとしている。
A4横の表ですが、自動的に縦横を認識するのも便利です。

OmniPagePro12Office 
意外にうまくいかないときがある。売り物の一つ、Excelなどのソフト側のプラグインとして動かすのも、
修正が多く出る場合はいまいち面倒。また非常に大きな文字(タイトル)を複数行にわたる文字の一部として
認識してしまう場合があり、こうなると修正が出来ない。
縦横を自動的に認識するのはFineReader同様良くできている。

読んde!!ココ
セルの再現性は非常に良かった。しかし文字は、数字の1をDと読んだりして誤認識が多かった。
(誤りパターン辞書はクリーンな状態)しかし縦横の自動認識はFineReader同様よく機能した。

e.Typist
セルの再現性はよくない。行の高さが全て同一になり、列幅の再現性も、いまいち。
例えば日付を示す幅狭のコラムが並んでいる上に全体をまとめてSeptemberなどとが書かれていると、
その幅に引きずられてSeptemberの冒頭あたりのコラムがぐっと幅広になってしまう。
認識そのものは良好。

読取革命
画像の縦横の自動認識が上手く機能しない。また、領域の認識もいまいちで、文字が認識枠の外に
はみ出したりする。画像回転や認識枠の修正は簡単なので、この辺りに注意すれば認識そのものは
精度が高い。セルによってなぜかフォントサイズが大きくなったり小さくなったりするのも変。
144名無しさん@英語勉強中:03/10/12 04:36
age
145名無しさん@英語勉強中:03/11/11 17:55
安芸
だれかが電子辞書にOCRペンがつかない勝手言ってたな。
スルーされてたけど。
147名無しさん@英語勉強中:03/12/04 22:06
まだ結論出てないみたいだな
148tommy:03/12/24 01:24
Presto OCR!(4.0は、XP未対応だが海外の発売元にパッチがある。)は、英文だけならほぼ98%以上正しく認識する。
かなり細かい文字でも大丈夫。多少曲がっていても大丈夫だし、傾きも補正できます。試してみて。
149名無しさん@英語勉強中:03/12/31 08:13
>>148
信じて良いのか?
150名無しさん@英語勉強中:03/12/31 09:34
>>149
CANONのスキャナに読んでココ!と同梱で着いてきた。
「読んで」は最悪だが「Presto!」はそれを補って余りある。
151名無しさん@英語勉強中:04/01/01 08:33
休み明けまでに英語の取り説(産業機械)翻訳しとか無いといけないんですけど。

途中途中にイラストが入ってるから読○でココ!を使ってOCR処理すると、
イラストが何と言うか「大きな文字1文字」として扱われるみたいでイラストの横で
改行されてしまいます。

これじゃあ後編集で元のレイアウトに直す時間が掛かり過ぎます。
最初っから英文を手打ちでテキストファイルに保存して、OCRではなくjpgとして
取りこんだ画像を切り貼りしてレイアウトソフトにテキストファイルと共に流し込んだ
方が早く終わるのです。

だれか画像レイアウトそのままで英文をテキストとして取り込めるOCRご存知ない
ですか?
Omnipageのv10以降
ただし、日本語を流し込むと、文字数などが違ってくるから
ページ割が保たれるとは限らない。
英文を手打ちできるぐらいの分量なら、手打ち+レイアウトしなおしのほうが早い。
153名無しさん@英語勉強中:04/01/01 09:19
\118,000円。。。。。。

そんなん高いの買えねえっす。
分量は実は会社に沢山有りますが、どうしてもしょうがないのだけ持ちかえって自宅で
シコシコやってる始末です。元旦から。。。
正月からご苦労様です。
短期決戦なら、ABBYYの試用版という手は?
まだあったかどうか確かめてないですが。
155Goonies:04/01/13 10:04
英語・日本語混在資料のOCRはほぼ絶望的?
ソフトハウス3社のデモに同じ本を持ち込んで試してもらったけど、
だめっすね。
しかもその3社とも、その問題を解決しようという姿勢が感じられなかったし。
今年も苦労しそうだなあ。
156名無しさん@英語勉強中:04/01/18 06:11
フリーでいいの無いですか?
なんでびた一文も出したくない?
安いよ。OCRなんて。高いのは高いなりに価値があるし。
158名無しさん@英語勉強中:04/01/18 21:08
>>157
スキャナに付いてるやつとか ダメなソフト多いじゃん。
だから市販レベルでも 使えないのが多いのかなと
市販レベルでも使えないっていうんだったら、
あんたが言うダメでないのが、フリーで転がってるわけないじゃん。w
英文OCRなら、どれでもそこそこ使えるって俺は思うよ。
どれがどうダメだってのかなぁ。

自分で探せないの?
検索すれば出てくるでしょ。
それとも日本語?
なら板違い。
160XXX ◆GmgU93SCyE :04/03/23 14:42
a
161名無しさん@英語勉強中:04/04/06 03:55
( ・∀・)つ゛∩ ヘェー ヘェー
162名無しさん@英語勉強中:04/05/03 07:38
age
163yokohairi:04/05/18 12:38
中文では、「北京V4」って如何ですか?
良いのありませんでしょうか?


また、日本語手書きOCRの識字率の良いものはありますか?
164163:04/05/18 12:41
すいません。。。英語板だったんですね。。。ここ
(OCRで検索して、いきなりここだったんで、板をしりませんでした)
165名無しさん@英語勉強中:04/07/03 20:11
スレが立って約二年、そろそろ良いOCRは出て来たんかいな?

それとも確実なキー鬱入力か。。。
166名無しさん@英語勉強中:04/07/04 02:42
やっぱサイコミュだろ。
167名無しさん@英語勉強中:04/08/10 23:32
なら
168名無しさん@英語勉強中:04/10/15 02:38:09
保守
169名無しさん@英語勉強中:05/01/01 20:53:53
こんな感じそろそろ良い.
170名無しさん@英語勉強中:05/02/07 16:19:45
何でどれもこれも日英混在がちゃんとできないんだろ。
読んde!!ココはv10以降、英文の認識にはABBYエンジンに入れ替えたので
少しはよくなりました。でもそれならABBYを使ったほうが早い。
英文OCRとしては、読んdeの9までの版は全く使いモノになりません。
単語と単語の間のスペースすらちゃんと認識しませんので、
スペルチェックも出来ないし、ゴミを吐き出すだけでした。
あんなもんを平気で出してる神経がすごい。
和文の途中に一つでも英単語が入れば、めちゃなんですから、
普段英文のOCRをしない人だって分かりそうなもんなのに。
171名無しさん@英語勉強中:05/02/28 14:55:23
>170
読んde!!ココの11でも日英混在はまるでダメでしたよ。
混在モード指定って何のためにあるの?って説明員に聞いたら、
「分かりません」だって。あちゃ〜何それ、って思ったんで、
「失礼ですけど、あなたはOCRしたことあるんですか?」って聞いたの。
そしたら「ありません。使うこと無いですから」ってあっさり言われちゃった。
172名無しさん@英語勉強中:05/03/01 04:31:24
ここは
「使いこなしのテクニック披露禁止」
「ソフトの認識力」について語るのも禁止事項
ですか?
173名無しさん@英語勉強中:05/03/01 04:34:52
ちゃんとスキャニングして画像処理してる?
認識率が悪いっていってるやつは自分が間違ってるとおもったほうがいい。
混在でも普通に8〜9割の認識はする
174名無しさん@英語勉強中:05/03/01 08:32:12
>173
画像処理なんかの問題じゃないヨ。
英単語、英文の混じる和文を173はやったことないから、
そんなありきたりな説教するんでは?
しみやゴミを取るとか、しきい値を最適に選ぶとか、かすれをなくすとかは常識。
縦書きの百が一と白になっちゃう問題は画像処理でどうにかなるわけじゃない。

8〜9割読める=1〜2割化けるんだったら、
全部手で打つのとそんなに時間は変わんないよ〜。
175名無しさん@英語勉強中:05/03/01 10:22:59
>>172
なにそれ?
176名無しさん@英語勉強中:05/03/01 11:37:05
>175
ビジネスソフト板のOCRスレに、
「使いこなしのテクニック披露禁止」
「ソフトの認識力について語るのも禁止事項」っていう
メーカーべったりの馬鹿が暴れてるんだよ。

173みたいなのも、自分じゃOCRなんて
1ページぐらいしかやったことないのがもろバレ。
本を20ページぐらいOCRしてみれば、8〜9割の認識じゃあ
どうにもならないって分かるんだから。
177名無しさん@英語勉強中:05/03/01 12:26:07
無い物ねだりしてもしょうがない
その程度の認識のソフトとどうつき合っていくか考えた方がよくねえか?
178名無しさん@英語勉強中:05/03/01 13:56:28
100%認識する時代まで待てばいいよw
179名無しさん@英語勉強中:05/03/01 14:16:36
ねだらねぇと、まともなもんは出てこねぇのさ。
使ってない奴が作ったソフトを使ったことも無い奴が売ってんだから日本語OCRなんて。

英語OCRの進化に比べて日本語OCRの進歩が取り残されているって言ってんだよ。
日本のOCRソフトエンジニアがみっともないもん作ってて平気なのは、
177や178みたいに、間抜けなちょうちん持ちが要るからだよ。
日本語OCRだけの横並びでしか見てないからだよ。

OmniPage使ってみろよ。
かすれてようが傾いてようが、レイアウトそのまんまで100%読むぜ。
というと馬鹿がまた英文のほうがOCRは楽だとかアホなこと言って来ると思うと
笑っちゃうぜ。
180名無しさん@英語勉強中:2005/04/11(月) 13:23:09
817 名前:名無しさん@そうだ選挙にいこう[] 投稿日:2005/04/11(月) 09:52:35
etypistとかって前処理のごみとり処理とか原稿の斜め補正処理が弱いよね

・孫コピーされてゴミはいりまくりの原稿が斜めにスキャンされるともうダメ
・スキャナ部分が汚れたFAXから送られた原稿って
文字列の上にびーっと線が入っているときがあるけど
そういう部分があると全然ダメ

ominipageは上のような条件でもetypistよりマトモ
181名無しさん@英語勉強中:2005/05/18(水) 17:22:24
OCRなんて意味ねー
画像のままでいいよ
182名無しさん@英語勉強中:2005/05/22(日) 07:31:22
画像のままじゃ不便な人がいるって分からないのかね
183152:2005/06/16(木) 09:15:10
この記事のライターと私には、根本的な考え方の違いがあります。
ttp://www.itmedia.co.jp/pcupdate/articles/0506/14/news001.html
記事では、卓上のペーパーフィーダー付きスキャナーでPDF化して
「捨てる」と誇らしげに提案しているわけですが、
内容は、単なる記事に見せかけた広告に過ぎません。
PCで作られたと思しき一枚モノの資料は、その作者がその資料を作成したときの
Word原稿なりがあるはずです。
それを貰ったほうが早い。
社外、社内の文書であれば、会議室で配られ討議に必要なペーパーとは別に、
後日、そのオリジナルドキュメントをメールに添付して送ってもらいます。
最近は既にPDF化されていることが多く、こちらの手を煩わされません。
こうすれば、手間も要らずです。
名刺のOCRも同様です。
こちらからOutlook用の電子名刺データを送付すると、それに触発されてか、
向こうからも電子名刺形式で返送されてくることもしばしばです。
伝統的儀礼として、紙の名刺交換もいたしますが、電子名刺の簡便さを知るたびに、
紙の名刺の非能率さを再認識します。
一般資料は、まずネットに上がってないか調べ、なければOCRします。

結論:OCRニーズとして最後まで残るのは書籍資料だと私は思っています。
追記:それにしても日本語のOCRの精読率は進歩しませんね。
   斜め読みするには十分ではありますが。
184名無しさん@英語勉強中:2005/07/02(土) 20:05:16
一番下からage!age!
185名無しさん@英語勉強中:2005/07/02(土) 20:21:21
名刺のOCRって見に来てんの、窓際オッサンばっかり。
ああ、こいつらタイプ打てないんだって思っちゃう。
だって名刺のOCRなんて手で打ったほうがよっぽど早いもん。
186Goonies:2005/07/22(金) 12:13:54
e-learning展に行ってきました。
去年の半分に縮小しちゃってましたが、
手元の資料を講師が遠隔地の生徒に見せることがおおい、
e-learningこそOCRが不可欠だと思っているので
そうした機能が盛り込まれたシステムはないかと探したのですが、
全くありませんでした。
結局のところ、WordとExcelの画面をリモートで別のモニターに映しさえすれば、
”はいe-learningの完成です!”みたいな原始的なものばかり。

Webカメラに手元の資料を映しても、相手側ではほとんど判読不能です。
そんなときにすばやくOCRしてくれる機能は不可欠だと思うんですけどね。
あの展示会に出ている業者も来ている客も、まったく経験がないんだからいやになります。
いかに電子黒板が使いづらいか、一度も体験すれば、
e-learningにとってOCRつきの黒板機能がないことが問題だと分かりそうなものなのに。
それともう一つ、生徒Bと生徒Cとの間のコミニケーションも全く考えてないのも問題です。
187名無しさん@英語勉強中:2005/08/02(火) 09:12:30
社員乙
188名無しさん@英語勉強中:2005/08/05(金) 12:40:26
>187
186はどこの社員なんですか?
189名無しさん@英語勉強中:2005/08/12(金) 02:48:42
               | ちょ、ちょーとまって!!!誰か188に社員しかいないことを説明してあげて!!
     , ,-;:;:;:;:;:;:;:;:;:;:;:;:;:;:;:,.  ヽ─y──────────────   ,-v-、
    /;:;:;:;:;:;:ミミ;:;:;:;:;:;:;:;:;:;`、                          / _ノ_ノ:^)
    /;:;:;:;:彡―ー-、_;:;:;:;:;:;:;:;|                           / _ノ_ノ_ノ /)
    |;:;:;:ノ、     `、;;:;:;:;:;:i                        / ノ ノノ//
    |;:/_ヽ ,,,,,,,,,,  |;:;:;:;:;:;!                      ____/  ______ ノ
    | ' ゚ ''/ ┌。-、  |;:;:;:;:/                     _.. r("  `ー" 、 ノ
    |` ノ(  ヽ  ソ  |ノ|/               _. -‐ '"´  l l-、    ゙ ノ
_,-ー| /_` ”'  \  ノ   __       . -‐ ' "´        l ヽ`ー''"ー'"
 | :  | )ヾ三ニヽ   /ヽ ' "´/`゙ ーァ' "´  ‐'"´         ヽ、`ー /ノ
 ヽ  `、___,.-ー' |   /   /                __.. -'-'"
  |    | \   / |   l   /            . -‐ '"´
  \   |___>< / ヽ
190名無しさん@英語勉強中:2005/08/13(土) 01:24:20
なに被害者妄想入ってんだよ。意味不明。
このスレに社員なんか来てないよ。
191名無しさん@英語勉強中:2005/08/14(日) 05:30:39
                 / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
                 | ちょ、ちょっと待って! 被害者妄想って!?
                 | むちゃくちゃだよ!>>585あんたは勉強不足だよ!
                 | そもそもあなたねえ、僕は被害者じゃないよ!
                 ヽ─y──────────────
     , ,-;:;:;:;:;:;:;:;:;:;:;:;:;:;:;:,.                            ,-v-、
    /;:;:;:;:;:;:ミミ;:;:;:;:;:;:;:;:;:;`、                          / _ノ_ノ:^)
    /;:;:;:;:彡―ー-、_;:;:;:;:;:;:;:;|                           / _ノ_ノ_ノ /)
    |;:;:;:ノ、     `、;;:;:;:;:;:i                        / ノ ノノ//
    |;:/_ヽ ,,,,,,,,,,  |;:;:;:;:;:;!                      ____/  ______ ノ
    | ' ゚ ''/ ┌。-、  |;:;:;:;:/                     _.. r("  `ー" 、 ノ
    |` ノ(  ヽ  ソ  |ノ|/               _. -‐ '"´  l l-、    ゙ ノ
_,-ー| /_` ”'  \  ノ   __       . -‐ ' "´        l ヽ`ー''"ー'"
 | :  | )ヾ三ニヽ   /ヽ ' "´/`゙ ーァ' "´  ‐'"´         ヽ、`ー /ノ
 ヽ  `、___,.-ー' |   /   /                __.. -'-'"
  |    | \   / |   l   /            . -‐ '"´
  \   |___>< / ヽ
192名無しさん@英語勉強中:2005/10/23(日) 11:41:43
ETYPIST
193名無しさん@英語勉強中:2005/12/05(月) 19:59:20
194名無しさん@英語勉強中:2005/12/29(木) 02:04:06
ABBYY FineReader 8.0 $399.99
高いよ〜〜
195名無しさん@英語勉強中:2005/12/29(木) 05:44:50
ttp://www.forest.impress.co.jp/article/2005/11/29/smartocrlite.html
ってGUIとか設定とか市販ソフトと似てるね
196名無しさん@英語勉強中:2005/12/29(木) 11:10:25
e-typist11、英語かなり使えますよ。
今まで使っていて、手動で直した事ないもん。
197名無しさん@英語勉強中:2005/12/31(土) 16:45:57
和文英文混在したときどうね?
198名無しさん@英語勉強中:2006/01/12(木) 09:05:31
一太郎ってどんな感じ?
199名無しさん@英語勉強中:2006/01/14(土) 12:05:44
>>197
意外にいけます。
ソフトの設定と、スキャンした線の太さが最適だと、
英語のみでも、日本語のみでも、混在でもかなりいける感じです。

設定が最適でも上手くいかない場合は、線の太さというか、スキャンされた画像が
最適じゃない可能性が高いかも。

逆に言えば、状態が悪い紙をスキャンしたものからOCRすると
精度は落ちそうです。
200名無しさん@英語勉強中:2006/01/14(土) 22:32:31
>196
e-typist の英語エンジンってABBYだろ?
だったらABBY使えばいいじゃんか。

レイアウトとの再現力はOmniPageと比べちゃいけない。
でも価格相当の仕事はするよ。
ほとんどのユーザーはこれで満足じゃないか。
201名無しさん@英語勉強中
>>200
e-typist11は、アップグレード版なら、¥5,145で買える。