[OCR] 画像→テキスト化総合

935 ：名無しさん＠お腹いっぱい。：2009/02/11(水) 15:21:27 ID:EAl407Ib0

>>934
百聞は一見に如かず
購入するなりサンプルでお試しあれ
２０．０と１．５万円を選ぶかはあなたしだい

936 ：名無しさん＠お腹いっぱい。：2009/02/11(水) 15:40:32 ID:jOfQULL60

読んで!ココはxdw文章で取り込みも保存も出来ない。
xdwで文章管理している俺には使いにくい。と自分に言い聞かせた。

937 ：名無しさん＠お腹いっぱい。：2009/02/11(水) 23:12:24 ID:QPs/OlSQ0

英語の本一冊まるまるスキャンしてPDF化して透明テキスト上から貼り付けて検索可能にするソフトって何が最適ですか？
ドキュワークスというのに興味がありますがそれでも出来ますか？

938 ：名無しさん＠お腹いっぱい。：2009/02/11(水) 23:24:33 ID:Jf+KINfc0

OCRは自分で試して納得するものを使うしかない
どれがいいのかって言われてもナ

>>1にソフトあるけどバージョンで認識率違うし評価も人によって変わるから
比較するなら
アドビのPDF
読んde!!ココ（エプソンのスキャナに良くバンドルされてる）
読取革命（ソースネクストのものは同じエンジンで過去のバージョン）
e.Typist（キャノンのスキャナに良くバンドルされてる）

939 ：名無しさん＠お腹いっぱい。：2009/02/11(水) 23:54:35 ID:jOfQULL60

>>937
俺は専門書を数百冊電子化しているよ。
Acrobatは普及しているけど、使い勝手はドキュワークスが圧倒的に上だよ。
マニュアルなんて無くても使えてしまうくらい直感的で自然な操作系だよ。
内蔵OCRの精度はちょいと遺憾なレベルだから、頑張ってWinReaderProを買いましたよ。
Docuworksから操作できるから便利だよ。検索は全文検索ソフトがついてくるよ。
でも、PDFを検索対象にするソフトは多いけど、Docuworksファイルを対象にするのは少ない。こういうところが残念。

940 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 00:17:13 ID:2u0hBZRU0

個人でWinreaderはコストパフォーマンス合わない気がする

941 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 00:25:17 ID:yuIW183B0

>>940
俺は大分悩んだね。でも体験版を使って吹っ切れた。

942 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 00:53:02 ID:2u0hBZRU0

2万くらいのソフトより精度だいぶいいん？

943 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 02:07:22 ID:yuIW183B0

>>942
うーん、わからないw
DocuWorks文章が読み書きできて、DocuWorksから呼び出せるから他に選択肢が無いというのが正直なところ。
いま、800枚くらいのスキャン文章にページ割り振りするために読み込ませているけど、結構早くて、正確だよ。
つーか、当然かw

944 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 02:18:05 ID:kcxHj7Xu0

>>939
俺は同じ用途でAcrobat 9 Pro。ドキュワークスも使ってるけど、Acrobat
の方が好み。文字の表示がAcorobatの方が読みやすいし、インタフェースが
Acrobatの方が洗練されてるように感じる。マニュアルなしで使えるのも同じ。

WinReaderProの精度が価格分だけすぐれてるのか、俺には確信がないので、
Docuworks+WinReaderProではなくAcrobat+etypistの方を選んだ。

945 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 03:02:16 ID:h2ij1ZtQ0

ﾄﾞｷｭワークスってＯＣＲソフトというよりも複数種類のドキュメントを関連付けて纏めるファイリング機能が主だよね？

946 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 03:18:13 ID:yuIW183B0

>>945
そう。でも、そこそこ使えるOCRエンジンを搭載している。WinReaderProを買えば、それに置き換えられるから強力なOCRソフト化する。

947 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 05:25:40 ID:TCNwsYOx0

テキストの強みは携帯でも糞PCでも簡単に読めることだ。糞ソフトはいらねぇ。

948 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 08:39:20 ID:Vf8Am6GH0

個人用途でDocuWorks+WinReaderProはなぁ・・・
単に本をスキャンするだけでそれはコストパフォーマンス悪いよ

自分はOpticBook3600でe.typist使ってるがこれで十分だわ
画像の扱いはバカだけど

949 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 08:49:46 ID:yuIW183B0

>>947
OCRなんて書類検索にしか使わないな。
誤認識ををいちいち訂正する暇があるのはニートくらいだろう。

950 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 09:04:48 ID:TCNwsYOx0

OCRが何か知らない奴ww
というかなんでこのスレいるんだよw

951 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 09:10:39 ID:yuIW183B0

お前が一番知らないだろう。
OCR対象が10万枚以上という世界は理解不能だろうなw
俺は正規表現で必要な情報を取り出してファイル名にして整理したりするのに使う程度だな。
一部分の抽出だけでも誤認識に悩まされているのに、OCRデータで本を読むなんて正気の沙汰とは思えない。

952 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 09:36:15 ID:TCNwsYOx0

完全に自分の世界に入ってしまってるな。指摘されてもスレ違いだということに気付かないらしい。
10万枚以上が要件だから理解不能ってどんだけ無知なんだよ。それならそれ用のシステム構築するだけだろ。
だいたい誤認識で悩まされるのは校正しないままだからだろうが。ほんとシステム設計に疎い奴は勘違いした奴が多い。

953 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 09:47:14 ID:AFe8DDLc0

質問
ご認識は仕方ないとしてそれを補正しやすいものってどんなのがりますか
s510ってスキャンスナップ付属のアクロバット8では文字変更が大変なのよ
透明テキスト付きpdfってあこがれてたんだけど実際体験したら使えなくて幻滅した

954 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 10:47:57 ID:Vf8Am6GH0

日本語ソースでは諦めろとしか言えん
英語ソース等でようやく透明テキスト付きPDFは実用になる

それでも誤認識するから保険のために画像にテキスト振った
PDFにして保管しておくわけ

図書館で借りた数冊の本を一度にスキャンして校正までする
暇なんてある奴そうそういないし

955 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 11:31:46 ID:yuIW183B0

>>954
だよね。人力校正なんて必要最小限に抑えないと人的リソースを喰いまくり。無駄の極みだよね。
ギリギリまで絞り込んだOCRデータの校正の労力をほんの少しでも削減するためにWinReaderProまで買っているのにさw

956 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 15:01:27 ID:TCNwsYOx0

校正程度で無駄の極みか。だから最近の若者は駄目なんだよな。
誤植の多い出版物が多量に出回るわけだ。

957 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 15:06:44 ID:gOSgjOIS0

まったくさいきんのわかものはかんじばっかりつかってよみにくいったら・・

958 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 15:13:27 ID:AFe8DDLc0

漢字変換はできるけど漢字を書くのは苦手なんだよな

959 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 21:20:26 ID:havzq/c+0

このスレで話がかみ合ってない場合って、主に欧文文書を
大量にスキャンして透明テキストpdfにする院生とか研究者と、
それを批判する人でグチャグチャやってるよね。

批判する人はどういう使い方かまったく明らかにしないけど。

960 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 23:47:31 ID:yuIW183B0

俺は毎日届く取引先からの紙文章をスキャンして整理するため。
OCRデータから特定の条件を満たす単語をそのままファイル名にする業務用ソフトに組み込むためと全文検索用。
どんなに気をつけても行方不明書類は発生するからね。全文検索での手がかり用だから大体あえばいいと割り切っている。
業務で使っていると校正などするのは無駄の極みだよ。趣味で小説を取り込むのとは時間と量が桁違いだよ。
毎日100枚の書類を校正するのは愚の骨頂だ。

961 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 23:51:04 ID:74i2NMp+0

全文検索するときに誤認文字を補うようなしかけはあるの？

962 ：名無しさん＠お腹いっぱい。：2009/02/12(木) 23:57:24 ID:OpzflIzm0

全文検索はwidegrep？

963 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 00:24:15 ID:7IbRYpk30

>>961
>>962
コンセプトサーチの一種のエクスパンドファインダーを使っているから今は仕掛けはないですね。正規表現が使えるのがあれば乗り換えたいですね。
サーチクロスが良かったんですけど、開発中止したので途方にくれてます。私はxdw文章が主なので対応するソフトが少なくて困っています。
最近、everythingを使い始めたんですけど、これがあればファイル名だけでもいいかなと思い始めました。
あらかじめ条件設定しておいて、ファイル名で自動振り分けしていれば、誤認識されて付けられたファイル名のものは振り分けられずに残るし。

964 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 00:26:43 ID:48tpImUy0

>>959
>、主に欧文文書を
>大量にスキャンして透明テキストpdfにする院生とか研究者

その一人です。でも最近は日本語文献も取り込んでる。
文字種よりも図表の扱いが稚拙で困るのがAcrobat。
別のOCR必須。

965 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 00:27:22 ID:lehKlrpz0

全文検索する時って何をキーにして検索する？

966 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 00:32:24 ID:lHK7bfUG0

>>964
何分野？俺も研究者なんだけど数理の方なのでかなりしんどい。

967 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 00:40:41 ID:7IbRYpk30

>>965
取引会社名の一部とか顧客名の一部とか。かなり当てずっぽうに試行錯誤している。
システマチックな方法があれば知りたいな。

968 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 01:00:26 ID:CPb90LAdP

文系研究者の端くれでMacユーザなんだけど、
文系分野だと縦書きまで出てくるので尚更困る。

ジャーナルは良いけど単行本の縦書きテキストは
MacOSXのフレームワークじゃだめで、
Acrobatじゃないとちゃんと認識してくれないのがネックになる。

969 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 06:39:10 ID:gQ1mRyPc0

しかし、変換結果が合ってるどうかわからないまま、それを抽出、統計とって論文に引用されてたらたまらんな。
文系恐るべし。

970 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 09:31:21 ID:lHK7bfUG0

もう全部を電子書籍にしてもらえればどんなに楽か・・

971 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 11:58:14 ID:oiPn1qNT0

>>969

972 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:03:41 ID:gQ1mRyPc0

>>971
図星だったかなw
論文データ捏造とかニュースにならないといいね。

973 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:19:14 ID:c6l5Xu280

なんか、気持ち悪いのが湧いてるな。

974 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:21:38 ID:lHK7bfUG0

バイオ系に多いよこういうの。バイオ系はあまり教科書も論文も読まないけど。

975 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:27:25 ID:uZQhx3By0

数学苦手だから生物学者になるってやつ多いよね。

976 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:29:16 ID:uZQhx3By0

物理学者＝数学者(コンピュータサイエンス含)＞地質学者＞化学者＞＞＞生物学者

977 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:31:18 ID:lHK7bfUG0

比べる必要もないけど地質が変なところにいないか？

978 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 12:33:55 ID:uZQhx3By0

地質学者ではなく土木学者でした。すみません。

979 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 15:01:16 ID:ugTZXpCm0

地学とかどうやって生活するんだろう。。。

980 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 15:14:13 ID:lHK7bfUG0

俺の知り合いは環境アセス会社でお手盛り地質調査をやってる

981 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 15:32:05 ID:uZQhx3By0

金になる順

化学＞＞＞土木＞生物≧コンピュータサイエンス＞物理

982 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 17:52:46 ID:ugTZXpCm0

化学ってフラスコ職人じゃね？

983 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 18:35:52 ID:uZQhx3By0

化学は主に素材とかかな

984 ：名無しさん＠お腹いっぱい。：2009/02/13(金) 19:19:00 ID:lHK7bfUG0

>>983は化けなの？
化け分野では下付・上付が多いから苦労しそう。
OCRは何使ってる？