>>934 百聞は一見に如かず
購入するなりサンプルでお試しあれ
20.0と1.5万円を選ぶかはあなたしだい
読んで!ココはxdw文章で取り込みも保存も出来ない。
xdwで文章管理している俺には使いにくい。と自分に言い聞かせた。
937 :
名無しさん@お腹いっぱい。:2009/02/11(水) 23:12:24 ID:QPs/OlSQ0
英語の本一冊まるまるスキャンしてPDF化して透明テキスト上から貼り付けて検索可能にするソフトって何が最適ですか?
ドキュワークスというのに興味がありますがそれでも出来ますか?
OCRは自分で試して納得するものを使うしかない
どれがいいのかって言われてもナ
>>1にソフトあるけどバージョンで認識率違うし評価も人によって変わるから
比較するなら
アドビのPDF
読んde!!ココ(エプソンのスキャナに良くバンドルされてる)
読取革命(ソースネクストのものは同じエンジンで過去のバージョン)
e.Typist(キャノンのスキャナに良くバンドルされてる)
>>937 俺は専門書を数百冊電子化しているよ。
Acrobatは普及しているけど、使い勝手はドキュワークスが圧倒的に上だよ。
マニュアルなんて無くても使えてしまうくらい直感的で自然な操作系だよ。
内蔵OCRの精度はちょいと遺憾なレベルだから、頑張ってWinReaderProを買いましたよ。
Docuworksから操作できるから便利だよ。検索は全文検索ソフトがついてくるよ。
でも、PDFを検索対象にするソフトは多いけど、Docuworksファイルを対象にするのは少ない。こういうところが残念。
個人でWinreaderはコストパフォーマンス合わない気がする
>>940 俺は大分悩んだね。でも体験版を使って吹っ切れた。
2万くらいのソフトより精度だいぶいいん?
>>942 うーん、わからないw
DocuWorks文章が読み書きできて、DocuWorksから呼び出せるから他に選択肢が無いというのが正直なところ。
いま、800枚くらいのスキャン文章にページ割り振りするために読み込ませているけど、結構早くて、正確だよ。
つーか、当然かw
>>939 俺は同じ用途でAcrobat 9 Pro。ドキュワークスも使ってるけど、Acrobat
の方が好み。文字の表示がAcorobatの方が読みやすいし、インタフェースが
Acrobatの方が洗練されてるように感じる。マニュアルなしで使えるのも同じ。
WinReaderProの精度が価格分だけすぐれてるのか、俺には確信がないので、
Docuworks+WinReaderProではなくAcrobat+etypistの方を選んだ。
ドキュワークスってOCRソフトというよりも複数種類のドキュメントを関連付けて纏めるファイリング機能が主だよね?
>>945 そう。でも、そこそこ使えるOCRエンジンを搭載している。WinReaderProを買えば、それに置き換えられるから強力なOCRソフト化する。
テキストの強みは携帯でも糞PCでも簡単に読めることだ。糞ソフトはいらねぇ。
個人用途でDocuWorks+WinReaderProはなぁ・・・
単に本をスキャンするだけでそれはコストパフォーマンス悪いよ
自分はOpticBook3600でe.typist使ってるがこれで十分だわ
画像の扱いはバカだけど
>>947 OCRなんて書類検索にしか使わないな。
誤認識ををいちいち訂正する暇があるのはニートくらいだろう。
OCRが何か知らない奴ww
というかなんでこのスレいるんだよw
お前が一番知らないだろう。
OCR対象が10万枚以上という世界は理解不能だろうなw
俺は正規表現で必要な情報を取り出してファイル名にして整理したりするのに使う程度だな。
一部分の抽出だけでも誤認識に悩まされているのに、OCRデータで本を読むなんて正気の沙汰とは思えない。
完全に自分の世界に入ってしまってるな。指摘されてもスレ違いだということに気付かないらしい。
10万枚以上が要件だから理解不能ってどんだけ無知なんだよ。それならそれ用のシステム構築するだけだろ。
だいたい誤認識で悩まされるのは校正しないままだからだろうが。ほんとシステム設計に疎い奴は勘違いした奴が多い。
質問
ご認識は仕方ないとしてそれを補正しやすいものってどんなのがりますか
s510ってスキャンスナップ付属のアクロバット8では文字変更が大変なのよ
透明テキスト付きpdfってあこがれてたんだけど実際体験したら使えなくて幻滅した
日本語ソースでは諦めろとしか言えん
英語ソース等でようやく透明テキスト付きPDFは実用になる
それでも誤認識するから保険のために画像にテキスト振った
PDFにして保管しておくわけ
図書館で借りた数冊の本を一度にスキャンして校正までする
暇なんてある奴そうそういないし
>>954 だよね。人力校正なんて必要最小限に抑えないと人的リソースを喰いまくり。無駄の極みだよね。
ギリギリまで絞り込んだOCRデータの校正の労力をほんの少しでも削減するためにWinReaderProまで買っているのにさw
校正程度で無駄の極みか。だから最近の若者は駄目なんだよな。
誤植の多い出版物が多量に出回るわけだ。
まったくさいきんのわかものはかんじばっかりつかってよみにくいったら・・
漢字変換はできるけど漢字を書くのは苦手なんだよな
このスレで話がかみ合ってない場合って、主に欧文文書を
大量にスキャンして透明テキストpdfにする院生とか研究者と、
それを批判する人でグチャグチャやってるよね。
批判する人はどういう使い方かまったく明らかにしないけど。
俺は毎日届く取引先からの紙文章をスキャンして整理するため。
OCRデータから特定の条件を満たす単語をそのままファイル名にする業務用ソフトに組み込むためと全文検索用。
どんなに気をつけても行方不明書類は発生するからね。全文検索での手がかり用だから大体あえばいいと割り切っている。
業務で使っていると校正などするのは無駄の極みだよ。趣味で小説を取り込むのとは時間と量が桁違いだよ。
毎日100枚の書類を校正するのは愚の骨頂だ。
全文検索するときに誤認文字を補うようなしかけはあるの?
全文検索はwidegrep?
>>961 >>962 コンセプトサーチの一種のエクスパンドファインダーを使っているから今は仕掛けはないですね。正規表現が使えるのがあれば乗り換えたいですね。
サーチクロスが良かったんですけど、開発中止したので途方にくれてます。私はxdw文章が主なので対応するソフトが少なくて困っています。
最近、everythingを使い始めたんですけど、これがあればファイル名だけでもいいかなと思い始めました。
あらかじめ条件設定しておいて、ファイル名で自動振り分けしていれば、誤認識されて付けられたファイル名のものは振り分けられずに残るし。
>>959 >、主に欧文文書を
>大量にスキャンして透明テキストpdfにする院生とか研究者
その一人です。でも最近は日本語文献も取り込んでる。
文字種よりも図表の扱いが稚拙で困るのがAcrobat。
別のOCR必須。
全文検索する時って何をキーにして検索する?
>>964 何分野?俺も研究者なんだけど数理の方なのでかなりしんどい。
>>965 取引会社名の一部とか顧客名の一部とか。かなり当てずっぽうに試行錯誤している。
システマチックな方法があれば知りたいな。
文系研究者の端くれでMacユーザなんだけど、
文系分野だと縦書きまで出てくるので尚更困る。
ジャーナルは良いけど単行本の縦書きテキストは
MacOSXのフレームワークじゃだめで、
Acrobatじゃないとちゃんと認識してくれないのがネックになる。
しかし、変換結果が合ってるどうかわからないまま、それを抽出、統計とって論文に引用されてたらたまらんな。
文系恐るべし。
もう全部を電子書籍にしてもらえればどんなに楽か・・
972 :
名無しさん@お腹いっぱい。:2009/02/13(金) 12:03:41 ID:gQ1mRyPc0
>>971 図星だったかなw
論文データ捏造とかニュースにならないといいね。
なんか、気持ち悪いのが湧いてるな。
バイオ系に多いよこういうの。バイオ系はあまり教科書も論文も読まないけど。
数学苦手だから生物学者になるってやつ多いよね。
物理学者=数学者(コンピュータサイエンス含)>地質学者>化学者>>>生物学者
比べる必要もないけど地質が変なところにいないか?
地質学者ではなく土木学者でした。すみません。
979 :
名無しさん@お腹いっぱい。:2009/02/13(金) 15:01:16 ID:ugTZXpCm0
地学とかどうやって生活するんだろう。。。
俺の知り合いは環境アセス会社でお手盛り地質調査をやってる
金になる順
化学>>>土木>生物≧コンピュータサイエンス>物理
982 :
名無しさん@お腹いっぱい。:2009/02/13(金) 17:52:46 ID:ugTZXpCm0
化学ってフラスコ職人じゃね?
化学は主に素材とかかな
>>983は化けなの?
化け分野では下付・上付が多いから苦労しそう。
OCRは何使ってる?