2013年、最強のOCRは？

1 ：名無しさん＠お腹いっぱい。：2013/07/31(水) NY:AN:NY.AN ID:wsG9QjLf

読取革命
e.typist
Adobe Acrobat
PDF Xchange Viewer
読んde!!ココ
ScanSnap Organizer
とか

電子化する大きなメリットとなる検索可能な自炊本にするためのOCR情報スレdeath

2 ：名無しさん＠お腹いっぱい。：2013/07/31(水) NY:AN:NY.AN ID:XDrfmrh7

漫画厨しかいない板

3 ：名無しさん＠お腹いっぱい。：2013/08/01(木) NY:AN:NY.AN ID:Ikf8/0ZZ

読取革命の一択です
ありがとうございました。

4 ：名無しさん＠お腹いっぱい。：2013/08/01(木) NY:AN:NY.AN ID:bVze+roW

読取革命ってルビを意図的に削除してない？
設定でもルビ関連の項目無いしさ
あれがなければNo1なんだが…

というか他のソフトが糞過ぎ
「言」を「ニニ口」とか認識しやがる
一文字の大きさにちゃんと切り分けてから認識してくれよ

5 ：名無しさん＠お腹いっぱい。：2013/08/03(土) NY:AN:NY.AN ID:8CRoUIAl

検索pdfにすることを考えると、第二水準漢字に対応しているのが絶対条件だな。

自分は読取革命を使ってるけど、結果の編集をしてると、すぐに画像と認識結果
の位置がずれておかしな事になったり、画像を開いてファイル保存しようとすると、
ファイル名が空欄になっているので、上書き保存するのが面倒だったり、アンドゥ
が直前の操作しか対応していなかったりと、いろいろ不満があるけど、>>4さんの
言うとおり、他のソフトが糞すぎて、比較対象になるのは、e.Typistぐらいか。

6 ：名無しさん＠お腹いっぱい。：2013/08/10(土) NY:AN:NY.AN ID:IGtVviNL

10万とか超えるようなソフトでルビまできっちり認識してくれるOCRはないもんかのう。

7 ：名無しさん＠お腹いっぱい。：2013/08/13(火) NY:AN:NY.AN ID:aOL/NH1U

日本語がローマ字じゃないことが諸悪の根源

皆さんの大嫌いな中国の文字とそれを崩した文字は
コンピューターには最も不適合な文字になるからな
漢字変換している時間は単なるハンディキャップ
戦後の中途半端な略字化とつまらない現担ぎで昔の
字体もしっかり残って更なる追い討ち

横文字が戦後左から右にならなかったら最悪だったな

8 ：名無しさん＠お腹いっぱい。：2013/08/16(金) NY:AN:NY.AN ID:Oep/GP1S

jpegをまとめてOCRに変換できるフリーのソフトでおすすめあります？

9 ：名無しさん＠お腹いっぱい。：2013/08/21(水) NY:AN:NY.AN ID:DrranbK9

JPEGをどのようにコンパイルすればOCRソフトになるのか俺も知りたい

10 ：名無しさん＠お腹いっぱい。：2013/08/22(木) NY:AN:NY.AN ID:GJenhDot

>>9
え？

11 ：名無しさん＠お腹いっぱい。：2013/08/22(木) NY:AN:NY.AN ID:jJVQUHVN

OCRに変換するとは書いてあるが
OCRソフトに変換するとは書いてないぜ？

12 ：名無しさん＠お腹いっぱい。：2013/08/22(木) NY:AN:NY.AN ID:kTfy9wUl

ソフトウェアではなくハードウェアってことか
3Dプリンターを駆使しても難しそうだよ
http://e-words.jp/w/OCR.html

13 ： ◆M2a2eh6/s6 ：2013/08/28(水) NY:AN:NY.AN ID:0hYpHMie

１

14 ：名無しさん＠お腹いっぱい。：2013/08/28(水) NY:AN:NY.AN ID:vx12jJVs

で、実際どうなの
今のところ読取革命が一番てことでいい？

15 ：名無しさん＠お腹いっぱい。：2013/08/28(水) NY:AN:NY.AN ID:ZcyrYfNw

>>14
他よりマシ

16 ：名無しさん＠お腹いっぱい。：2013/08/28(水) NY:AN:NY.AN ID:M83mG89C

精度的にはRealReaderとかも何気にええで
連続処理が出来ない劣化品だが

17 ：名無しさん＠お腹いっぱい。：2013/08/28(水) NY:AN:NY.AN ID:vx12jJVs

サンクス

18 ：名無しさん＠お腹いっぱい。：2013/08/28(水) NY:AN:NY.AN ID:F9J3IfKj

読取革命とe.typistの体験版比較したが、精度はe.typistの方が良さそうだった
ただ500ページ制限があるみたいだから、長編は一手間掛かりそうだ
e.typistはフリガナも認識できるみたいだから青空形式作成に役立つかと思ったけど、フリガナの精度はイマイチ。
あと両方とも「――」が上手く認識できない。
あくまでScansnapで読み込んだ小説の自炊本での比較だから、レイアウト複雑な本とかは分からんけどね。

19 ：名無しさん＠お腹いっぱい。：2013/08/29(木) NY:AN:NY.AN ID:oqlTsQta

OCRかけるつもりで吸う時は最高画質にしてやらないとやっぱり識字率下がる？
SS1500でエクセレントでやるとやたら時間がかかるんだが
それを補って余りある識字率ならエクセレントでやる意味があると思って聞いてみた

20 ：名無しさん＠お腹いっぱい。：2013/08/29(木) NY:AN:NY.AN ID:QUAQNAPN

有名なのがこの２つだよね(読んdeココは犠牲になったのだ…)
e.Typist v.14.0 体験版（5日間試用）
http://mediadrive.jp/products/et/index11.html
読取革命Ver.15 体験版（10日間試用）
http://panasonic.co.jp/avc/pstc/products/yomikaku/demo.html

他にも無料で使えるOCRソフト
一発！OCR Pro7 体験版（10日間試用）←内部の処理は読取革命と一緒
http://www.justsystems.com/jp/download/trial/ocr/
RealReader Lite 8（14日間試用）←個人的に一番精度がいいと思う
http://data-digital.sakura.ne.jp/RealReaderLitePrice.html
ABBYY FineReader 11 （15日間試用）←英語のOCRはここが一番有名らしい
http://finereader.add-soft.jp/

その他
Evernote(画像を上げるとOCR処理してくれる)
Google Document(結構精度が高い。ただし横書きのみ)
Adobe Acrobat(高い。埋め込みPDF用)
Microsoft Word(一応OCR機能が付いている。それなりの精度)

21 ：名無しさん＠お腹いっぱい。：2013/08/31(土) NY:AN:NY.AN ID:fJWlTzxw

>>19
どっかのブログで「スーパーファインとエクセレントはほとんど違いが無い」って言ってた

22 ：名無しさん＠お腹いっぱい。：2013/09/01(日) 21:40:54.11 ID:2MtpbY6l

ttp://www.asahi.com/and_M/information/pressrelease/AUT201308300113.html
クラウドやモバイル連携に対応した活字OCRソフトウェア「e.Typist v.14.0」リリースのご案内

どうみても15.0の間違いだと思う……

2013年9月27日（金）発売だってさ。
8月29日移行の購入は無償バージョンアップ出来るみたい。
グダグダと体験版比較してたのが功を奏したわ。

23 ：名無しさん＠お腹いっぱい。：2013/09/01(日) 22:37:37.76 ID:zSi/rdem

8月29日以降というのは29日を含めるのか？
俺29日にアップグレードのダウンロード版買ったんだけど
前のバージョン持ってないからインストール出来ねーｗ
どうなんだコレ

24 ：名無しさん＠お腹いっぱい。：2013/09/01(日) 22:49:29.40 ID:2MtpbY6l

ttp://mediadrive.jp/topics/2013/20130927et15.html
国内スタンダード活字OCRソフトウェア「e.Typist v.15.0」の販売開始

ttp://mediadrive.jp/campaign/201308/freeupg_et15.html
「e.Typist v.15.0」無償アップグレードキャンペーン

オフィシャルのキャンペーンページは＜titile＞が13.0になってるって……

29日からだから良いんじゃないの？
アップグレード版だけからアップグレード出来るのかは知らんけど。
俺は日本語・英語以外はいらないからNEO買うわ

25 ：名無しさん＠お腹いっぱい。：2013/09/02(月) 00:19:50.05 ID:hL48KyBb

おーありがとう
ダメもとで聞いてみるわｗ

26 ：名無しさん＠お腹いっぱい。：2013/09/02(月) 00:37:09.82 ID:rJqe37In

>認識結果の文字をしおり（目次など見たいページにリンクを貼る機能）として設定し、PDFやEPUBファイル内に出力できるようになりました。設定したしおりは目次として活用できますので、ページ数の多い原稿を電子化する時などに便利です。

どゆこと？

27 ：名無しさん＠お腹いっぱい。：2013/09/04(水) 12:35:44.42 ID:XCpczO8P

プログラム言語が含まれる本だと
e.Typist（欧州言語対応）と e.Typist NEO（日英のみ）で違いがあるのだろうか
双方の体験版がほしいところだな

28 ：名無しさん＠お腹いっぱい。：2013/09/04(水) 12:57:09.52 ID:SR9IhJcA

下のようなのは多言語版だと逆に精度落ちるのかね
----------------
「ツンドク」という本棚を作って未読、読書中の本をつっこむsql
ReadStatus の条件を変えれば、未読と読書中を分けるのも可

BEGIN TRANSACTION;
DELETE FROM ShelfContent WHERE ShelfName = ' ツンドク';
DELETE FROM Shelf WHERE Name = ' ツンドク';

INSERT INTO Shelf
SELECT
STRFTIME('%Y-%m-%dT%H:%M:%f','now'),' ツンドク',
' ツンドク',STRFTIME('%Y-%m-%dT%H:%M:%f','now'),
' ツンドク','custom','false','true','false';

INSERT INTO ShelfContent
SELECT
' ツンドク',Content.ContentID,
STRFTIME('%Y-%m-%dT%H:%M:%f','now'),'false','false'
FROM Content
WHERE
ContentType = 6 AND Accessibility <= 1 AND ___ExpirationStatus <> 3 AND
content .___UserID <>'' AND SUBSTR(ContentID,1,18) <> 'file:///usr/local/' AND
IFNULL(content.___FileSize,0) > 0 AND
ReadStatus < 2

COMMIT TRANSACTION;

29 ：名無しさん＠お腹いっぱい。：2013/09/04(水) 13:04:25.87 ID:0YTpY6gD

さすがにソフト内で認識言語の指定はできるでしょ

30 ：名無しさん＠お腹いっぱい。：2013/09/04(水) 22:14:43.89 ID:boHrLVpG

いや、ページごとに手作業でやるならともかく、
自動でやる場合は「欧文混在の日本語認識」みたいな
メッセージになるので、NEOと変換結果が異なると思われる。
そもそもこういうプログラミング系の本の需要こそ高いと思うので、
プログラム言語と認識して変換するOCRソフトがあってもよいはず

31 ：名無しさん＠お腹いっぱい。：2013/09/05(木) 12:51:58.66 ID:wVbjdFQv

日本語と韓国語が混ざった本を e.Typist v.14.0で埋込PDFに自動変換したらできたけど
韓国語はローカルの文字コードをフォントで色づけして日本語のPDFファイルに
含めているだけなので検索用にはつかえないようだ
v15もUnicode対応はうたってないしな

しかしこれって普通の日本語文書でも一部を簡体字、繁体字、ハングルの
ローカル文字コードにされ検索不能になる危険性があるってことだよな

NEOのほうがいいのかな

32 ：名無しさん＠お腹いっぱい。：2013/09/17(火) 17:47:40.01 ID:KoLRjPXm

帳票OCR Ver.7以外でラスター画像の一部を読み取って
そのファイルのファイル名にしてくれるフリーソフトはないですか？

33 ：名無しさん＠お腹いっぱい。：2013/09/28(土) 14:21:55.21 ID:PF73lf9u

そういやe.Typistは27日に発売だっけ
体験版はv14のままだったわ

34 ：名無しさん＠お腹いっぱい。：2013/09/29(日) 16:58:22.04 ID:nQs5vSMP

この週末、無償アップグレード版が来たらレビューしようかと思ってたけど、まだ来ないわ＞etypist15

35 ：名無しさん＠お腹いっぱい。：2013/10/01(火) 12:55:18.26 ID:OKVRTVRr

今日FAXしようとしていた自分に来るのは相当先か

36 ：名無しさん＠お腹いっぱい。：2013/10/06(日) 14:18:41.10 ID:B27w76Sl

アップグレード来たけど、あんまり代わり映えしないな
PDFの画質も改善しないし

37 ：名無しさん＠お腹いっぱい。：2013/10/12(土) 13:12:52.36 ID:N99zQYZG

>>36
英文の本をマルチ言語で翻訳したら単語間のスペースが全てなくなる
英語固定にすると若干含まれているアクセント記号付きの文字がグチャグチャ
多言語対応と全くいえないバグだらけ、むしろ14の方がいいのかな

38 ：名無しさん＠お腹いっぱい。：2013/10/12(土) 17:01:08.68 ID:YskYNxxU

etypist15で行頭の認識結果文字列削除すると、文字カーソルが巨大化した後、
認識ウィンドウの文字に対するマウス操作効かなくなる。どう報告したものか…体験版で試してから購入するんだったorz
認識精度は個人的にあまり変わり映えなし。epub出力やPDFしおり出力云々のせいだと思うけどOCR作業ファイルの後方互換無くなった

39 ：名無しさん＠お腹いっぱい。：2013/10/20(日) 12:46:19.43 ID:YgdX2skn

全体的に下火な感じ　需要がそんなにないのかなー

40 ：名無しさん＠お腹いっぱい。：2013/10/20(日) 12:55:13.97 ID:YgdX2skn

一発！OCR Pro7というのもあるんだな
ジャストシステムから発売されているやつ

41 ：名無しさん＠お腹いっぱい。：2013/10/20(日) 20:26:22.16 ID:V4Fsd2ph

>>40
epub出力ないのかー
いらない

ルビつきのepubが普通に出力できるOCRは出ないのかな
マンガは自炊して処分できたけど、小説がEPUB化できないといつまで経っても捨てられない

42 ：名無しさん＠お腹いっぱい。：2013/11/10(日) 00:24:54.73 ID:Ithcb/il

e.typistでは駄目なの？
個人的にはルビまで修正の手が回らないから、ルビ出力はオフにしてるけど

43 ：名無しさん＠お腹いっぱい。：2013/11/13(水) 20:02:10.42 ID:NS/oNFUe

ハードオフに行って、ジャンクのプリンタを買って読取革命Liteを手に入れるのが一番コストが安いな。

500円くらいで買えたもの。

44 ：名無しさん＠お腹いっぱい。：2013/11/23(土) 07:21:08.48 ID:O8RWMPBP

OCRソフトだけは、俺が作ったほうが良い物がでける。
その自信がある。

てなことを思うほど
これほどイライラする類のソフトも無い。

俺ならまず、そのPCに存在する文書ファイルの語彙チェックから始めるな。

45 ：名無しさん＠お腹いっぱい。：2013/11/23(土) 09:02:34.89 ID:hhzb+qNK

今のOCRソフトは手書き向けの精度向上にむけたアルゴリズムをアプデしてるからな

小説のような固定レイアウトで、文字も綺麗にスキャンされてる画像からOCRするのには向いてないんだね

46 ：名無しさん＠お腹いっぱい。：2013/11/23(土) 23:39:04.77 ID:cxU5qNz+

>>44
同感だよな・・・

一番いいと言われている読取革命にしても、不具合多すぎるし。

47 ：名無しさん＠お腹いっぱい。：2013/11/24(日) 21:46:08.18 ID:ExxE4Cmc

>>46おめー絶対にわざと間違えてんだろ？
って突っ込みたくなることが多い。

95年初めてOCRに出会った頃と比べてほとんど進化してない。
新発売の洗濯洗剤のごとく
バージョンうpのたびに制度が向上とか
もっと凄くなってないとオカシイやろって思う。

ペロペロペロペロペロペロッって
認識が終わるのも腹が立つ
もっとじっくりやれよって

ベローォォォォォォ、ベロッーーーーーーーーーーーんっ？ペロッ
くらいでいいからさ

早く認識終わったって
間違いが多けりゃ意味ねえんだよ。

48 ：名無しさん＠お腹いっぱい。：2013/11/24(日) 22:03:39.28 ID:h61DYoc5

「つ」と「っ」の違いくらいはしっかり認識してほしいよな
文字の大きさを何で考慮しないんだろ
「間」「問」「聞」の間違いくらいなら大目に見るから

49 ：名無しさん＠お腹いっぱい。：2013/11/24(日) 23:38:25.08 ID:PsSyF8PF

いくら日本語には半角全角かなカナ漢字数字アルファベットがあるといっても
漢字と漢字の間に一文字半角ｶﾅとか記号とかねえだろって思うんだよね。
単純に似た形の文字を持ってくるだけじゃなくて
人間の脳内補正みたく文脈から文字の種類を推定したり熟語のデータベースと照合したりそういうのでOCRの精度あげられないのかね。

50 ：名無しさん＠お腹いっぱい。：2013/11/25(月) 00:11:10.13 ID:fMf3+OeP

http://vtns.wordpress.com/2011/02/22/ebook3/
数ヶ月程度で作った(らしい)画像認識でこんだけ絞り込めるんだから、OCRメーカーさんにはもっと頑張ってほしいところ

さすがに「言」が二二口とか洒落にならん

51 ：名無しさん＠お腹いっぱい。：2013/11/25(月) 01:47:55.12 ID:ILF0Qk7C

>>48
縦書きの漢数字なんかまともに認識してくれないしな。

個人的には読んでココが一番良かったな。

文字の種類によって色分けしてたり、改行コードがわかるようになってたから、
誤変換した後の修正がしやすかったし。

これで第二水準漢字に対応していてくれさえすれば良かったのに。

52 ：名無しさん＠お腹いっぱい。：2013/11/25(月) 01:56:28.91 ID:41WAN4fr

>>49　インスコするときに、
「このPC内の文書ファイルの単語をデータとして使用する」　はい、いいえ
させるとかしたらええと思う。

そのうちgoogleがっクラウド型OCR作ったら、他のメーカー壊滅やろね。
そういうの得意そうやし
ネット上単語データベース利用して、推測認識。
案外、「この文書の元ネタはこのページです。まるごとコピペした方が早いです。」とか言って来たりして。

イラつく例もう一つ
表認識で、数字が4,000、3,000、1,000と並んでるのに次のセルで「2、CO日。」とか認識しやがんのね。

53 ：名無しさん＠お腹いっぱい。：2013/12/09(月) 16:57:57.89 ID:sxshqx1w

e.typistのpdf出力の画質って設定で変えられるのね。
使えないと思ってたのが使えるようになったわ。
まったく、何でデフォルトが最低画質なんだか、、、

54 ：名無しさん＠お腹いっぱい。：2013/12/09(月) 19:59:41.86 ID:YK1q4d3s

e.typist使ってるけど、ルビまでいい感じで読み取るけど？
そのまま青空形式でルビを書き込むようにしてる。

55 ：名無しさん＠お腹いっぱい。：2013/12/09(月) 21:40:25.53 ID:nWZ+r3Cm

>>54
え、それほんと？
初耳

電子インクの電子書籍端末がいい感じで普及してきたのに、ルビつきのepubが簡単に自炊できるソフトがないことが最大のネックになってた

56 ：名無しさん＠お腹いっぱい。：2013/12/10(火) 00:11:47.09 ID:ZC2PoFMy

e.typist neoの出荷メール来た
読取と両方試用版試したけど決め手はルビ出力の可否
認識率は本文より低い感じだけど二重山カッコでくくってくれるので
底本参照の校正がはかどるのではないかと思いまして

とは言え認識率が100ﾊﾟｰで無い限り底本突合せで間違い探しする訳で根気ないと無理ですねこれは
どうしても残したく且つ電書化の可能性が限りなく低そうな手持ちの本限定…って感じです

57 ：名無しさん＠お腹いっぱい。：2013/12/10(火) 00:22:53.69 ID:u4muTkK4

青空形式のルビ《　》もルビ開始位置の｜も指定できるけど、本文でさえ校正が大変なのにルビまでは出来んわ

58 ：名無しさん＠お腹いっぱい。：2013/12/20(金) 19:26:33.98 ID:YWA5PXvs

未だにsmartOCRをDLできる国外サイトいっぱいあるけど
あれって英数字だけだと月並み。
結局利用者は大概日本人か

59 ：名無しさん＠お腹いっぱい。：2013/12/23(月) 20:43:32.27 ID:c3bY1Jmf

OCRは、高圧縮pdfを吐かせるためで
誤認識は気にしない、だいたい認識してくれれば検索も役には立つ
と割り切って無修正で使っている

60 ：名無しさん＠お腹いっぱい。：2014/01/28(火) 12:26:31.55 ID:ncWCbP7Q

google docsが最強だろｊｋ
しかも無料だし

61 ：名無しさん＠お腹いっぱい。：2014/04/21(月) 21:56:35.66 ID:FL5+PVqW

OCRするとき、下準備やった方が良いのかな？
ChainLPでレベル補正とガンマ補正したら認識率上がるような？

62 ：名無しさん＠お腹いっぱい。：2014/06/01(日) 13:41:10.19 ID:gZHlEIFi

>>61
上がるよ、フォトショで背景全部飛ばして文字の太さやらも調整する

63 ：名無しさん＠お腹いっぱい。：2014/06/01(日) 13:44:08.20 ID:4XblVqBZ

>>62
ホントにホントに？

64 ：名無しさん＠お腹いっぱい。：2014/06/05(木) 10:44:39.50 ID:5NUrKheB

書籍は画像で保存していて、
OCRかけて検索可能PDFにするのは自分は諦めてるんだけど、
画像内の文字列をちょこっと選択して、
Google検索だけしたいとはよく思う。

65 ：名無しさん＠お腹いっぱい。：2014/08/07(木) 08:08:09.99 ID:nQfWpHNh

ビューアでそんなの出てほしいな
手動で範囲選択してそこだけOCRかけてweb検索やら辞書検索やらする

66 ：名無しさん＠お腹いっぱい。：2014/12/25(木) 21:01:09.03 ID:5hKxSpYV

読取革命のアクチベーションはどのバージョンからですか？