1 :
名無しさん@お腹いっぱい。 :
2013/07/31(水) NY:AN:NY.AN ID:wsG9QjLf 読取革命 e.typist Adobe Acrobat PDF Xchange Viewer 読んde!!ココ ScanSnap Organizer とか 電子化する大きなメリットとなる検索可能な自炊本にするためのOCR情報スレdeath
2 :
名無しさん@お腹いっぱい。 :2013/07/31(水) NY:AN:NY.AN ID:XDrfmrh7
漫画厨しかいない板
3 :
名無しさん@お腹いっぱい。 :2013/08/01(木) NY:AN:NY.AN ID:Ikf8/0ZZ
読取革命の一択です ありがとうございました。
読取革命ってルビを意図的に削除してない? 設定でもルビ関連の項目無いしさ あれがなければNo1なんだが… というか他のソフトが糞過ぎ 「言」を「ニニ口」とか認識しやがる 一文字の大きさにちゃんと切り分けてから認識してくれよ
検索pdfにすることを考えると、第二水準漢字に対応しているのが絶対条件だな。
自分は読取革命を使ってるけど、結果の編集をしてると、すぐに画像と認識結果
の位置がずれておかしな事になったり、画像を開いてファイル保存しようとすると、
ファイル名が空欄になっているので、上書き保存するのが面倒だったり、アンドゥ
が直前の操作しか対応していなかったりと、いろいろ不満があるけど、
>>4 さんの
言うとおり、他のソフトが糞すぎて、比較対象になるのは、e.Typistぐらいか。
10万とか超えるようなソフトでルビまできっちり認識してくれるOCRはないもんかのう。
7 :
名無しさん@お腹いっぱい。 :2013/08/13(火) NY:AN:NY.AN ID:aOL/NH1U
日本語がローマ字じゃないことが諸悪の根源 皆さんの大嫌いな中国の文字とそれを崩した文字は コンピューターには最も不適合な文字になるからな 漢字変換している時間は単なるハンディキャップ 戦後の中途半端な略字化とつまらない現担ぎで昔の 字体もしっかり残って更なる追い討ち 横文字が戦後左から右にならなかったら最悪だったな
jpegをまとめてOCRに変換できるフリーのソフトでおすすめあります?
9 :
名無しさん@お腹いっぱい。 :2013/08/21(水) NY:AN:NY.AN ID:DrranbK9
JPEGをどのようにコンパイルすればOCRソフトになるのか俺も知りたい
OCRに変換するとは書いてあるが OCRソフトに変換するとは書いてないぜ?
12 :
名無しさん@お腹いっぱい。 :2013/08/22(木) NY:AN:NY.AN ID:kTfy9wUl
13 :
◆M2a2eh6/s6 :2013/08/28(水) NY:AN:NY.AN ID:0hYpHMie
1
14 :
名無しさん@お腹いっぱい。 :2013/08/28(水) NY:AN:NY.AN ID:vx12jJVs
で、実際どうなの 今のところ読取革命が一番てことでいい?
精度的にはRealReaderとかも何気にええで 連続処理が出来ない劣化品だが
サンクス
読取革命とe.typistの体験版比較したが、精度はe.typistの方が良さそうだった ただ500ページ制限があるみたいだから、長編は一手間掛かりそうだ e.typistはフリガナも認識できるみたいだから青空形式作成に役立つかと思ったけど、フリガナの精度はイマイチ。 あと両方とも「――」が上手く認識できない。 あくまでScansnapで読み込んだ小説の自炊本での比較だから、レイアウト複雑な本とかは分からんけどね。
19 :
名無しさん@お腹いっぱい。 :2013/08/29(木) NY:AN:NY.AN ID:oqlTsQta
OCRかけるつもりで吸う時は最高画質にしてやらないとやっぱり識字率下がる? SS1500でエクセレントでやるとやたら時間がかかるんだが それを補って余りある識字率ならエクセレントでやる意味があると思って聞いてみた
>>19 どっかのブログで「スーパーファインとエクセレントはほとんど違いが無い」って言ってた
8月29日以降というのは29日を含めるのか? 俺29日にアップグレードのダウンロード版買ったんだけど 前のバージョン持ってないからインストール出来ねーw どうなんだコレ
おーありがとう ダメもとで聞いてみるわw
>認識結果の文字をしおり(目次など見たいページにリンクを貼る機能)として設定し、PDFやEPUBファイル内に出力できるようになりました。設定したしおりは目次として活用できますので、ページ数の多い原稿を電子化する時などに便利です。 どゆこと?
27 :
名無しさん@お腹いっぱい。 :2013/09/04(水) 12:35:44.42 ID:XCpczO8P
プログラム言語が含まれる本だと e.Typist(欧州言語対応)と e.Typist NEO(日英のみ)で違いがあるのだろうか 双方の体験版がほしいところだな
下のようなのは多言語版だと逆に精度落ちるのかね ---------------- 「 ツンドク」という本棚を作って未読、読書中の本をつっこむsql ReadStatus の条件を変えれば、未読と読書中を分けるのも可 BEGIN TRANSACTION; DELETE FROM ShelfContent WHERE ShelfName = ' ツンドク'; DELETE FROM Shelf WHERE Name = ' ツンドク'; INSERT INTO Shelf SELECT STRFTIME('%Y-%m-%dT%H:%M:%f','now'),' ツンドク', ' ツンドク',STRFTIME('%Y-%m-%dT%H:%M:%f','now'), ' ツンドク','custom','false','true','false'; INSERT INTO ShelfContent SELECT ' ツンドク',Content.ContentID, STRFTIME('%Y-%m-%dT%H:%M:%f','now'),'false','false' FROM Content WHERE ContentType = 6 AND Accessibility <= 1 AND ___ExpirationStatus <> 3 AND content .___UserID <>'' AND SUBSTR(ContentID,1,18) <> 'file:///usr/local/' AND IFNULL(content.___FileSize,0) > 0 AND ReadStatus < 2 COMMIT TRANSACTION;
さすがにソフト内で認識言語の指定はできるでしょ
いや、ページごとに手作業でやるならともかく、 自動でやる場合は「欧文混在の日本語認識」みたいな メッセージになるので、NEOと変換結果が異なると思われる。 そもそもこういうプログラミング系の本の需要こそ高いと思うので、 プログラム言語と認識して変換するOCRソフトがあってもよいはず
31 :
名無しさん@お腹いっぱい。 :2013/09/05(木) 12:51:58.66 ID:wVbjdFQv
日本語と韓国語が混ざった本を e.Typist v.14.0で埋込PDFに自動変換したらできたけど 韓国語はローカルの文字コードをフォントで色づけして日本語のPDFファイルに 含めているだけなので検索用にはつかえないようだ v15もUnicode対応はうたってないしな しかしこれって普通の日本語文書でも一部を簡体字、繁体字、ハングルの ローカル文字コードにされ検索不能になる危険性があるってことだよな NEOのほうがいいのかな
32 :
名無しさん@お腹いっぱい。 :2013/09/17(火) 17:47:40.01 ID:KoLRjPXm
帳票OCR Ver.7以外でラスター画像の一部を読み取って そのファイルのファイル名にしてくれるフリーソフトはないですか?
そういやe.Typistは27日に発売だっけ 体験版はv14のままだったわ
この週末、無償アップグレード版が来たらレビューしようかと思ってたけど、まだ来ないわ>etypist15
35 :
名無しさん@お腹いっぱい。 :2013/10/01(火) 12:55:18.26 ID:OKVRTVRr
今日FAXしようとしていた自分に来るのは相当先か
アップグレード来たけど、あんまり代わり映えしないな PDFの画質も改善しないし
37 :
名無しさん@お腹いっぱい。 :2013/10/12(土) 13:12:52.36 ID:N99zQYZG
>>36 英文の本をマルチ言語で翻訳したら単語間のスペースが全てなくなる
英語固定にすると若干含まれているアクセント記号付きの文字がグチャグチャ
多言語対応と全くいえないバグだらけ、むしろ14の方がいいのかな
etypist15で行頭の認識結果文字列削除すると、文字カーソルが巨大化した後、 認識ウィンドウの文字に対するマウス操作効かなくなる。どう報告したものか…体験版で試してから購入するんだったorz 認識精度は個人的にあまり変わり映えなし。epub出力やPDFしおり出力云々のせいだと思うけどOCR作業ファイルの後方互換無くなった
全体的に下火な感じ 需要がそんなにないのかなー
一発!OCR Pro7というのもあるんだな ジャストシステムから発売されているやつ
>>40 epub出力ないのかー
いらない
ルビつきのepubが普通に出力できるOCRは出ないのかな
マンガは自炊して処分できたけど、小説がEPUB化できないといつまで経っても捨てられない
e.typistでは駄目なの? 個人的にはルビまで修正の手が回らないから、ルビ出力はオフにしてるけど
43 :
名無しさん@お腹いっぱい。 :2013/11/13(水) 20:02:10.42 ID:NS/oNFUe
ハードオフに行って、ジャンクのプリンタを買って読取革命Liteを手に入れるのが一番コストが安いな。 500円くらいで買えたもの。
OCRソフトだけは、俺が作ったほうが良い物がでける。 その自信がある。 てなことを思うほど これほどイライラする類のソフトも無い。 俺ならまず、そのPCに存在する文書ファイルの語彙チェックから始めるな。
今のOCRソフトは手書き向けの精度向上にむけたアルゴリズムをアプデしてるからな 小説のような固定レイアウトで、文字も綺麗にスキャンされてる画像からOCRするのには向いてないんだね
>>44 同感だよな・・・
一番いいと言われている読取革命にしても、不具合多すぎるし。
>>46 おめー絶対にわざと間違えてんだろ?
って突っ込みたくなることが多い。
95年初めてOCRに出会った頃と比べてほとんど進化してない。
新発売の洗濯洗剤のごとく
バージョンうpのたびに制度が向上とか
もっと凄くなってないとオカシイやろって思う。
ペロペロペロペロペロペロッって
認識が終わるのも腹が立つ
もっとじっくりやれよって
ベローォォォォォォ、ベロッーーーーーーーーーーーんっ?ペロッ
くらいでいいからさ
早く認識終わったって
間違いが多けりゃ意味ねえんだよ。
「つ」と「っ」の違いくらいはしっかり認識してほしいよな 文字の大きさを何で考慮しないんだろ 「間」「問」「聞」の間違いくらいなら大目に見るから
いくら日本語には半角全角かなカナ漢字数字アルファベットがあるといっても 漢字と漢字の間に一文字半角カナとか記号とかねえだろって思うんだよね。 単純に似た形の文字を持ってくるだけじゃなくて 人間の脳内補正みたく文脈から文字の種類を推定したり熟語のデータベースと照合したりそういうのでOCRの精度あげられないのかね。
>>48 縦書きの漢数字なんかまともに認識してくれないしな。
個人的には読んでココが一番良かったな。
文字の種類によって色分けしてたり、改行コードがわかるようになってたから、
誤変換した後の修正がしやすかったし。
これで第二水準漢字に対応していてくれさえすれば良かったのに。
>>49 インスコするときに、
「このPC内の文書ファイルの単語をデータとして使用する」 はい、いいえ
させるとかしたらええと思う。
そのうちgoogleがっクラウド型OCR作ったら、他のメーカー壊滅やろね。
そういうの得意そうやし
ネット上単語データベース利用して、推測認識。
案外、「この文書の元ネタはこのページです。まるごとコピペした方が早いです。」とか言って来たりして。
イラつく例もう一つ
表認識で、数字が4,000、3,000、1,000と並んでるのに次のセルで「2、CO日。」とか認識しやがんのね。
53 :
名無しさん@お腹いっぱい。 :2013/12/09(月) 16:57:57.89 ID:sxshqx1w
e.typistのpdf出力の画質って設定で変えられるのね。 使えないと思ってたのが使えるようになったわ。 まったく、何でデフォルトが最低画質なんだか、、、
e.typist使ってるけど、ルビまでいい感じで読み取るけど? そのまま青空形式でルビを書き込むようにしてる。
>>54 え、それほんと?
初耳
電子インクの電子書籍端末がいい感じで普及してきたのに、ルビつきのepubが簡単に自炊できるソフトがないことが最大のネックになってた
e.typist neoの出荷メール来た 読取と両方試用版試したけど決め手はルビ出力の可否 認識率は本文より低い感じだけど二重山カッコでくくってくれるので 底本参照の校正がはかどるのではないかと思いまして とは言え認識率が100パーで無い限り底本突合せで間違い探しする訳で根気ないと無理ですねこれは どうしても残したく且つ電書化の可能性が限りなく低そうな手持ちの本限定…って感じです
青空形式のルビ《 》もルビ開始位置の|も指定できるけど、本文でさえ校正が大変なのにルビまでは出来んわ
58 :
名無しさん@お腹いっぱい。 :2013/12/20(金) 19:26:33.98 ID:YWA5PXvs
未だにsmartOCRをDLできる国外サイトいっぱいあるけど あれって英数字だけだと月並み。 結局利用者は大概日本人か
OCRは、高圧縮pdfを吐かせるためで 誤認識は気にしない、だいたい認識してくれれば検索も役には立つ と割り切って無修正で使っている
google docsが最強だろjk しかも無料だし
OCRするとき、下準備やった方が良いのかな? ChainLPでレベル補正とガンマ補正したら認識率上がるような?
>>61 上がるよ、フォトショで背景全部飛ばして文字の太さやらも調整する
書籍は画像で保存していて、 OCRかけて検索可能PDFにするのは自分は諦めてるんだけど、 画像内の文字列をちょこっと選択して、 Google検索だけしたいとはよく思う。
ビューアでそんなの出てほしいな 手動で範囲選択してそこだけOCRかけてweb検索やら辞書検索やらする
読取革命のアクチベーションはどのバージョンからですか?