1 :
揖保次郎:
語ってください。
日本語OCR 激しく欲する
4 :
login:Penguin:2006/08/24(木) 00:28:06 ID:7+bi93gK
日本語OCR 無いの?
オープンソースのOCRは、まだアルファベットの精度も厳しい状態らしいもんなぁ。
こういう分野こそIPAにしてほしいよ。
オープンソースじゃなくてもいいから
PDFファイルに日本語OCRをして透明テキスト追加ができれば
多少値段が張っても買う
7 :
login:Penguin:2006/08/25(金) 10:50:22 ID:C36iItf5
ソースネクストにお願いして発売してもらおう。
8 :
login:Penguin:2006/08/25(金) 11:10:29 ID:U0qISCE5
パクリ元が無いからソースネクストじゃ無理だろw
9 :
login:Penguin:2006/08/26(土) 01:27:15 ID:miR2y+yn
ocrの認識エンジンってやっぱり複雑なの?
フリーソフトの域じゃ無理かねぇ。
OCRATが良さそうですな。
日本語OCRを誰かさっさと作りやがれ!!
よーし、パパがんばっちゃおうかな!!
・・・無理っす。
今までの方式を再現するより、CPUとメモリを贅沢に使うことを前提に
愚直なアルゴリズムを実装したほうがうまくいくような気がする。
ocrホシスorz
移植よろ
OCR無いんじゃ、メインマシンとして使えんがな。
漏れはOCR使いたいから、Winとデュアルブートにしてる。
23 :
login:Penguin:2006/09/18(月) 18:43:40 ID:7ToA0imS
奈良先端大の図書室にはスキャナーがあるようですね
今月のUNIXマガにでてましたけど
OCRはWinっぽいです
PDF化してDBに突っ込むのかな?
ぱっと見なんで読んでないですw
Epsonは作ってくれないのかねぇ〜(ソフトは別会社か)
さっさと移植しろよ、ゴルァ
25 :
login:Penguin:2006/10/01(日) 11:00:12 ID:kLQrO3Nn
スレッド保守カキコ。
所有スキャナ
GT-9700F
>>19 CentOS4.4に入れてみた。見事にハングする。
BTSにFC3で死ぬって書いてあるから同じなんだろうな。
昔gocrとかあったなぁ・・・
・文章領域推定
・背景分離
・文字認識
がOCRの基本3技術だと思うけど、それぞれどんな感じなの?
いま問題になっているのはどこ?
日本語の文字認識って、特に難しいんだと思う。
一とーとか、二とニとか、しとレとか、Winでもできの悪いOCRだとボロボロになる。
wineでエミュできるまともな日本語OCRってあったら教えてたもれ。
Windows使えよ
OMRONがOmCRでも移植してくれればなぁ。
オ、オムロンって血圧計の・・・・?
それ以外にオムロンってある?
>>33 自動改札だってオムロンだろう。
学生で企業の産業分野BUは見えないにしてもプロジェクトX位見てるだろう?
自動改札みたいな組み込み出さなくても、
オムロンソフトウェアは翻訳魂とかLinux用の
パッケージソフトをいくつか出してたんだが。
うちでは今でも現役だぞ。> 翻訳魂
電動工具のリョービがなんでフォント売ってんだよっていう疑問もある。
釣具も売ってるよ!
俺にとってオムロンはモデムだった
釣具はやっぱりシマノ
オムロンは音声合成もやっとるよ〜
43 :
login:Penguin:2006/10/19(木) 16:12:04 ID:iGPaBe3g
閉鎖ってなってるよ
そろそろ有志による開発が始まろうとしている
mac対応ソフトはあるのに
ocrってなんの略?
OぷてぃCaRu
OnlineChineseRelationship
i am chicken.
52 :
login:Penguin:2006/11/29(水) 21:58:11 ID:HNwoVyRZ
O・C・R!
O・C・R!
53 :
login:Penguin:2006/12/12(火) 21:57:49 ID:YIMQLrAk
読んでココ!
だが断る
なあに、かえって免疫力がつく。
56 :
login:Penguin:2007/07/31(火) 11:55:25 ID:65rFl0Pu
誰か開発しろって言ってるだろ、ボケがぁ!!
欧米語用だけど、ocradはほぼ100%の認識で便利に使えた
最適なdpiを探るのにちょっと時間がかかったけど
日本語用のOCRを激しく希望
58 :
login:Penguin:2007/08/20(月) 17:30:54 ID:sNtfpeym
Wineで使えるか試してみよう。そうしよう。
59 :
login:Penguin:2007/08/22(水) 03:23:21 ID:aaNrdmsM
ウチのスキャナはxsaneが対応してないす・・・
60 :
login:Penguin:2007/08/22(水) 07:43:03 ID:GUTMrRDo
>>59 それはMSの陰謀だからxsaneが悪いわけじゃないし、普及すれば良くなるよ。
>>56『追加』/debian-base.で個人使用、OS.の開発を考えて居るピョぞ¿...コチラオンシンフツウデス…
,..♪
ヾi、ヽ.i
(,.ф ¢ф) зξι ピョピョっと
ミ,.V.ノ
/ ̄″ ̄ ・・・
>>61『追加』/嗚呼¿...コノスレニカンケイナカッタカ+コチラオンシンフツウデス
63 :
login:Penguin:2007/09/06(木) 11:20:11 ID:Fb0o2EnQ
にぽんごがつかえないとイミないヨ
日本語ocr
orz
orz
67 :
login:Penguin:2008/01/20(日) 00:17:49 ID:EQfjQT28
VMWareでゲイツOS動かして(ry
ド素人が
SCSI接続のスキャナーを
にんしきさせるのは
むずかしいですか?
69 :
login:Penguin:2008/03/09(日) 19:24:23 ID:WzCSxsqB
DVD番KNOPPIXで起動してgimp起動してみる。
運よければ認識する。
>>68 昔はUSB接続のスキャナよりもSCSI接続の方が遙かに簡単だったけど。
saneでサポートされている機種ならなんにもしなくて認識すると思う。
サポートされてない機種は難しい。
USBでもSCSIで同じだと思う。
72 :
login:Penguin:2008/07/05(土) 10:00:21 ID:p3OIquvj
まだあったのか、このスレ・・・
73 :
login:Penguin:2008/07/06(日) 18:27:56 ID:4bK5eKwt
fedora core 8 に入っているデバイスドライバで対応しているスキャナの一覧知りたい
エプソンの古いスキャナはエプソンコーワがドライバを出してたので
相性が良さそうに思う。
それ以外はお金払ってVueScanを使うとよいと思う。
こいつのおかげで拾ってきたフィルムスキャナが使えて大喜び。
とりあえずこれだけは言える。
俺の人生にはいいことはなかったし、これからもない。
78 :
login:Penguin:2008/11/28(金) 20:30:26 ID:U80ZIjo0
Linuxは普及しないと思いました。
79 :
login:Penguin:2009/05/18(月) 13:30:25 ID:32LxwiHT
http://sourceforge.jp/forum/forum.php?forum_id=18640 NHocrのソースコードを初公開 (ver 0.16(beta))
投稿者: hgot
日付: 2009-05-15 18:56
日本語文字認識プログラムNHocrのソースコードを初公開しました (ver 0.16(beta))。
Solaris SPARC/x86, Linux (x86_64)上で動作確認済みです。OCRopusからの呼び出し
が可能です。文字行認識部がライブラリ化されており、自作プログラムからの利用も
容易です。
OCRって使わないほうがいいのかなと最近思う。
認識ミスはかならず起こるから、結局人間の目で検査することになるよね。
ところが似たような形ゆえに誤認識してるわけだから間違い探しが大変。
82 :
login:Penguin:2009/05/19(火) 22:47:05 ID:VdrLajQJ
>>79 これいいですね。
試しに使ってみましたが、Windowsで認識率No.1を誇る本格読取の約200倍の
認識精度でした。
取り扱いも容易だし、このためだけにLinuxを導入する場合も出てくるのでは
ないでしょうか?
キラーアプリと言って差し支えないと思います。
>>82 つまり、本当は、使い物にならないレベルってこと?
市販品には勝てんな。
85 :
login:Penguin:2009/07/05(日) 07:38:52 ID:p3XE0Qtt
自分で作るしかないな。
87 :
login:Penguin:2009/07/08(水) 08:29:23 ID:MYN3KcvK
>>85 学習が進むと市販製品より3桁精度が上がるぞ。
88 :
login:Penguin:2011/05/24(火) 21:23:27.29 ID:YUPTZaFr
自炊を前提にした一括スキャン・PDF化はLinuxじゃできないのか…
本1冊くらいなら根性で何とかなりそうだが、
本棚まるまる自炊は現実的じゃなさそうだな
89 :
login:Penguin:2011/05/25(水) 18:39:39.14 ID:n6vorquV
読取革命のOCRはWineで動いたよ。
スキャナからの直接読み取りはできないし、メニューも文字化けしたけど。
Linux側のスキャンソフトでスキャンしたあと、読取革命にシェルスクリプトで
渡せそうな気もするが、そこまで試してはいないけどね。
Googleが開発してるやつが日本語対応してるよ。
91 :
login:Penguin:2011/06/03(金) 20:26:04.94 ID:vne5pZaw
DR-150のドライバの更新まだー
>>91 昔saneの作者宛てに実機送れ(寄贈)ばドライバ書いてくれるって見たことがある。
送ってみれば?
>>92 いっぱい送られてきたら作者は邪魔じゃないのか
着払いで送り返してもらった方が、お互い幸せなんじゃないか
gscan2pdfのOCR機能をtesseract-ocrで日本語認識できるようにしてみた
以下いい加減なパッチ
*** gscan2pdf 2011-10-08 05:36:43.218863368 +0900
--- /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
***************
*** 153,159 ****
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
- use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
--- 153,158 ----
***************
*** 223,229 ****
# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "ja_JP.UTF-8" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";
逆だった
*** /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
--- gscan2pdf 2011-10-08 05:36:43.218863368 +0900
***************
*** 153,158 ****
--- 153,159 ----
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
+ use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
***************
*** 222,228 ****
# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "C" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";
***************
*** 2730,2735 ****
--- 2731,2737 ----
send( $parent, '0' . $d->get('Setting up PDF'), 0 );
my $pdf = PDF::API2->new( -file => $filename );
$pdf->info( get_PDF_options() );
+ $pdf->cjkfont('KozMin');
foreach (@pagelist) {
++$page;
***************
*** 2854,2860 ****
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! my $font = $pdf->corefont('Times-Roman');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;
--- 2856,2863 ----
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! # my $font = $pdf->corefont('Times-Roman');
! my $font = $pdf->cjkfont('KozMin');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;
***************
*** 11073,11079 ****
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt$post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {
--- 11076,11082 ----
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt -l jpn $post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {
***************
*** 11278,11283 ****
--- 11281,11287 ----
deu => $d->get('German'),
'deu-f' => $d->get('German (Fraktur)'),
eng => $d->get('English'),
+ jpn => $d->get('Japanese'),
fra => $d->get('French'),
ita => $d->get('Italian'),
nld => $d->get('Dutch'),
***************
*** 11318,11324 ****
}
# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('English') ] if ( !@tesslang );
my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );
--- 11322,11328 ----
}
# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('Japanese') ] if ( !@tesslang );
my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );
***************
*** 11343,11348 ****
--- 11347,11353 ----
fra => $d->get('French'),
rus => $d->get('Russian'),
swe => $d->get('Swedish'),
+ jpn => $d->get('Japanese'),
spa => $d->get('Spanish'),
ita => $d->get('Italian'),
ruseng => $d->get('Russian+English'),
以上。・・・ただし、OCRが使いものになると思ってはいけない・・・。
101 :
login:Penguin:2011/10/08(土) 06:40:59.20 ID:fjbb6eBR
いちおう上げとく
バイナリ欲しい
103 :
login:Penguin:2012/04/23(月) 15:36:03.51 ID:dZtzn7Vo
Mac用のTessOCR使えないかなJavaらしいが起動しないw
104 :
login:Penguin:2012/09/10(月) 01:59:55.28 ID:JMuNh7SD
ScanSnapS300をただで入手しちゃったから、いじってたんだけど
どうも、読み取り範囲の指定ができないみたい。
gscan2pdfで正常に読み取れないみたい(simplescanとかxsaneはOK)
ローラーの汚れと摩耗で傾くのはどうしようも無い。
けっこう雑誌の荒い紙は綺麗には読み込めない。
とか悩んでたんだけど、scantailorを使ってみたら、楽すぎてワロタ。
Linuxで自炊とかいうスレ立てたほうがいい?
興味はあるがLinuxの自炊派人口はどのくらいいるのかねえ
ドキュメントスキャナの対応状況が調べてもほとんど見えてこなくて手を出せずにいる
同じく興味あるけどこのスレでいいんじゃないかって気も
107 :
104:2012/09/11(火) 19:54:30.28 ID:B9PNTbbM
実際に、雑誌の誌面を100枚ほど処理してみたけど
scantailorの範囲選択が、自動まかせだと
おかしなことになることがある。
特に、周辺に余白の無い、広告ページとかアクションシーン。
傾き補正も、マンガではよくある。傾いた建物などで誤動作する。
全部自動任せでやるには
スキャン段階で、傾かず、位置ズレせず、が理想だな。やっぱり。
でも、中古スキャナーのADFで、傾かないってのは無理くさい。ローラー拭いたら緩和するけどね。
ちなみに、ScanSnapシリーズはファームウェアを
Windows用ドライバーから取り出す必要がある。うちはWine併用で導入。
一旦取り出してしまえば、dynabookAZでも、ScanSnapS300を動かせた。
まぁ、512MBしか無いARM機で、大仕事はできないけどね。
EP-901Aは片面しか読めないけど、何の手間もかからずにUbuntu12.04LTSで使えた。
ただ、さすがジャンク入手、不調で、端っこ5%くらいが読み取りできない orz
ディストリビュータにより、差が出てくるな。
何と行っても、Ubuntu+hpのhp製スキャナー・プリンタ複合機、
この組み合わせ最強。
いくら複合機の相性が良くても、自炊を全体に考えたら論外だからなあ
gscan2pdfって、もしかしてシングルスレッド?
4コアあるんだけど、負荷見ると、普通に1コアしか使っていないっぽい。
300ページくらいやってみたら、えらい時間かかる。
寝ている間に、scantailorの出力を終えて
今朝、起き抜けにPDFにしてみたんだけど、出勤時間までに終わらんかった orz
買ったばっかりの雑誌を持ち歩く手段としては、かなり厳しいなぁ。