OCR速報 原子力ではなく原子カ(か)問題 やはりGoogleのOCRが原因だった

このエントリーをはてなブックマークに追加
1的井 圭一
2番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:44:53.19 ID:/FvykxRh0
Google検索で出るヤツは全部そうに決まってるだろ

だが、規制委員会のストロンチウムだけはもっと騒いでいい
3番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:47:31.42 ID:lhlfkzUE0
ストロンチウムのやつは意図的じゃないとできないわな
4番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:48:58.48 ID:AfKht9Xh0
まーたOCRも知らない嫌儲ジジイが敗北したのか
5番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:54:46.61 ID:L7+fML4U0
なんでストロンチウムだけ異字にしたの?
プルトニウムとかトリチウムとかは異字じゃなかったんでしょ?
ストロンチウムの何が特別なの
6番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:55:39.44 ID:yeegoLOe0
効きすぎだな
7番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:56:19.32 ID:+evuZf0r0
Twitterは有カなソ一ス
8番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 17:56:46.15 ID:4TyxvXCL0
>>2
これ
9番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:01:55.89 ID:8UvNDrEB0
秘匿する価値もないくだらない文章しかヒットしなかったもんなあ
陰謀論厨はミク騒動の時もそうだけど
どうして単純なことが原因と考えずに何か大きな力があると考えたがるのかね
10番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:04:55.64 ID:9C9/jhEh0
ケンモメンに都合の悪いスレは伸びません

この件で左翼連中の有名人でツイートしたやついないの?
晒せよ
11番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:05:18.15 ID:wNTdyVal0
>>2
ほんこれ
12番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:07:33.27 ID:P7nFjpq90
http://www.itmedia.co.jp/news/articles/1406/10/news067.html

同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、
この会議は資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、
OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。

OCRのせいにするのは無理ないかこれ
13番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:08:54.52 ID:3m09Leyr0
ツブヤキ印
14番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:10:20.87 ID:sdET0H4L0
やっぱ放射脳って馬鹿だわ
15番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:10:30.56 ID:jzVWvHAg0
>>12
無理があるよ
16番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:10:58.92 ID:/mJYqB5e0
言い訳がエクストリームすぎる
17番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:12:39.85 ID:d5u5+L/E0
>>12
>同庁の広報担当者は「こちらのミスで申し訳ない」と話している。

あー、こういうの悔しさで歯茎から血が出るほど歯ぎしりしてんだろうなー
どうせ原子カをゲンシカと読む奴なんか居ないんだからいいじゃん
19番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:15:18.67 ID:g8V/r8aLi
内校くらいしろってw
20番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:16:54.99 ID:8UvNDrEB0
【OCR】東京電力の力を片仮名のカ「東京電カ」にすると… ★2
ttp://fox.2ch.net/test/read.cgi/poverty/1402250690/

564 名前:番組の途中ですがアフィサイトへの転載は禁止です[sage] 投稿日:2014/06/09(月) 06:30:16.32 ID:oAr02FWb0 [2/3] (PC)
ストロンチウムの件はホームページ担当の官僚がミスっただけじゃねえのか
さぼってOCRで読み込んだ文書をろくにチェックせずに公開したんだろ
たぶん指摘したらすぐ直るぞ

567 名前:番組の途中ですがアフィサイトへの転載は禁止です[] 投稿日:2014/06/09(月) 06:33:09.70 ID:jexnsudU0 [3/3] (PC)
>>564
ははは
そんなに官僚は馬鹿じゃないよw


馬鹿だった
21番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:18:54.55 ID:/uYMxf0K0
____
タヒ
22番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:20:42.99 ID:EsD+cmtI0
なんでもいいが訂正はしたんだろうな?
23番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:22:39.47 ID:lhlfkzUE0
>>12
「ストロンチウム」わざわざを変な文字に変換する辞書を搭載したOCRソフトは存在しないだろうな
無理があるというより悪意を感じる言い訳だな
24番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:22:44.47 ID:TkJOgjZ60
グーグルじゃなくて自分とこのタイトルが間違ってたんだろ
嘘付くなや
25番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:23:14.48 ID:OAbW26K00
スボククチンチウムは忘れないよ、絶対に
26番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:32:23.93 ID:7lz6vbW30
OCRだったとして自分とこの資料すらまともに直せないって大手企業としてどーなのよ
サイト内の検索窓で「ストロンチウム分析」ってすればスボククチンチウム
ってかいてあったやつも当該ファイルにたどり着けるのになんで嫌儲民が怒ってたのかわからんw
ペルーの件もあるし最近負け続きやなw
28番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:34:26.84 ID:+evuZf0r0
ムも厶(ボウ)にならないなんて都合のいいOCRだな
29番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:34:32.88 ID:iFYACQOF0
ベクレルもベクレノレでhitするしな
「単位」ですら「単イ立」になるとか馬鹿かよ
31番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:39:43.05 ID:HV56sdZ30
>>29
これ思い出した
http://www.poeyama.com/gonorego/
32番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:43:13.10 ID:ELzq6mx60
goog1eもグノレだったってこと?
33番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:46:42.53 ID:pB7Picnb0
理エ学部とかちょくちょくあるよ
34番糸且の途中ですガアワィサイ卜ヘの車云載は禁止です:2014/06/10(火) 18:50:46.10 ID:+pHlmmkI0
放射性ヨウ素→「放射性ヨ ウ素」
検査→「検杢」
ベクレル→「ペク レスレ」「ベクレノレ」
google の検索結果が直で pdf にリンクしている場合には、以下の二つのケースが考えれる
・pdf がもともと文書をスキャンした画像データ (google 側で OCR)
・pdf がコピペ禁止 (編集禁止)
 この場合、元pdf の編集禁止フラグは尊重しなければならないのでpdf のテキストデータをgoogle は使えない
 そこで、一旦pdf をレンダリングして OCR

幾つか pdf を見てみたけど、いずれもこの2つのパターンのどちらかだった。
全部がそうとは思えないがw
>>29
トル工ン pdf で検索すると

ホルムアルデヒ ドカ主卜丿し工ン等

なんてのがヒットするしなw
37番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 18:53:05.01 ID:MFRNhIT+0
ス卜口ンチウムのはPDFの中身じゃなくてHTMLの見出しでしょ?
そこは何でOCRに関係するんだ?
>>37
これはリンク元ページが意図的にやってる
OCR 関係ない
>>37

HTMLの見出しが違っててもちゃんとリンク先のファイルはサイト内でもサイト外でも
検索ヒットして閲覧もできるんだから問題ないじゃん。なんで陰謀論になるのかさっぱりわからん
ゴノレゴ
41番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:09:51.44 ID:gpHGfsEu0
何でOCRが必要なんだ
42番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:15:14.47 ID:HYdwBfpz0
剛剣ゲンシカムラ
案の定OCRだったな
バカしかいない
原子力規制委員会のページってGoogleが作ってるの?
意味わからんのだけど。
45番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:19:46.56 ID:4rp+y/NE0
TPP

丁PP

これも違う結果が出る
46番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:20:56.00 ID:gpHGfsEu0
PDFなら文字は文字のまま保存できるだろ
テキストが読みとれないタイプのPDFをGoogleがOCRしてるんだろ
そもそも元のPDFで原子カみたいなテキストがあったのか確かめたか?
48番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:24:22.03 ID:CgyTknXi0
GoogleのOCRじゃなく、元の資料のOCRが原因だろ?
陰謀論や放射脳に陥る人って基本的に情弱なんだな。
情弱だから思いこみが激しくすぐに陰謀論に走るし、
放射線の何が危険で何が問題ないかも区別つかないんだよなあ。
今回の件で、反原発とケンモメンには
バカが多いという事実が浮き彫りになったね
しかもそいつらは全く人の話を聞かずにレッテルを貼りまくる
ネトウヨ並みのクズだった
51番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:29:48.84 ID:BEJwJ8qM0
なんでOCRなんか使ってるんだよ・・・
元の電子データでやり取りしろ
52番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:33:47.26 ID:gpHGfsEu0
>>35
尊重するならOCRを使ったコピーもダメだろw
53番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:35:41.45 ID:L7+fML4U0
そろそろ「ストロンチウム」が文書中で検索出来ないと困る理由を教えてもらえないだろうか
54番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:36:47.50 ID:p6enqR3K0
あーやっぱハングルハチマキが騒いでただけか・・
55番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:37:31.53 ID:lwWXqnCa0
>>45
ていぴーぴー
56番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:38:31.56 ID:WjQ5P+Ky0
いつのまに黙ってスボククチウム規制委サイト直してるなwwwwwwワロタwww
57番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:38:39.23 ID:uNVG0C530
単純な間違いすら気がつかないわけねえだろ
58番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:42:21.32 ID:b9Wla8UT0
>>23
AdobeのAcrobatの辞書にはなかったけど

あと日本語OCRソフトってパナの奴とイータイピストだっけ?くらいだろ
ストロンチウムが辞書に含まれるかは割と簡単に調査できるのに陰謀論者はしないの?
俺は面倒だからしないけど
ス卜口ンチウムはgoogle関係ないぞ?
60番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:50:20.65 ID:VjDXCE49O
こんな単純なミスに釣られたお前等もお前等だが、こんな単純なミスを犯す官僚がいる国が原発運用なんて無理だな
61番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:53:08.12 ID:OV9H4Rd+0
>>2
PDFは良いとしてこれはどういうことなの?
62番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:56:06.68 ID:YxEMaIPg0
早速、火消しに必死だな。
原子力規制委員会w
63番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 19:59:09.58 ID:b9Wla8UT0
>>61
マジレスしといてやるとOCRソフトでpdfファイルを作るとファイル名はヘッダから取られる
普通はヘッダは見出しから取られる
つまりOCRで認識された見出しの文字列がそのままファイル名になる

http://www.nsr.go.jp/committee/yuushikisya/tokutei_kanshi_wg/20140124.html

これの問題になってるストロンチウムのpdfを開けばわかるが
ファイル名は明らかに一枚目の見出しと同一
64番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 20:03:50.48 ID:z/YwLucF0
Google の作ってる OCR プログラムは、rn と m は間違いやすい、みたいな類似文字列のデータ持ってんじゃん
これそのまま流用して、検索するときにも考慮してくれたらいいのに
間違えやすい文字は前後で辞書検索して最適なほうを選択すりゃいいのにな

卜→トは無いんでしょ?
>>63
テキストなんだが。しかも編集禁止でもないんだが
OCR が入る余地なんかねえよ
67番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 20:07:33.43 ID:pxuLsJPE0
工作だと主張する人に聞きたい。

単純に表題でストロンチウムを用いなければ、検索にも出ず小細工の必要もなく済んだ話なのに
なぜわざわざ、表題でストロンチウムと記したうえで、
後からリンクの文字のみをわざと変更するという無駄なことをやったというのか。
68番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 20:13:18.06 ID:L7+fML4U0
内容に問題でもあったのかな?
でもなきゃストロンチウムに異字を使って問題になるような事態が思い付かないんだが
火消しきてるなw
70番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 20:16:02.65 ID:PJHG3Vm90


ンチウム
71番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 20:19:30.37 ID:bOHwyrA90
そういえばグーグルはPDFファイルはOCRで変換してデータ化するんだったな
うまく仕様の穴をついた東電らしいやり方に思える
まーたメルカトル速報の再来か
普段Twitter民をバカッターとかいって馬鹿にしてる癖にな
そもそも問題になる内容なら公表しないという選択肢だってあったはずだが。
>>73
一番の矛盾がそこなんだよな。
情報公開請求すれば元データ含めて全部情報が手に入ることはわかってるわけだからなおさらごまかす意味がない。
75番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 21:59:10.79 ID:b9Wla8UT0
>>66
GoogleのOCRと省庁のOCRの問題をごっちゃにしてないか?

GoogleのOCRの問題は省庁が公開したpdfにテキストデータがなかったり編集不可だったりしたから
Googleが自前のOCRで検索可能なテキストを生成した結果、文字化けが起きたって問題

省庁のOCRの問題は、紙資料をpdf化してWebで公開する際に文字化けが起きたって問題
Webページ上のファイル名表記が誤っていたストロンチウムはこっち
なんでそうなったのかは>>63に書いた通り

これで理解できなきゃもう付ける薬はないな
76番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 22:00:04.67 ID:v9dqf9iB0
問題になってたのはストロンチウムの口だったろうが
それもHTMLのやつ
77番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 22:01:44.74 ID:HNKjR2Nc0
ス卜口ソテウム
78番組の途中ですがアフィサイトへの転載は禁止です:2014/06/10(火) 22:02:17.56 ID:Ii4bhOnn0
>>74
情報公開請求に期待しすぎ

もともと電子データであるものを紙でしかもらえないって糞すぎだろ
>>75
>省庁のOCRの問題は、紙資料をpdf化してWebで公開する際に文字化けが起きたって問題
>Webページ上のファイル名表記が誤っていたストロンチウムはこっち
リンク先のpdfファイルの中身みたか?
表題はテキスト。ストロンチウムの「ト」も「ロ」もカタカナ。
リンクを張る辞典では当然このファイルを持ってるはずでよね?
何でわざわざ「画像データをOCR」で読み込むの。pfd 開いてコピペするよね、普通。
>>79 に追加
あと、この pdf の中身が元々ス「ボク」「クチ」ロンチウムで、昨日今日に修正して差し替えたとか言うなよ
さっきhttp ヘッダ調べたが 最終更新タグ (Last Modified) が Fri, 24 Jan 2014 02:58:16
会議当日に作られた資料だから
81番組の途中ですがアフィサイトへの転載は禁止です:2014/06/11(水) 00:14:18.65 ID:nXetsnDk0
どうでもいいからジャップ叩こうぜ

俺たちはケンモメンだろ?
82番組の途中ですがアフィサイトへの転載は禁止です:2014/06/11(水) 00:18:58.18 ID:DknsMIRd0
原子力関連は不可解な金、人の流れが多すぎてヤバイ
アフィカスとホットリンクの工作部隊が湧いちゃうな
84番組の途中ですがアフィサイトへの転載は禁止です:2014/06/11(水) 04:45:20.36 ID:pWEJ0KL80
>>39
例えばストロンチウムの危険性を知って、福一の情報見たい時、「ストロンチウム 福島」で検索するとする
PDFは文字データが生きているからそれを元にインデックス化してるので検索で出るが、そのPDFへリンクさせている原子力規制委員会のページはヒットしない(現在は修正されたのでそのうち出るようになる)

PDFは東電が作ったものでロゴも社名も入っており、ちゃんとURLを見てなければ東電のサイトからダウンロードしたように見え、原子力規制委員会は何の関係もないように見える
このPDFは東電サイトにも置いてあって、これも同じ検索結果でヒットする

原子力規制委員会のWebを監視してるような層にはお前さんの言うとおり関係ない話だが、たまたま検索しただけの層には少しニュアンスが変わって伝わる可能性がある

Googleが勝手に誤変換した話とは違って、何らかの意図がなければこんな間違いは有り得ない(精査もしてないし、騒いだ途端に修正された)わけで、
もしかすると何らかの理由で「ストロンチウム」の検索で出たこのPDFファイルの内容がアレで、原子力規制委員会とは無関係を装いたかったのではないのかとか、
ストロンチウムそのもののヒット数を減らしたかったのではないかとか、その辺が疑惑の焦点になる

陰謀論はもちろん推測の域を出てないし、擁護論も当然推測の域を出てないから、これについてアレコレ推測するのは無意味だが、
原子力規制委員会に対して、この間違いは何故起きたのかを問うて釈明を求めることには、それなりに意味はあるんじゃないかね

どうせ大した回答は出ないだろうがな
85番組の途中ですがアフィサイトへの転載は禁止です:2014/06/11(水) 04:47:50.26 ID:rKwIxCdi0
ジャップgoogleだからな、東電と政府の言いなりに決まってんだろ
86番組の途中ですがアフィサイトへの転載は禁止です
最近のgodogle様は他所のwebサイト勝手に改変するのか