Google、スキャン文書も検索対象に

このエントリーをはてなブックマークに追加
1 メロン(dion軍)

Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使って
スキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。
これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

http://markezine.jp/article/detail/5822

【依頼スレ17】
2 りんご(長崎県):2008/11/03(月) 13:05:42.82 ID:wxz+9Myc
イヤン
3 サンマ(静岡県):2008/11/03(月) 13:06:06.68 ID:ghcmUfTS
バカン
4 バジル(栃木県):2008/11/03(月) 13:06:19.05 ID:jUddTFlr
そこは
5 アサリ(東京都):2008/11/03(月) 13:08:23.37 ID:utU0/AxE
いい傾向だ
6 ばれいしょ(catv?):2008/11/03(月) 13:10:41.61 ID:BaDIiF3c
これでB-CASの決算書も引っかかるんだな
7 大阪白菜(愛媛県):2008/11/03(月) 13:18:14.49 ID:+an69K0m
はじまったな
8 さつまいも(中部地方):2008/11/03(月) 13:18:46.34 ID:OLXdwYgv
レポートのネタ探すのに役立つかも
9 にんじん(東京都):2008/11/03(月) 13:19:22.19 ID:fg9qF1Fv
そしてその貴重な非公開文書が晒される
10 からし(大阪府):2008/11/03(月) 13:19:24.97 ID:xcPzyuvh
またこれでお宝情報が発掘しやすくなるんだな。
Google先生素敵すなぁ。
11 くわい(新潟県):2008/11/03(月) 13:20:31.41 ID:hpVZJxK5
エロ漫画探すときに便利だなこりゃ
12 キンメダイ(滋賀県):2008/11/03(月) 13:22:03.77 ID:H+NbHnNq
                   ____
欲しいものリスト   ___ ..::/     \ 私は本人の日記や交友関係晒しときますw
公開して      /     \  ─   ─\      ___
おきますねw  /  ─    ─\ ⌒  ⌒  ヽ   /     \
        /    ⌒  ⌒  ヽノ(、_, )ヽ   |  / ―   ― \  キャッシュと鬼畜検索は
        |       ,ノ(、_, )ヽ  |-=ニ=- / /   ⌒  ⌒   ヽ 僕がやっときますねw
        \     -=ニ=-  /:.     <  |     ,ノ(、_, )ヽ    |
         ノ         \⌒ ̄ ⌒⌒〜\    -=ニ=-    /
       〜⌒ ⌒ ̄⌒ ⌒ ̄ ⌒⌒〜 mixi    >         <
           amazon       \   /⌒ ⌒ ̄⌒ ⌒ ̄ ⌒⌒〜
                                 google
13 ほうれんそう(宮城県):2008/11/03(月) 13:24:43.47 ID:YU3FWVzj
おにちくだな
14 ビーツ(神奈川県):2008/11/03(月) 13:25:14.40 ID:u/KGeh7z
おそgoogle
15 かぶ(愛知県):2008/11/03(月) 13:30:23.51 ID:HYJ7Yn4N
16 かぼちゃ(愛知県):2008/11/03(月) 13:34:47.10 ID:u5/Fpc94
グーグル先生の技術力は世界一ィィィィィィィイイ!!
17 チコリ(愛知県):2008/11/03(月) 13:35:07.65 ID:sf7SjqIa
国会図書館のサイトの文書公開システム、どうにかしろよあれ。
重いし画質はクソだし読み進め難いし保存までし難い。
18 からし(静岡県):2008/11/03(月) 13:36:52.19 ID:3j3wzp9Z
アメリカ国防総省ピンチだな
19 エンダイブ(東京都):2008/11/03(月) 13:38:22.96 ID:Xn/Hi24A
>>12
ワロタwww
20 トリュフ(東京都):2008/11/03(月) 13:39:56.48 ID:R7FOfndX
>>12
現代をよく表してるな
21 すだち(アラバマ州):2008/11/03(月) 13:41:57.21 ID:lg9MAO+N
スキャン産駒の最高傑作はメイショウカイドウ
22 すだち(岩手県):2008/11/03(月) 13:51:34.14 ID:mPPvPyiM
そのうちP2Pネット内の情報も検索対象になりそう
23 ハマグリ(岩手県):2008/11/03(月) 14:15:06.62 ID:hbE0qmCc
>貴重な文書を見つけることが容易になった。

俺たちにとって貴重なデータなんだろうな?
24 梨(アラバマ州):2008/11/03(月) 14:36:58.72 ID:it7d3J1j
Googleは本物の事典を作ろうとしているんだよな。
25 かぶ(新潟県):2008/11/03(月) 14:39:22.28 ID:qjQwTAd8
ggrksってホントはgglksじゃないのか?
26 イサキ(神奈川県):2008/11/03(月) 14:40:29.90 ID:5EAVtcJa
テキストから検索されないように

画像としてPDFを作ってるのに余計なことするなよ
27 桃(東京都):2008/11/03(月) 14:40:31.30 ID:9Hl2iY31
週刊誌はその日のうちにスキャンして上げろよ
鮮度が大事なんだよ
28 しゅんぎく(東京都):2008/11/03(月) 14:40:47.16 ID:L0RXDbNX
>>1
>スキャン画像のテキストを検索対象とすることに成功。

成功・・・って、俺んちのプリンタでもできるぜそんなこと。
29 わさび(東京都):2008/11/03(月) 14:41:18.64 ID:6VLe8HaY
お目当てのzipをすぐ見つけ出せるようになるな
30 コウイカ(大阪府):2008/11/03(月) 14:41:26.78 ID:FaJyI39j
テキストなんていらん
写真集とスキャンしてアップしろ
31 びわ(東京都):2008/11/03(月) 14:43:58.93 ID:tM9t1tvR
>>26
馬鹿だろwwww
32 すだち(岡山県):2008/11/03(月) 14:45:00.71 ID:vcjBGAhY
これはよい知らせ
個人情報がもっと見つけやすくなる
33 しょうが(兵庫県):2008/11/03(月) 14:45:28.74 ID:U0/lDIzw
                           l;:;:;:;:;:;:;:;:l;:;:;:;:;:;:;:;:`丶、;:;:;:;l
 __                       ,l;ィ'----┴――--、、;:丶、!
     \ :'´⌒ヽ               ,ノ7 '"^   ^`'   ,ィ'三ミ、_〉  ____
      |i   " )_,,, _           {:/, ニ丶  ,r,=-、 ヾ:::::::ミヾ /
 ま や |i         ヽ         〃ィ'。`>ソ { ィ'。`'ァ::..  !::::::ミ:l |      z
 ろ っ  |i      / ・ i         l:! `~´/ ,l、  ̄´   ,. }:::::三< |. ふ   i
 ち た  |i          t         ll   (、 っ)     : ,l::::シ久'l |. え . p
 ゃ ね  |i         〃 ●       l   ,.,__、     ,:' f::/ン ノ/ |. る  が
 ん    |i   r一 ヽ      )       l 、 f{二ミァ ,)    {,ツ>-‐' < よ
 !    |i   |   i   ∀"        ヽヽ`ー ' : ヽ   ,_ソ/    |. !!
        |i   |    i   ノi          丶、__, -―''" /,/    .|
       |i ニ|   |二二◎        __,..'| /        /   :::: |
       |i  i    i   ヽ      __,,:'´   t/       /    :: |
       li           }    ,_:'´     {    ,,___ /     ,,/i \____
       |i           |  /j\    _:ヘ:ニヽ,,,/_,,    , /:::j      j
  __ /          / ⌒`)⌒) i:::::ヽ::`r‐'___ `   ヽ ,,:_,,_,,/:::::ノ"ノシ    〃
      ,ノ フr フ   メ   / ノ  ゝ:::::: ゝ- 、 ヽ     |::::::::::::::::::::ソ /     ./
34 セロリ(東京都):2008/11/03(月) 14:47:36.22 ID:Pv99WlM0
googleのサーバを全て稼働させてZIP暗号を1分で
解けるようになった方がうれしい
35 イサキ(神奈川県):2008/11/03(月) 14:49:13.98 ID:5EAVtcJa
>>31
36 桃(東京都):2008/11/03(月) 14:51:03.02 ID:9Hl2iY31
pdfは検索に引っかかりますよ
37 キス(関西地方):2008/11/03(月) 14:51:56.24 ID:E6wn7c9m
グーグル先生マジ鬼畜だな
もっとやれ
38 キャベツ(埼玉県):2008/11/03(月) 14:52:43.00 ID:BbMJtILe
mixiとかも検索対象にすればいいのに
39 セロリ(東京都):2008/11/03(月) 14:54:11.71 ID:Pv99WlM0
When there "永遠はあるよ、ここにあるよ" (means "There is the eternity, here in eternity" ?) when I analyzed a text included in the JPG image which circulated most in Japan, according to Google, it was described.
40 ヒジキ(関西・北陸)
またニュー速探偵団のエサが増えるのか