グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果

このエントリーをはてなブックマークに追加
1 留学生(愛知県)
グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。
例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かる
データだ。インターネットで収集した膨大な日本語データを解析することで作成した。勤務時間の20%を自分
の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。

N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と
「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから
正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、
有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。

どの語とどの語が連続して出現しやすいかは、膨大な量の言語データを解析して導き出すのが一般的。
グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。
1〜7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。

データは、特定非営利活動法人 言語資源協会の「言語資源流通サービス」を利用して公開。
団体/個人の区別なく利用できるという。

データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と賀沢秀人氏。
いずれも自然言語処理などの分野で実績のある技術者である。

http://itpro.nikkeibp.co.jp/article/NEWS/20071101/286215/

Google Japan Blog: 大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html

依頼
http://news23.2ch.net/test/read.cgi/news/1193766922/300
2 すくつ(東京都):2007/11/02(金) 05:06:36 ID:1nhk89dX0
⊂( ゚ω゚ )⊃
3 美容部員(京都府):2007/11/02(金) 05:06:59 ID:rNiGeSb+0
+民脂肪wwwwwwwwww
4 与党系(東京都):2007/11/02(金) 05:07:05 ID:7pY2VfJy0
初音ミク
5 わけ(山陰地方):2007/11/02(金) 05:07:37 ID:R3neZDdG0
その20%で2ちゃんやってます
6 浴衣美人(東日本):2007/11/02(金) 05:08:01 ID:aSwRPgcl0
初音

7 外資系会社勤務(ネブラスカ州):2007/11/02(金) 05:08:37 ID:fR2bQzTwO
日本は→賠償しる
8 留学生(大阪府):2007/11/02(金) 05:08:50 ID:9mIJREYl0
気持ちいい オナニ

検索結果 オナホ
9 探検家(コネチカット州):2007/11/02(金) 05:10:36 ID:NoFzln9FO
グーグルで まできたら 検索 に決まってるじゃん?
車を?って訊かれたら 運転するって答えるだろ
10 留学生(大阪府):2007/11/02(金) 05:12:20 ID:9mIJREYl0
グーグル 解除 無修正
11 外資系会社勤務(ネブラスカ州):2007/11/02(金) 05:12:40 ID:fR2bQzTwO
>>9

ウェブ結果:*
'グーグルで抜いた'
約2,150件中1 - 10件目

12 ゴーストライター(東京都):2007/11/02(金) 05:13:53 ID:eVTqV88T0
関連検索: 愛子様 自閉症, 愛子様 障害, 愛子様 アスペルガー, 愛子様 おもちゃ,
13 会社役員(樺太):2007/11/02(金) 05:15:15 ID:QfJmEjDYO
>>9
車を買う
車を売る
車を性の対象として見る
14 みどりのおばさん(千葉県):2007/11/02(金) 05:16:18 ID:GuSsCa1Y0
あなたを犯人です
15 付き人(京都府):2007/11/02(金) 05:16:49 ID:RpfuEYVj0
信頼性も20%
16 役場勤務(アラバマ州):2007/11/02(金) 05:17:01 ID:zxKGGmln0
Web日本語Nグラム第1版

【Description】
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。
ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。
【Creator】
グーグル株式会社
【Price】
商用利用不可。学術目的限定。
個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。別途、送料3,150円。
【Date】
2007/7
【Format】
6 DVD-R (26GB gzipで圧縮済み)
【Format.encoding】
UTF8
【Language】
Japanese


容量スゴス
17 電気店勤務(catv?):2007/11/02(金) 05:17:21 ID:vguGQI4Z0
20パーセントる〜るぅ
18 果汁(山梨県):2007/11/02(金) 05:21:57 ID:VSdCgqNn0
お前らグーグルに挑戦しろ

ν速 で
19( ○ ´ ー ` ○ ) はスバラシイ:2007/11/02(金) 05:23:43 ID:STRsqsyk0 BE:15733474-PLT(12000)
>16
グーグルなのにお金とるのか、
見損なった。
20 留学生(宮城県):2007/11/02(金) 05:24:23 ID:7aRcS6mr0
ん〜?本家google.comの先読み検索みたいなやつのことを言っているのかね?
ちょっと感心した覚えがありますね。ちなみに日本語でもできたんだが。
21 女性音楽教諭(長屋):2007/11/02(金) 05:26:08 ID:eiN48jfT0
>>19
> 特定非営利活動法人 言語資源協会の「言語資源流通サービス」
の利用料だろ?
22 名誉教授(東京都):2007/11/02(金) 05:26:17 ID:JcL/uXFEP
Google-IMEjp作って、ATOK(笑)を潰して欲しい
23 グラドル(樺太):2007/11/02(金) 05:26:38 ID:dWu4kktdO
コーパスか
24 2ch中毒(ネブラスカ州):2007/11/02(金) 05:27:33 ID:RXxxFu7WO
ツールバーに単語をいれると顕著にでるな
25( ○ ´ ー ` ○ ) はスバラシイ:2007/11/02(金) 05:29:12 ID:STRsqsyk0 BE:11800073-PLT(12000)
>21
早とちりしてしまったべ( ● ´ ー ` ● ;)
グーグルで公開すればいいのになあ、
個人的な研究だからって事なのかな。
26 養鶏業(愛知県):2007/11/02(金) 05:30:56 ID:am5BK8k60
何年か前、もっと小規模にだけどやってみたことがある。
ネット全体を探索すると品の無い単語が多すぎるのでやめた。
処理速度も容量も精度も、何より俺の技術が全然足りなかったが。
27 俳優(岡山県):2007/11/02(金) 05:34:36 ID:D/EFMDaG0
20%の時間を違う知的技術に使うなんて・・・変態!
28 養鶏業(東京都):2007/11/02(金) 05:35:34 ID:Gw9zeNh00
> 勤務時間の20%を自分の好きなことに使える
いいなぁ
29 プロガー(福岡県):2007/11/02(金) 05:40:47 ID:3IKztU+O0
>勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)
>によって生まれた成果だという。
勤労時間8時間として、その20%ってことは96分か。
いいなぁ
おれもグーグル入りたいなぁ
でも俺の場合2chしかしないだろうなぁ
30 ネットカフェ難民(神奈川県):2007/11/02(金) 05:41:58 ID:6QTaHcQz0
20%ルールでGmailだのGoogleTalkだのが出来たのに、+の初音ミクスレで
「Gmailはメールを全て監視するために電通がGoogleに金を払って作ってもらった」みたいなデマが流れててワロタ
31 今年も留年(catv?):2007/11/02(金) 05:42:23 ID:bD9cffRf0

 ほぼ独占だから出来る事

 高級官僚となんらかわらん
32 チャイドル(樺太):2007/11/02(金) 05:46:16 ID:E/zWUvYpO
>>30
電通ワールドワイド過ぎワロタ
33 プロガー(福岡県):2007/11/02(金) 05:48:10 ID:3IKztU+O0
>>30
うちのオヤジはエシュロンの陰謀とか言ってたw
34 女子高生(静岡県):2007/11/02(金) 05:51:09 ID:uQs7gv1k0
勤務時間の20%も仕事してるかなあ俺…
35 F-15K(dion軍):2007/11/02(金) 05:55:05 ID:3ANEQqaQ0
専ブラたちあげてる時間の20%を利用して何かできるかな
36 釣氏(東京都):2007/11/02(金) 05:56:03 ID:UUpEtI5k0
>勤務時間の20%を自分の好きなことに使える

         ∧_∧   ┌────────────
       ◯( ´∀` )◯ < 僕は、昼寝ちゃん!
        \    /  └────────────
       _/ __ \_
      (_/   \_)
           lll
37 事情通(長屋):2007/11/02(金) 06:14:32 ID:SctYUuC80
MeCabの人か
38 国際審判(東京都):2007/11/02(金) 06:28:28 ID:LBd7WStB0
高いよ
39 踊り子(埼玉県):2007/11/02(金) 06:29:01 ID:9E+Hdv/h0
画像で画像を検索する機能はまだかよ、使えねー奴らだな
40 船員(千葉県):2007/11/02(金) 06:31:37 ID:uoJPf0Ef0
グーグルもつぶれるな。
41 イタコ(茨城県):2007/11/02(金) 06:36:39 ID:6xeDg2g30
結局いくら払えば使えるんだ?
会員でも21000円?
会員って何の会員?
42 守備隊(樺太):2007/11/02(金) 06:42:15 ID:fKvLCB74O
Googleの仕事って基本的になんなんだ?
43 選挙運動員♀(東京都):2007/11/02(金) 06:44:47 ID:aclh+XpI0
自宅警備員のみなさんには既に90%ルールが適用されております
44 塗装工(大阪府):2007/11/02(金) 06:46:53 ID:DdMmCIq90
100%じゃないんだ。
45 乳母(樺太):2007/11/02(金) 06:53:38 ID:/qWO84tIO
その20%の時間に初音ミクをNGフィルタにこっそりぶちこんだ奴がいる、と
46 日本語習得中(東京都):2007/11/02(金) 06:55:13 ID:FzYgLZjX0
その20%をさぼってるからあんなに検索精度が低いんだなw
47 医師(鳥取県):2007/11/02(金) 06:56:38 ID:XZoDL8j/0
M$が先に出してくると思ったが今回がググルが先立ったな
48 職業訓練指導員(鳥取県):2007/11/02(金) 06:57:27 ID:cje+1egg0
>>42
お金儲け
49 酪農研修生(神奈川県):2007/11/02(金) 07:00:01 ID:kIm37Ey90
公開とか言うからネットから見れると思ったら
通販だし…

しかも商用利用禁止

馬鹿か、アホかと
50 会社員(アラバマ州)
"!!1"で検索したくてもできないグーグルは糞