グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果
1 :
留学生(愛知県):
グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。
例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かる
データだ。インターネットで収集した膨大な日本語データを解析することで作成した。勤務時間の20%を自分
の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。
N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と
「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから
正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、
有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。
どの語とどの語が連続して出現しやすいかは、膨大な量の言語データを解析して導き出すのが一般的。
グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。
1〜7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。
データは、特定非営利活動法人 言語資源協会の「言語資源流通サービス」を利用して公開。
団体/個人の区別なく利用できるという。
データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と賀沢秀人氏。
いずれも自然言語処理などの分野で実績のある技術者である。
http://itpro.nikkeibp.co.jp/article/NEWS/20071101/286215/ Google Japan Blog: 大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html 依頼
http://news23.2ch.net/test/read.cgi/news/1193766922/300
2 :
すくつ(東京都):2007/11/02(金) 05:06:36 ID:1nhk89dX0
⊂( ゚ω゚ )⊃
3 :
美容部員(京都府):2007/11/02(金) 05:06:59 ID:rNiGeSb+0
+民脂肪wwwwwwwwww
4 :
与党系(東京都):2007/11/02(金) 05:07:05 ID:7pY2VfJy0
初音ミク
5 :
わけ(山陰地方):2007/11/02(金) 05:07:37 ID:R3neZDdG0
その20%で2ちゃんやってます
6 :
浴衣美人(東日本):2007/11/02(金) 05:08:01 ID:aSwRPgcl0
初音
7 :
外資系会社勤務(ネブラスカ州):2007/11/02(金) 05:08:37 ID:fR2bQzTwO
日本は→賠償しる
8 :
留学生(大阪府):2007/11/02(金) 05:08:50 ID:9mIJREYl0
気持ちいい オナニ
検索結果 オナホ
9 :
探検家(コネチカット州):2007/11/02(金) 05:10:36 ID:NoFzln9FO
グーグルで まできたら 検索 に決まってるじゃん?
車を?って訊かれたら 運転するって答えるだろ
10 :
留学生(大阪府):2007/11/02(金) 05:12:20 ID:9mIJREYl0
グーグル 解除 無修正
11 :
外資系会社勤務(ネブラスカ州):2007/11/02(金) 05:12:40 ID:fR2bQzTwO
>>9 ウェブ結果:*
'グーグルで抜いた'
約2,150件中1 - 10件目
関連検索: 愛子様 自閉症, 愛子様 障害, 愛子様 アスペルガー, 愛子様 おもちゃ,
13 :
会社役員(樺太):2007/11/02(金) 05:15:15 ID:QfJmEjDYO
>>9 車を買う
車を売る
車を性の対象として見る
あなたを犯人です
15 :
付き人(京都府):2007/11/02(金) 05:16:49 ID:RpfuEYVj0
信頼性も20%
Web日本語Nグラム第1版
【Description】
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。
ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。
【Creator】
グーグル株式会社
【Price】
商用利用不可。学術目的限定。
個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。別途、送料3,150円。
【Date】
2007/7
【Format】
6 DVD-R (26GB gzipで圧縮済み)
【Format.encoding】
UTF8
【Language】
Japanese
容量スゴス
20パーセントる〜るぅ
18 :
果汁(山梨県):2007/11/02(金) 05:21:57 ID:VSdCgqNn0
お前らグーグルに挑戦しろ
ν速 で
19 :
( ○ ´ ー ` ○ ) はスバラシイ:2007/11/02(金) 05:23:43 ID:STRsqsyk0 BE:15733474-PLT(12000)
>16
グーグルなのにお金とるのか、
見損なった。
20 :
留学生(宮城県):2007/11/02(金) 05:24:23 ID:7aRcS6mr0
ん〜?本家google.comの先読み検索みたいなやつのことを言っているのかね?
ちょっと感心した覚えがありますね。ちなみに日本語でもできたんだが。
>>19 > 特定非営利活動法人 言語資源協会の「言語資源流通サービス」
の利用料だろ?
Google-IMEjp作って、ATOK(笑)を潰して欲しい
23 :
グラドル(樺太):2007/11/02(金) 05:26:38 ID:dWu4kktdO
コーパスか
24 :
2ch中毒(ネブラスカ州):2007/11/02(金) 05:27:33 ID:RXxxFu7WO
ツールバーに単語をいれると顕著にでるな
25 :
( ○ ´ ー ` ○ ) はスバラシイ:2007/11/02(金) 05:29:12 ID:STRsqsyk0 BE:11800073-PLT(12000)
>21
早とちりしてしまったべ( ● ´ ー ` ● ;)
グーグルで公開すればいいのになあ、
個人的な研究だからって事なのかな。
26 :
養鶏業(愛知県):2007/11/02(金) 05:30:56 ID:am5BK8k60
何年か前、もっと小規模にだけどやってみたことがある。
ネット全体を探索すると品の無い単語が多すぎるのでやめた。
処理速度も容量も精度も、何より俺の技術が全然足りなかったが。
27 :
俳優(岡山県):2007/11/02(金) 05:34:36 ID:D/EFMDaG0
20%の時間を違う知的技術に使うなんて・・・変態!
> 勤務時間の20%を自分の好きなことに使える
いいなぁ
29 :
プロガー(福岡県):2007/11/02(金) 05:40:47 ID:3IKztU+O0
>勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)
>によって生まれた成果だという。
勤労時間8時間として、その20%ってことは96分か。
いいなぁ
おれもグーグル入りたいなぁ
でも俺の場合2chしかしないだろうなぁ
30 :
ネットカフェ難民(神奈川県):2007/11/02(金) 05:41:58 ID:6QTaHcQz0
20%ルールでGmailだのGoogleTalkだのが出来たのに、+の初音ミクスレで
「Gmailはメールを全て監視するために電通がGoogleに金を払って作ってもらった」みたいなデマが流れててワロタ
ほぼ独占だから出来る事
高級官僚となんらかわらん
32 :
チャイドル(樺太):2007/11/02(金) 05:46:16 ID:E/zWUvYpO
33 :
プロガー(福岡県):2007/11/02(金) 05:48:10 ID:3IKztU+O0
>>30 うちのオヤジはエシュロンの陰謀とか言ってたw
勤務時間の20%も仕事してるかなあ俺…
35 :
F-15K(dion軍):2007/11/02(金) 05:55:05 ID:3ANEQqaQ0
専ブラたちあげてる時間の20%を利用して何かできるかな
36 :
釣氏(東京都):2007/11/02(金) 05:56:03 ID:UUpEtI5k0
>勤務時間の20%を自分の好きなことに使える
∧_∧ ┌────────────
◯( ´∀` )◯ < 僕は、昼寝ちゃん!
\ / └────────────
_/ __ \_
(_/ \_)
lll
37 :
事情通(長屋):2007/11/02(金) 06:14:32 ID:SctYUuC80
MeCabの人か
38 :
国際審判(東京都):2007/11/02(金) 06:28:28 ID:LBd7WStB0
高いよ
39 :
踊り子(埼玉県):2007/11/02(金) 06:29:01 ID:9E+Hdv/h0
画像で画像を検索する機能はまだかよ、使えねー奴らだな
40 :
船員(千葉県):2007/11/02(金) 06:31:37 ID:uoJPf0Ef0
グーグルもつぶれるな。
41 :
イタコ(茨城県):2007/11/02(金) 06:36:39 ID:6xeDg2g30
結局いくら払えば使えるんだ?
会員でも21000円?
会員って何の会員?
42 :
守備隊(樺太):2007/11/02(金) 06:42:15 ID:fKvLCB74O
Googleの仕事って基本的になんなんだ?
43 :
選挙運動員♀(東京都):2007/11/02(金) 06:44:47 ID:aclh+XpI0
自宅警備員のみなさんには既に90%ルールが適用されております
100%じゃないんだ。
45 :
乳母(樺太):2007/11/02(金) 06:53:38 ID:/qWO84tIO
その20%の時間に初音ミクをNGフィルタにこっそりぶちこんだ奴がいる、と
46 :
日本語習得中(東京都):2007/11/02(金) 06:55:13 ID:FzYgLZjX0
その20%をさぼってるからあんなに検索精度が低いんだなw
47 :
医師(鳥取県):2007/11/02(金) 06:56:38 ID:XZoDL8j/0
M$が先に出してくると思ったが今回がググルが先立ったな
49 :
酪農研修生(神奈川県):2007/11/02(金) 07:00:01 ID:kIm37Ey90
公開とか言うからネットから見れると思ったら
通販だし…
しかも商用利用禁止
馬鹿か、アホかと
50 :
会社員(アラバマ州):
"!!1"で検索したくてもできないグーグルは糞