【IT】グーグルが大規模な日本語の解析データ「N-gramデータ」を公開、「20%ルール」の成果 [07/11/01]

このエントリーをはてなブックマークに追加
53名刺は切らしておりまして:2007/11/02(金) 13:55:16 ID:2QWPT7lu
>>1
>勤務時間の20%を自分の好きなことに使える
>同社のルール(いわゆる「20%ルール」)

漏れは個人的に90%ルールでやってる。たまに100%になっちゃう時もある。
今日あたりはちょっと仕事しないと、そろそろ文句言われる。
にもかかわらず、2nnを開きっぱなしの今日この頃、ネット中毒って恐ろしかです。
職を失いそうになります。いやマジで。
54名刺は切らしておりまして:2007/11/02(金) 13:57:05 ID:Bmr+xP7R
>勤務時間の20%を自分の好きなことに使える
>同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。

その20%を利用して初音ミクのサムネイル画像をすげ替えたんですね
55名刺は切らしておりまして:2007/11/02(金) 14:04:36 ID:epcrSHdA
買い現象
なんとかしてくれ。2007年の技術水準がこれかよ。
56名刺は切らしておりまして:2007/11/02(金) 14:25:16 ID:bCS6cGnh
さてはおれのスケベ検索も解析されたんだな
57名刺は切らしておりまして:2007/11/02(金) 14:30:53 ID:V1d9siMA
>>54
やったとすれば普通の業務内容としてだろう
58名刺は切らしておりまして:2007/11/02(金) 15:10:45 ID:JMy6bR4k
これのどこが凄いのか俺にはわからん。
単にデータ処理をこなして、N-gramデータを生成しただけじゃないのか?
それともその過程に凄いテクがつまってんのか?
59名刺は切らしておりまして:2007/11/02(金) 15:25:02 ID:eGPPbnvt
20%ルールは正確には今の自分の業務以外の事を「しなければならない」ものだろ。
何か産み出さないとクビです。
60名刺は切らしておりまして:2007/11/02(金) 15:34:02 ID:J60gtkqK
ヤフーソフトバンクよりはグーグルの方がマシってことか、インテリ度とか学識が
61名刺は切らしておりまして:2007/11/02(金) 15:36:25 ID:YTS3HmYP
>データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と
>賀沢秀人氏。いずれも自然言語処理などの分野で実績のある技術者である。


お二人とも奈良先端科学技術大学院大学(NAIST)の卒業生ですね。
62名刺は切らしておりまして:2007/11/02(金) 15:49:12 ID:DoikaRPx
これが何の役に立つのかさっぱり分からんのだが
63名刺は切らしておりまして:2007/11/02(金) 15:51:48 ID:yyBuwdKH
●とか○とか★とか・とかって
ググっても全く反応してくれなくて困るんだよな
64名刺は切らしておりまして:2007/11/02(金) 15:52:23 ID:QjhzlJoB
もっと国内勢も頑張れよ
情報産業を外資に握られ続けたらヤバいぞ
65名刺は切らしておりまして:2007/11/02(金) 15:54:04 ID:GxcUKWQX
>>62
初音、でミクに続かずにグラビアやAVのお姉ちゃんばかり
表示しても、仕様ですと言い切れるってことだ。違う、、のか?
66名刺は切らしておりまして:2007/11/02(金) 16:06:12 ID:1NmSQ53Y
「初音」と入れると「みう」が予測されるんだろ
67名刺は切らしておりまして:2007/11/02(金) 16:08:06 ID:mK70wAb5
中国はGoogleから提供してもらった検閲技術のノウハウを
アフリカの独裁国に流して、見返りに資源を入手してる。
68名刺は切らしておりまして:2007/11/02(金) 16:26:38 ID:8frsSyku
>>61
NAISTといえばNamazuやGonzuiを作った人もグーグルにいたはず。
69名刺は切らしておりまして:2007/11/02(金) 16:31:46 ID:DIlfI80B
ようするにこの構造化が進んで造語に弱くなったってことか
70名刺は切らしておりまして:2007/11/02(金) 16:41:49 ID:iw1Oe8Uh
どうせ恣意的な操作がされてるんだろ
使えねーよ
71名刺は切らしておりまして:2007/11/02(金) 18:12:56 ID:OecqJZmk
だからお前ら理解できてないならちゃんと調べて書けと。
72名刺は切らしておりまして:2007/11/02(金) 23:06:23 ID:Xp+tVNKi
これはいい!!データ欲しいなぁ〜
結構いいものを公開してくれたなぁ〜
73名刺は切らしておりまして:2007/11/03(土) 01:01:32 ID:T08lv+dQ
>>65
若干マジレス気味(かつ乱暴)に言うなら、
Googleの持ってるウェブ上のデータから、
「初音」の後に「みう」が来る数とか「ミク」が来る数とか
「ちゃん (と いっしょ)」が来る数とかを調べて列挙してある。
これで「初音」の後に何が来やすいか確率的に分かるようになる。
で、これを全ての形態素についてやっている、と。
74名刺は切らしておりまして:2007/11/03(土) 07:38:27 ID:xMC7rb/1
日本のヤフーは何でこれができなかったの?
検索能力に限ればgooにも負けてるし
75名刺は切らしておりまして:2007/11/03(土) 07:43:18 ID:uEICBXgw
検索される単語の大多数をエロ語が占めてるんだろうな。
開発者もエロとの戦い大変だったろ。
76名刺は切らしておりまして:2007/11/03(土) 07:43:27 ID:H3nFnjAf
こんなもん全文検索機能があるDBならどこでももってるやろ
たぶん、肉茎の記者が理解できないだけやろうけどな
77名刺は切らしておりまして:2007/11/03(土) 07:46:37 ID:SkL/KGCo
Googleで、調べる
たらちねの、母
亀田家の、父
ウルトラマン、エイティ
78名刺は切らしておりまして:2007/11/03(土) 08:03:16 ID:RpBk1A/C
2ちゃんのデータがかなり情報のダメダメさに貢献してる希ガス
79名刺は切らしておりまして:2007/11/03(土) 09:51:58 ID:g44BO2VU
先月のあの事件から他サイトもいくつか併用する習慣がついてきたが
登場時のググる先生の幻影に惑わされていたのを非常に実感したわ。

グーグルでみつからなかったからあきらめようってのは洗脳されてたんだなぁ。。
ちょっと変わった調べかたしたい時ってびっくりするほどグーグルって駄目なのね
80名刺は切らしておりまして:2007/11/03(土) 10:02:46 ID:bF36xC8Z
親切に表示してるようで
実は、都合のいい検索結果へ誘導してるようにも思えてくる
81名刺は切らしておりまして:2007/11/03(土) 10:05:15 ID:CPti9mqe
1-gram目 「グーグル」
2-gram目 「で」「の」「八分」
82名刺は切らしておりまして:2007/11/03(土) 10:13:56 ID:HWESw3Dr
いまだにグーグルがホームポジションの俺だけど

なんか、最近は検索しても変なのが出てくるから嫌になる
せめて、会社名入れて検索したら、その会社の公式HPがでるようにして欲しい
83名刺は切らしておりまして:2007/11/03(土) 11:41:04 ID:M3k9//C0
>>76
やっているだろうがそれらの情報を公開するのと公開しないとでは全く違う
84名刺は切らしておりまして:2007/11/03(土) 11:44:13 ID:K0uZMyJD
公開というか、販売なんだけどね・・・
85名刺は切らしておりまして:2007/11/03(土) 11:51:46 ID:52qxQc2p
日本語をわけのわからん外国会社にもてあそばれるのが気にくわん

日本語なら日本の会社でやれ
86名刺は切らしておりまして:2007/11/03(土) 12:12:22 ID:VhRL6vwP
>>61
賀沢氏は東大も出てるぞ
87名刺は切らしておりまして:2007/11/03(土) 12:21:35 ID:M3k9//C0
有料の販売でも公開は公開だよw
これだけ膨大なデータが無料なんて烏滸がましい
88名刺は切らしておりまして:2007/11/03(土) 12:27:45 ID:EPnWR4AF
>>85
お前らが一太郎を買わずにワードばっかり買ったから…
89名刺は切らしておりまして:2007/11/03(土) 12:34:45 ID:vciEMmsj
だ か ら な に ?
90名刺は切らしておりまして:2007/11/03(土) 12:35:56 ID:52qxQc2p
金につられて魂売るような、何人かもわからないようなエコノミック動物なのか

日本の誇り文化の継承に尽力された松下幸之助氏のようにアイデンティティを持っているか
91名刺は切らしておりまして:2007/11/03(土) 12:38:26 ID:oM7tuDbn
マネシタがどうかしたか?
92名刺は切らしておりまして:2007/11/03(土) 15:07:36 ID:q3uJtQh/
>>85
この二人はちょっと前まで某日本企業の研究所にいたんだよなぁ
93名刺は切らしておりまして:2007/11/03(土) 15:25:57 ID:ziDXiqQ2
>>88
だって抱き合わせ販売の1-2-3よりエクセルのほうが使いやすかったんだもん
94名刺は切らしておりまして:2007/11/03(土) 19:37:21 ID:GAB8GjuP
2chとかごみだらけのwebをどう取り除いたのかが気になる。
95名刺は切らしておりまして:2007/11/03(土) 21:32:06 ID:XmOWyxCY
>>92
NTT
96名刺は切らしておりまして:2007/11/04(日) 00:52:17 ID:1/Jg4TsP
間違いを大量に含んでるはずだぞ。単なる打ち間違いもそうだが、
「汚名」「を」の次に「挽回」とか。
97名刺は切らしておりまして:2007/11/04(日) 03:08:34 ID:lrXzBpob
>>96
頻度20以上のものしか取ってないらしいからレアな間違いはもとから入ってないし、
閾値を設定して頻度がそれ以下のものは使わないことにすればよいのでは?
(まあ、「汚名を挽回」のような例は多分かなり高頻度だけど)
だいたい、何を間違いと定義するかにもよると思うが。
98名刺は切らしておりまして:2007/11/04(日) 05:17:45 ID:zGvq1k5V
>>34
>anthyが賢くなることに期待だな

俺もそれを切に願う。

せめてWindows並になってくれれば・・・
99名刺は切らしておりまして:2007/11/04(日) 12:45:07 ID:tQpO9wal
掲示板へ戻る
全部
前100
次100
最新50

2chで話題の用語は、こういう単語と結びつけられたりしないかな。
100名刺は切らしておりまして:2007/11/04(日) 12:51:50 ID:yg1YGXyQ
>>24
ノートン先生にしかられました
101名刺は切らしておりまして:2007/11/04(日) 12:55:02 ID:XrTGbF0U
>>85
日本の会社がへたれなのがいけない。
102名刺は切らしておりまして
開減少
少なくとも単語や、ほぼ変換候補が決まっている準単語くらいどうにかしてくれ。