【IT】グーグルが大規模な日本語の解析データ「N-gramデータ」を公開、「20%ルール」の成果 [07/11/01]
53 :
名刺は切らしておりまして:2007/11/02(金) 13:55:16 ID:2QWPT7lu
>>1 >勤務時間の20%を自分の好きなことに使える
>同社のルール(いわゆる「20%ルール」)
漏れは個人的に90%ルールでやってる。たまに100%になっちゃう時もある。
今日あたりはちょっと仕事しないと、そろそろ文句言われる。
にもかかわらず、2nnを開きっぱなしの今日この頃、ネット中毒って恐ろしかです。
職を失いそうになります。いやマジで。
>勤務時間の20%を自分の好きなことに使える
>同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。
その20%を利用して初音ミクのサムネイル画像をすげ替えたんですね
55 :
名刺は切らしておりまして:2007/11/02(金) 14:04:36 ID:epcrSHdA
買い現象
なんとかしてくれ。2007年の技術水準がこれかよ。
さてはおれのスケベ検索も解析されたんだな
>>54 やったとすれば普通の業務内容としてだろう
58 :
名刺は切らしておりまして:2007/11/02(金) 15:10:45 ID:JMy6bR4k
これのどこが凄いのか俺にはわからん。
単にデータ処理をこなして、N-gramデータを生成しただけじゃないのか?
それともその過程に凄いテクがつまってんのか?
59 :
名刺は切らしておりまして:2007/11/02(金) 15:25:02 ID:eGPPbnvt
20%ルールは正確には今の自分の業務以外の事を「しなければならない」ものだろ。
何か産み出さないとクビです。
ヤフーソフトバンクよりはグーグルの方がマシってことか、インテリ度とか学識が
61 :
名刺は切らしておりまして:2007/11/02(金) 15:36:25 ID:YTS3HmYP
>データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と
>賀沢秀人氏。いずれも自然言語処理などの分野で実績のある技術者である。
お二人とも奈良先端科学技術大学院大学(NAIST)の卒業生ですね。
62 :
名刺は切らしておりまして:2007/11/02(金) 15:49:12 ID:DoikaRPx
これが何の役に立つのかさっぱり分からんのだが
63 :
名刺は切らしておりまして:2007/11/02(金) 15:51:48 ID:yyBuwdKH
●とか○とか★とか・とかって
ググっても全く反応してくれなくて困るんだよな
64 :
名刺は切らしておりまして:2007/11/02(金) 15:52:23 ID:QjhzlJoB
もっと国内勢も頑張れよ
情報産業を外資に握られ続けたらヤバいぞ
>>62 初音、でミクに続かずにグラビアやAVのお姉ちゃんばかり
表示しても、仕様ですと言い切れるってことだ。違う、、のか?
66 :
名刺は切らしておりまして:2007/11/02(金) 16:06:12 ID:1NmSQ53Y
「初音」と入れると「みう」が予測されるんだろ
中国はGoogleから提供してもらった検閲技術のノウハウを
アフリカの独裁国に流して、見返りに資源を入手してる。
68 :
名刺は切らしておりまして:2007/11/02(金) 16:26:38 ID:8frsSyku
>>61 NAISTといえばNamazuやGonzuiを作った人もグーグルにいたはず。
ようするにこの構造化が進んで造語に弱くなったってことか
どうせ恣意的な操作がされてるんだろ
使えねーよ
だからお前ら理解できてないならちゃんと調べて書けと。
これはいい!!データ欲しいなぁ〜
結構いいものを公開してくれたなぁ〜
>>65 若干マジレス気味(かつ乱暴)に言うなら、
Googleの持ってるウェブ上のデータから、
「初音」の後に「みう」が来る数とか「ミク」が来る数とか
「ちゃん (と いっしょ)」が来る数とかを調べて列挙してある。
これで「初音」の後に何が来やすいか確率的に分かるようになる。
で、これを全ての形態素についてやっている、と。
74 :
名刺は切らしておりまして:2007/11/03(土) 07:38:27 ID:xMC7rb/1
日本のヤフーは何でこれができなかったの?
検索能力に限ればgooにも負けてるし
検索される単語の大多数をエロ語が占めてるんだろうな。
開発者もエロとの戦い大変だったろ。
76 :
名刺は切らしておりまして:2007/11/03(土) 07:43:27 ID:H3nFnjAf
こんなもん全文検索機能があるDBならどこでももってるやろ
たぶん、肉茎の記者が理解できないだけやろうけどな
77 :
名刺は切らしておりまして:2007/11/03(土) 07:46:37 ID:SkL/KGCo
Googleで、調べる
たらちねの、母
亀田家の、父
ウルトラマン、エイティ
78 :
名刺は切らしておりまして:2007/11/03(土) 08:03:16 ID:RpBk1A/C
2ちゃんのデータがかなり情報のダメダメさに貢献してる希ガス
79 :
名刺は切らしておりまして:2007/11/03(土) 09:51:58 ID:g44BO2VU
先月のあの事件から他サイトもいくつか併用する習慣がついてきたが
登場時のググる先生の幻影に惑わされていたのを非常に実感したわ。
グーグルでみつからなかったからあきらめようってのは洗脳されてたんだなぁ。。
ちょっと変わった調べかたしたい時ってびっくりするほどグーグルって駄目なのね
80 :
名刺は切らしておりまして:2007/11/03(土) 10:02:46 ID:bF36xC8Z
親切に表示してるようで
実は、都合のいい検索結果へ誘導してるようにも思えてくる
81 :
名刺は切らしておりまして:2007/11/03(土) 10:05:15 ID:CPti9mqe
1-gram目 「グーグル」
2-gram目 「で」「の」「八分」
82 :
名刺は切らしておりまして:2007/11/03(土) 10:13:56 ID:HWESw3Dr
いまだにグーグルがホームポジションの俺だけど
なんか、最近は検索しても変なのが出てくるから嫌になる
せめて、会社名入れて検索したら、その会社の公式HPがでるようにして欲しい
83 :
名刺は切らしておりまして:2007/11/03(土) 11:41:04 ID:M3k9//C0
>>76 やっているだろうがそれらの情報を公開するのと公開しないとでは全く違う
公開というか、販売なんだけどね・・・
85 :
名刺は切らしておりまして:2007/11/03(土) 11:51:46 ID:52qxQc2p
日本語をわけのわからん外国会社にもてあそばれるのが気にくわん
日本語なら日本の会社でやれ
86 :
名刺は切らしておりまして:2007/11/03(土) 12:12:22 ID:VhRL6vwP
87 :
名刺は切らしておりまして:2007/11/03(土) 12:21:35 ID:M3k9//C0
有料の販売でも公開は公開だよw
これだけ膨大なデータが無料なんて烏滸がましい
88 :
名刺は切らしておりまして:2007/11/03(土) 12:27:45 ID:EPnWR4AF
>>85 お前らが一太郎を買わずにワードばっかり買ったから…
89 :
名刺は切らしておりまして:2007/11/03(土) 12:34:45 ID:vciEMmsj
だ か ら な に ?
90 :
名刺は切らしておりまして:2007/11/03(土) 12:35:56 ID:52qxQc2p
金につられて魂売るような、何人かもわからないようなエコノミック動物なのか
日本の誇り文化の継承に尽力された松下幸之助氏のようにアイデンティティを持っているか
マネシタがどうかしたか?
92 :
名刺は切らしておりまして:2007/11/03(土) 15:07:36 ID:q3uJtQh/
>>85 この二人はちょっと前まで某日本企業の研究所にいたんだよなぁ
>>88 だって抱き合わせ販売の1-2-3よりエクセルのほうが使いやすかったんだもん
94 :
名刺は切らしておりまして:2007/11/03(土) 19:37:21 ID:GAB8GjuP
2chとかごみだらけのwebをどう取り除いたのかが気になる。
95 :
名刺は切らしておりまして:2007/11/03(土) 21:32:06 ID:XmOWyxCY
間違いを大量に含んでるはずだぞ。単なる打ち間違いもそうだが、
「汚名」「を」の次に「挽回」とか。
>>96 頻度20以上のものしか取ってないらしいからレアな間違いはもとから入ってないし、
閾値を設定して頻度がそれ以下のものは使わないことにすればよいのでは?
(まあ、「汚名を挽回」のような例は多分かなり高頻度だけど)
だいたい、何を間違いと定義するかにもよると思うが。
>>34 >anthyが賢くなることに期待だな
俺もそれを切に願う。
せめてWindows並になってくれれば・・・
99 :
名刺は切らしておりまして:2007/11/04(日) 12:45:07 ID:tQpO9wal
掲示板へ戻る
全部
前100
次100
最新50
2chで話題の用語は、こういう単語と結びつけられたりしないかな。
100 :
名刺は切らしておりまして:2007/11/04(日) 12:51:50 ID:yg1YGXyQ
101 :
名刺は切らしておりまして:2007/11/04(日) 12:55:02 ID:XrTGbF0U
102 :
名刺は切らしておりまして:
開減少
少なくとも単語や、ほぼ変換候補が決まっている準単語くらいどうにかしてくれ。