このスレはアイちゃんです
このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。
アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。
京都大学霊長類研究所
ニューラルネットワークもこのスレでいいの?
何か、くだらない事に使えそうな気がする。
スレタイに集合知、とあるだけで厨スレにしか見えなくなっている件
8 :
デフォルトの名無しさん:2010/10/06(水) 01:02:05
9 :
デフォルトの名無しさん:2010/10/08(金) 05:53:59
機械学習とデータマイニングって同じものなの?
起源が違うしようともアルゴリズムも違うものが多いが、
数学的にいえばどちらもデータ縮約の一種なので似た一つのグループとして扱われる
JPEGの不可逆圧縮も実は機械学習やデータマイニングと同じグループに入る。
縮約は要素技術の1つにすぎないだろ。
データマイニングは実データからモデルを構築するための技術群と手法。
機械学習は観測データから外挿的推定をするための技術群。
共通した要素技術は多いが、目的と得られる出力がまるで違う。
サポートベクトルマシン
13 :
デフォルトの名無しさん:2010/10/14(木) 05:50:06
次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
http://www.publickey1.jp/blog/10/10_3.html グーグルやマイクロソフト曰く、
「統計分析こそ次の10年でもっとも魅力的な職業になる」そうです。
いま、大量のデータを指す「Big Data」という言葉が多くの場面で使われるようになってきました。
ITの発展に、さまざまなビジネスの現場で、いままで以上に詳細な販売データ、ネット広告に対する反応、
オンライン上での自社の評判など、ビジネスに関連するデータが詳細かつ膨大になってきたためです。
IBMもデータの分析ができる人材を4000人増やすと記事で触れられています。
これまで、IT分野の中心的な役割は、さまざまな目的に応じたシステムを構築することでした。
ITの専門性とは主に、ソフトウェアとハードウェアを使って構築するためのものでした。
しかし、そうして構築したシステムからどんどんとデータが送られてくるようになってくると、次の時代のITの役割として、
このITによって生成されたデータを活用するために分析、加工することの比重が高くなってくるのでしょう。
そしてITエンジニアに求められる専門性もそれに従って、統計や確率、集合や演算といった数学的な専門性の上で、
それを実装するためのプログラミング技術が重視される時代になるのかもしれません。
データ分析の応用的手法が商業的に最も熱い分野になるだろうというのは、
実際やっている人間からするとものすごくよく分かるのだが、
プログラマ かつ 統計の専門教育を受けている人が少ないからなあ。
このスレの過疎っぷりを見てもそうだが。
A4で5枚くらいのパンフレットを書いて分野を盛り上げたほうがいいんだろうか。
16 :
デフォルトの名無しさん:2010/10/16(土) 04:21:51
ageて宣伝してみる
プログラマの皆さん。
「スパムフィルタの学習」説明できますか?
「google IMEのクローン」ぱっと骨組みだけでも考えられますか?
「天候から品質や売上を予測する」穀物メジャーからコンビニまで使っています。
インターネットを使って日々膨大なデータを低コストで集めることができるようになりました。
そして今、湯水のように溢れるデータから価値のある情報を引き出す技法、
データマイニング、機械学習、各種の統計は一番ホットな分野となっています。
今後10年はこれで戦うことができ、20年後にはただの常識となっているでしょう。
プログラマの皆さん。
統計を覚えて、プログラマからコンサルタントになりませんか。
>>16 いや、俺はプログラマとして機械学習を応用したプログラムを作り続ける。
つーか、こんな面白い仕事、他人に渡せるかってのw
18 :
デフォルトの名無しさん:2010/10/23(土) 21:20:07
>>16 仕事紹介してよ・・・
基礎統計が分かってて
プログラム組めればいいの?
>>18 やっぱ、ノンパラメトリック・ベイジアンぐらい鼻歌まじりに実装できないと・・・
ベイジア〜ン♪
>>21 Rじゃだめですか?
SPSSはともかく、SASは高い。
23 :
デフォルトの名無しさん:2010/10/24(日) 19:29:20
統計は「流派」ができちゃってるからな。
ウチはR(37)、ウチはSPSS、ウチはSAS(18)って感じで。
ウチはMatlab(19)でとかウチはLabViewでみたいに。
24 :
22:2010/10/24(日) 21:38:47
>>23 そのライブラリにバグないの? と聞かれたときに、このソフト使ってるから大
丈夫です。と印籠のように使えるからね。
25 :
デフォルトの名無しさん:2010/10/25(月) 02:42:14
統計系
・SPSS
・SAS
・R
機械学習系
・Octave
・Matlab
・Weka
最近は自分で実装しなくてもツールが沢山あるからねぇ。
使いたい手法の概要とツールの使い方だけ覚えておけばいい。
26 :
デフォルトの名無しさん:2010/10/25(月) 03:21:52
SASってむずかしいの?
何とか統計で働きたい
難しいのはツールでもプログラミングでもなく、統計の理論そのものだろ
難しいのはツールでもプログラミングでも統計の理論でもなく、適用対象分野の性質の理解だろ
そうなってくると完全に板違いだな
SASは文法?が気持ち悪い。便利だけど。
Rのほうがまし。SPSSはしらない。
>>25 マイニング屋ならそうだね。あと研究主体の人達。
ML応用系のシステム屋は、地道にシコシコと実装。でも楽しい。
32 :
遠隔地からの電磁波による思考盗聴は現段階では不可能:2010/10/25(月) 19:23:56
33 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(2):2010/10/25(月) 19:25:04
34 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(3):2010/10/25(月) 19:26:19
35 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(4):2010/10/25(月) 19:30:41
『Newton』6月号(右記)
http://ime.nu/www.newtonpress.co.jp/science/newton/index.html サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、
>>32 で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。
皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html 遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。
36 :
『アメリカ経由の通信情報ローンダリング手法』の確立可能性あり:2010/10/25(月) 19:34:03
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
37 :
警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2010/10/25(月) 19:37:35
38 :
デフォルトの名無しさん:2010/10/25(月) 19:54:20
思考盗聴という言葉から一瞬キチガイさんかと思ったが、
Webブラウジング履歴やユビキタス/Augmented Realityにおける個人情報データの蓄積に対する抗議文か。
まあその危惧は分からないでもない。
39 :
デフォルトの名無しさん:2010/10/25(月) 20:37:42
思考盗聴はまだ先の技術っぽいね。
google等の情報集積の危険性は同意。。
たしかにgoogleはデータ集めすぎ
androidでさらに加速するだろうしね
危険なのはgoogleよりもISPだろ。
日本の総務省はDPIを認める方向で動いているし。
俺の性癖まるわかりになっちゃうしな
カード会社が最強
44 :
デフォルトの名無しさん:2010/10/27(水) 12:23:35
google危険だよ。
たまに出てくるGoogle Ads見てみ
見事に最近の検索結果と一致してるから。
まあDPIも危険だろうけど。
歴史上独占が進んでおかしくならなかったケースなんて
ほとんど無いからね。
それは売る側のプログラムに既に書いてあるよ
>>44 > たまに出てくるGoogle Ads見てみ
> 見事に最近の検索結果と一致してるから。
それのどこが危険なの?
ああ、アフォがいる
よそで見たページの語彙とか、自宅の近所に貼ってあった選挙ポスターとか、
そういうのが検索結果やアドに反映されてたら怖いけどさ、
ググルで検索した履歴がググルのアドに反映されても何の不思議も怖さもないんだけど。
( ´_ゝ`)フーン
50 :
デフォルトの名無しさん:2010/11/06(土) 06:39:42
とうけい!
51 :
デフォルトの名無しさん:2010/11/06(土) 22:47:40
HMMが実装できない・・・
52 :
デフォルトの名無しさん:2010/11/07(日) 20:27:44
かくれ☆まるこふ!
ばうむ☆うぇるち!
M・R・F!!M・R・F!!
クラスタリング結果を評価する時
どういう評価方法を採るのが一般的ですか?
56 :
デフォルトの名無しさん:2010/11/08(月) 03:56:05
クラスタリングなどの教師無し学習は、
そもそも教師データが無いので評価できないのでは?
クラスタリングの目的は潜在変数の予測だしね。
評価の基準(教師データ)があるなら教師付き学習を使うだろ。
評価というか結果の解釈のことじゃね?
>>51 とある過程の動的計画法(ダイナミックプログラミング)
>>56 凝集度を計測したり、色々な評価尺度があるが?
MAPとMLEって,どう違うの?
CやJavaでガリガリコーディングする分野じゃないよね?
>>61 JavaならWekaとかあるよ
ガリガリは書かないだろうけど
63 :
デフォルトの名無しさん:2010/11/10(水) 15:37:52
集合知プログラミングのクラスタリングのプログラムロジックをPerlに移植した上で、
過去半年の英米圏で発表された科学論文系のプレスリリース約12000件のクラスタリングを
やってみたところ、プログラムがまったく動作しなかった。
元テキストで使われている英単語から辞書を作成したところ、辞書の大きさは約6万件。
これを元に記事ごとの単語頻出度を抽出させたんだが、1記事6万件の単語フィールドだと
普通のプログラムだと処理しきれないみたい。
集合知プログラミングのサンプルデータだとちゃんと処理できたのだが、
http://kiwitobes.com/clusters/blogdata.txt
64 :
デフォルトの名無しさん:2010/11/10(水) 21:52:51
bayonで処理してみたが、100件のデータ処理でも5分以上かかり、全件データの処理は無理があるということが判明しました。
単語頻出度の出現率リストから作り直す必要があるみたいなので、今、元データを見直してみたところ、
全テキストに出現するユニークワードは67769。この内、1度しか出現しないワードは全体の48%。
反対にもっともよく出現するワードはこれ、とりあえず、上と下のワードを削ってみます。
1 6703 research
2 6442 study
3 6297 university
4 5410 researchers
5 4182 journal
6 4071 published
7 4049 found
8 3467 professor
9 3088 years
10 2910 health
11 2862 time
12 2819 results
13 2694 team
14 2688 patients
15 2687 scientists
16 2687 data
17 2635 author
18 2623 disease
19 2581 people
20 2578 findings
この分野を学ぶのに,無料で読めるpdfのオヌヌメないですか?
66 :
デフォルトの名無しさん:2010/11/11(木) 00:45:30
現時点ではオライリーの集合知プログラミングが唯一に入門書。
日本語のブログ記事もそこそこあるが、ほとんどは、他のサイトでこういうことが紹介されていました、という
伝聞記事で、実際にテキストマイニングをやったことはない人が書いたもの。実際に自分で試して記事は
ベイジアン分類はそこそこあるが、クラスタリングになるとほとんどない。非負値行列因数分類とかになると
そもそも入門レベルでの解説は不可能で、自然言語系の専門教育を受けた人じゃないとかなり難解。
集合知プログラミングの作者のブログによるとこの本(原書)は1500部売れたとか書いてあるけど、
1500部というと多分、初版で終わりのレベル。英米圏でも1500というのはオライリーの専門書のなかでも
かなり専門的な分野だと思う。
いちいち上げんな
68 :
デフォルトの名無しさん:2010/11/11(木) 15:22:25
ageとく
69 :
デフォルトの名無しさん:2010/11/11(木) 22:25:58
71 :
デフォルトの名無しさん:2010/11/12(金) 16:23:58
この話題プログラム板より学問板のがいんじゃね。
今時、理論は分からなくても、LibSVM呼ぶだけじゃん。
もっと応用に使うべき。
75 :
デフォルトの名無しさん:2010/11/12(金) 18:15:26
>>70 あの本で載っているPythonのサンプルはアルゴリズムを説明するため使っているもので、
プログラム例ではないよ。現にそもまま打ち込んでも動かないというか、多分、著者は、
実行系で動かしたものを掲載したんではなく、ワープロでそもまま直感的に打ち込んだもの
を掲載しているんじゃないかと思う。つまり、アルゴリズムの表現としてただ単に平易な言語
を使っただけではないかと思う。
自分で打たなくても動くやつDLできるだろ
77 :
デフォルトの名無しさん:2010/11/12(金) 22:40:37
確かにダウンロードはできるのだが、ダウンロード提供されているプログラムは書籍に載っているプログラム例と異なる。
アマゾンのコメントとかには、プログラムを打ち込んでも全然動かないとか、そもそもシンタックスがおかしくおかしいとか、
果ては演算子のxが書籍内ではx(エックス)が使われており、著者は四則演算もできないバカとか、完全に的外れのコメントまで書かれている。
融通きかんやつだな
79 :
デフォルトの名無しさん:2010/11/16(火) 12:55:31
Googleがやってるのも要はデータマイニング。
>>75 そうは言うけど、自分の知らないプログラミング言語だとわかりにくいよ
サンプルコードはC系の言語(C,C++,C#,Java)当たりにしとくべき
600ページの本になっちゃう。
83 :
デフォルトの名無しさん:2010/11/16(火) 19:33:51
あの本を読んで、単純ベイジアン分類器とデータクラスタリングの2章分の機能をサイトに移植したのだが、
データクラスタリングの章は、根本的なところで、テキストから抽出する単語の頻出度データの構造が悪い。
セガランのクラスタリング実装では、Big brown fox jumps over the lazy dogとNow is the time all the good men stand for America.
という2つのテキストがあった場合、出現する全部単語で列を作って
1 -> 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0と
2 -> 0 0 1 0 0 0 1 0 1 1 1 1 1 1 1 1
のようなテーブルを作ってクラスタライングを実行することになる。ところが、大量の文章を元にこのデータ
構造を作ろうとなると、それこそ、普通の辞書に載っているだけの単語が出現することになって、
元データの1行の列数が数万とかとんでもないことになって処理が困難になる。
その後でBayonを使ってみてBayonのデータ構造がかなり違っていることに気づいたのだが、Bayonの場合、入力データは
Big 1 brown 1 fox 1 jumps 1 over 1 the 1 lazy 1 dog 1
Now 1 is 1 the 2 time 1 all good 1 men 1 stand 1 for 1 America 1
みたいな記述になっていてデータが単純。あの本の批判には、Pythonのシンタックスがおかしいという他に
Pythonによる実装例だとスケーラブルな処理ができなくなるというのがあるんだけど、まあ、その批判も
実際に試した結果から言っているものではないな。上のデータ構造はセガランはベイジアン分類器でも
使っているが、そもそもスケーラブルな処理をこなすためにはこのデータ構造そのものが問題でPython
云々の問題ではない。ただし、まあ、あのレベルの本だとそこを含めて判って当然なんだろうと思う。
>>83 データ構造の考え方としては間違えてないと思う。
実際、疎行列に最適化した実装なんていくらでもあるよ。
>>80 Javaに関してだけのコメントだけど、
「Javaによる知能プログラミング入門」なんかを読んでみると
この手の本にJavaは向かない気がする。プログラムの一単位が
大きく、説明文とコードを1ページに詰めようとすると、文字も
細かくなり読みにくい。やはりこういうレベルのアルゴリズム
記述は記号処理言語だけで構成することが望ましいのではないか。
86 :
85:2010/11/19(金) 12:56:02
そうは書いてみたものの、「集合知プログラミング」の中で、アルゴリズムの
説明箇所は少ないね。データ構造と実行例ばかり。
87 :
デフォルトの名無しさん:2010/11/19(金) 17:01:43
そもそもこれ以外に包括的に書かれた入門書ってあるの?
89 :
『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化:2010/11/22(月) 06:40:29
興味深い事に、今日(2010年11月22日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。
@本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
A「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。
『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
http://infowave.at.webry.info/201011/article_2.html
「○○は俺が知らないから駄目!俺の知ってる言語で書け!」とか言われるなら
既存のどの言語にも平等に似てない擬似言語を使うしかないんじゃないか
いや件の本が良いか悪いかは別として
91 :
デフォルトの名無しさん:2010/11/29(月) 08:26:36
>>86 そのアルゴリズムを何を使ってどうやって説明するかは難しいよ。
例えばGoogleのページランクのアルゴリズムを説明するには、最終的には方程式でも示さなければダメになる。
それでもいいけど、そこまでいくともう論文でしょ。
オハイリーで出版できる本じゃなくなる。
92 :
デフォルトの名無しさん:2010/11/29(月) 10:52:54
関連記事検索システムのために作ったデータクラスタリングのプログラムに画像データのカラーヒストグラムマップの数値
情報を与えて分類させたらちゃんと動くと思う?
93 :
デフォルトの名無しさん:2010/11/29(月) 11:27:11
ああおもしろそうだ
95 :
『2ちゃんねる』:海外からのデータマイニング?:2010/11/29(月) 23:03:28
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/ (以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)
以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
>>93 あたりまえだけど
色しかみてないのが良くわかるね
エロ画像と水着画像の識別はできなさそうだな
機械学習全般についてかかれてるいい教科書ない?
できれば日本語で
オライリーの集合知本ブックオフに売っちゃったんだよなあ
このスレ見てたらまた読みたくなってきた
一回読んだのなら、ソースコード眺めれば大体思い出すだろ。
オクにでも出せばよかったのに
あそこだと400円ぐらいだろうww
ちぃ、モンティー・ホールおぼえた!
集合知プログラミングって尼で内容が薄いって酷評されてるのもあるけど実際とうですか?
中学の英語の教科書見て、「こんな簡単な本じゃ役に立たん!」という類の池沼さん。
少なくともこの分野の全くの初心者からすると読み応えあるはず
多少かじってる人なら中身をちょっと見れば自分に適してるかどうか判断できるっしょ
>>105-106 どうもありがとうございます。
アメリカの尼の評価は非常に高かったしデータマイニングは初学なので読んでみようと思います。
>>104 良い本だと思いますよ。
題材も、掲載されているアルゴリズムも、わかりやすいと思う。
ただ、プログラム例に怪しいものもあるので
ネットで検索しながら読んだ方がいいかもね。
あと、数学的な背景を知りたければこの本の後に別な本を読むべし。
特徴ベクトルの次元30くらいで、
windows版のliblinearのL2正則化付きロジスティック回帰で学習させると、
学習例が10億を超えたくらいからエラーが出ます
(正確にはVisual Studioのデバッガが出る)。
心当たりのある人いますか?
本当は自分でliblinearをコンパイルして調べないといけないのだけど・・・。
使用できるメモリの容量を上げろ
まさか32bit OSじゃないよね?
なにそれ卒論?
スタックトレースの見かたもしらないの?
機会学習ってなかなか面白いな
美人とセックスできる機会を学習させたい
学習に利用できるデータがありません!
美人とのセックスの回数と年収の相関係数は1.0。
母集合に韓国産を含めてもダメかい?
しょうもな
>>108 皆さんの意見により買わせて頂きました。
とても楽しい本で導入として買って見ましたが非常に良かったと思います。
とりあえず
>>102を参考にして順次レベルアップしていこうと思います。
回答頂いた方本当にありがとうございました。
sqliteとかlibsvmのバージョン違いでAPIが変わっているので
そのへんは少し自分で調べて変更が必要だった。
WebAPI多用し過ぎだろww
アルゴリズムの記述も少ないし内容的にも表面なぞってるだけでなんでこんなに褒められてんだかわからんww
概要が分かればいいんだよ。
どんな問題に適用できるのかさえ知っていればね。
SVMだって使うだけならカーネル法なんか知らなくても問題無い。
>>122 なら100万件のデータセットを手で打ち込め。
フリーソフトでつくる音声認識システムと集合知プログラミングのどっちにしようかかなり悩んでます。
フリーソフトでつくる音声認識システムの本のほうの利点みたいな所を紹介してもらえないでしょうか。
「集合知プログラミング」はいくつかのデータマイニングの手法の概要がわかるだけ。
・各手法がどのような問題に適用できるのか
・各手法の長所と短所
とかね。
各手法の詳しいアルゴリズムは載ってないので自分で実装は出来ないけど、
どの問題にはどの手法が適しているとかは分かるようになるし、
WebAPIなどのツールを使って問題を解く事は出来るようになる。
「フリーソフトでつくる音声認識システム」の方は機械学習やパターン認識寄りで、
各手法のアルゴリズムを数式を使って詳しく説明している。
「集合知プログラミング」よりは多少難しいが、
これくらいの内容は理解してないと色々困る。
>>127 なるほど自分の用途だと後者の本が良かったのでこれで心配せずに買えそうです。
迅速な回答ありがとうございました。
俺には教科書的な感じでしょうもなかったな
教科書最強
機械学習を卒論で発表するぜ
機械学習とデータマイニングの両方勉強してる人っているの?
いるよ、俺とか。
本の話で申し訳ないんですが
>>102みたいなデータマイニングについての本で良い本はありますでしょうか?
機械学習とはどうやら違うようなので。
データマイニングの分野の本はそんなにないから調べてみ。
問1.機械学習、データマイニング、パターン認識の違いを述べよ (30点)
機械学習 ⊃ データマイニング
株価予想とかはデータマイニング?
株価予想の一部はデータマイニング
データマイニングも機械学習もおんなじようなもんだろ。
無知乙
>>142 機械を使わなくてもデータマイニングはできる
機械で実装できていないデータマイニングがある
R言語とかあんのか
地雷っぽい本だな
テキストマイニングって本が少し高目だけどお薦め。
150 :
『2ちゃんねる』:海外からのデータマイニング?:2011/01/21(金) 05:48:32
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/ (以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)
以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
151 :
遠隔地からの電磁波による思考盗聴は現段階では不可能:2011/01/21(金) 05:58:20
152 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(2):2011/01/21(金) 05:59:36
153 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(3):2011/01/21(金) 06:01:31
154 :
遠隔地からの電磁波による思考盗聴は現段階では不可能(4):2011/01/21(金) 06:02:49
『Newton』2010年6月号(右記)
http://ime.nu/www.newtonpress.co.jp/science/newton/index.html サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、
>>33 で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。
皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html 遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。
今度はここか
何回同じ質問してんだよ
池沼か?
157 :
警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2011/01/21(金) 07:29:33
>>156 「池沼」とはどのような意味ですか。池と沼ですか。
158 :
警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2011/01/21(金) 07:31:21
159 :
警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して2:2011/01/21(金) 07:32:38
今まで起きた警察による盗撮事件はコメント欄に記載されています。
参照してください。
160 :
『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化:2011/01/21(金) 07:36:33
興味深い事に、今日(2011年1月21日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。
@本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
A「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。
『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
http://infowave.at.webry.info/201011/article_2.html
頼むからこういう奴は規制してくれよ
掲示板的には右翼左翼よりもある意味性質が悪い
通報しました
163 :
内閣府HPにおける個人情報保護法:2011/01/21(金) 21:26:40
164 :
元総務省顧問の意見:2011/01/21(金) 21:30:56
165 :
『2ちゃんねる』:海外からのデータマイニング?:2011/01/21(金) 21:33:23
(
>>95再)
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/ (以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)
以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
166 :
Tea and Coffee Time:2011/01/21(金) 21:46:38
掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
http://infowave.at.webry.info/200804/article_1.html 掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。
そんなことよりシステムトレード実装したいな
トレーディングシステムに機械学習は必須じゃないし
170 :
デフォルトの名無しさん:2011/02/05(土) 03:31:35
あげ
171 :
デフォルトの名無しさん:2011/02/05(土) 14:28:21
15パズルを強化学習で説かせたいのですが
状態数が多すぎて評価値を保存しきれません
何か良い方法はありますか?
そもそも状態数が多すぎるものは強化学習に向いてない
TokyoCabinetでも使えば?
175 :
Tea and Coffee Time:2011/02/24(木) 07:12:59.52
>>166(再)
掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
http://infowave.at.webry.info/200804/article_1.html 掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。
176 :
『2ちゃんねる』:海外からのデータマイニング?(再):2011/02/24(木) 07:46:57.50
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/ (以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)
以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
178 :
デフォルトの名無しさん:2011/02/26(土) 12:41:48.45
吉本ってこれ使ってネタ作ってる
話聞いてておかしいと思ったよ
なんかエキサイト翻訳的な日本語で話しかけられてるから意味が通じないって
言う、ハーフの友人の母なんかエキサイト翻訳の英文の意味が本国では通じな
いって言ってたけどな。
何度も何度も「子供たち」「子供たち」って聞こえて明らかに30過ぎたおっさんが
何言ってんだ?と思ったがな。
単語を適当にマルコフ連鎖でつなげれば、
100に1つくらいは使えるネタが作れそう。
常識だろ
ガンダムはSVMでNT判別するんだぜ?
その当時にSVMが(ry
なんか人口無脳作って喋らしたいんだけどフリーの喋らせるソフトってない?
>>183 作りたいのか拾いたいのかどっちなんだ?
拾いたいです
伺か
作るのは人工無能で、拾うのは人工有声
>>188 そうです。
喋らせる言葉はテキストマイニングで決める予定なので欲しいのは人工有声です。
タミーの買ってやれよ
ニコニコで人工有声使ってる人いなかったっけ?
テキストマイニングの分野で入門自然言語処理ってどう?
193 :
デフォルトの名無しさん:2011/03/01(火) 15:11:23.18
別に
>>189 じゃ、お前って結局何もする気ないってことじゃん。
帰れよ。
なぜそうなるのか、よく分からん。
音声エンジンは作らないけど、AI作るんじゃないのか?
このスレじゃ人工有声も作るのがデフォらしい
単純パーセプトロンって入力層と出力層だけの構成のもの?
それとも出力層ニューロンが1つだけのものをいうの?
出力層ニューロンが1つだけのもの。
層の数は関係ない。
200 :
デフォルトの名無しさん:2011/03/09(水) 23:51:17.98
SIで機械学習使った仕事が出来るのってどんな分野ですか?情報家電とか?
SIで情報家電って、そのSIは何だろう。
BIなど分析系の業務なら使えるのでは。
Web系企業はどこでもHadoop使ってデータマイニングやってるけどね
>>200 そこら辺のメーラーにも機械学習が使われているから、
機械学習を使ってない仕事を探す方が難しい。
いや、直接ML実装するのは末端パートナー
SIerは末端パートナーから買い叩いたMLをポンと繋げるだけ
もちろん、SIerのSE様はMLなんて理解できてないから、
使えねえゴミシステムができあがるわけだがw
実際つくるのは、SIerだと研究所ぐらいだよな
207 :
デフォルトの名無しさん:2011/03/20(日) 22:21:37.03
パターン認識もここでいいの?
>>16 批判思考、論理思考(広範囲の可能性から根拠に基づき対策を確定)、
人の気持ちを察する。これが出来なきゃコンサルは無理。
データをインフォメーションに変えるのは人間だからな。
機会学習、データマイニングを勉強して幸せになれるようなことって何?
具体的にどんなことが出来るようになるの
そんなしょうもないこと聞いてないです。
もう結構です
212 :
デフォルトの名無しさん:2011/04/01(金) 22:13:30.65
マ
ジ ハ ,,ハ
デ (;゚◇゚)z
!?
ヒルズ勤務になれる
カネがもらえる
ここまで自演
機会学習の勉強の本教えて〜
マンガでわかる統計学ってどうすか
意外に良書だけどスレチ
>>219 統計もあながちスレチではないと思ったんですが関係ないんでしょうか?
統計は帰納学習だから機械学習といえなくもない
ベイズ統計までくると完全に機械学習と区別できなくなってくる
つうか線形回帰の時代から機械学習は統計無しに語れんだろ。
ベイズって今でもAIとかに使われてるの?
エキスパートシステムよりニューラルネットワークスの方が優れている事がわかった時点で
終わってると思ってた
ネットワークスw
別に優れているわけじゃないでしょ。
得意分野が違うだけで。
わかりやすいパターン認識って今でも良書
です
ベイズネットは今も最前線で活躍してる
スパム分類はほとんどベイズネットが入ってる
229 :
デフォルトの名無しさん:2011/04/05(火) 23:34:03.69
ベイズネットは、計算が高尚な割りに、
大した性能がでてないけどね。。
因果関係に自分で縛られて過学習を起こしやすいような希ガス
このスレ的にラフ集合ってどうなん?
ベイジアンネットワークとナイーブベイズぐらい区別つけようぜw
フリーソフトでつくる音声認識システムすら難しいんだがフーリエ級数展開とか出来て当然なの?
フーリエ級数程度でどうにかなるチョロい時代はとっくに終わった
最低限大学数学ぐらい出来てもらわないと
>>232 音声認識であればフーリエ級数は必要だと思うけど。
分野によって必要になる数学は違ってくるよ。
フーリエ級数というより、周期を拡大したフーリエ変換ね
フーリエ急須自体は高校数学レベルでも理解可能
質問者ですがどうもありがとう。
わかりやすいパターン認識も立ち読みしてみたんですがとりあえず数学の勉強が必須みたいなので最低限どんな分野を勉強したら良いでしょうか?
微積と線形あたりは勉強し直そうかと思ってるんですが
統計学は必須
AIなら統計学じゃなくて確率論の方だと思う
三次の非線形モデルだろう
>>239-241 とりあえずフリーソフトでつくる音声認識システムの分からない所は読み飛ばしながら最後まで読んでみようと思います。
アドバイスありがとうございました。
数式理解できないんじゃ仕方がない気もするが・・・まぁいいか
数式だけじゃなくて「ε」などに配慮したアルゴリズムも知る必要があるぞ
だが、そうしたライブラリーも出回っているので、
それなりに勉強すれば、細かいところまで押さえなくても、なんとかなるかも?
組み合わせ論
ベイズ理論(事前確率と事後確率の式の理解)
行列・ベクトル演算
指数関数・対数関数
英語
この辺が得意な人なら大抵の本は読めると思う
あとは、
偏微分
テイラー展開
ぐらいなもんだね、楽チンだw
ずいぶん敷居が高いのな
集合知プログラミング買ったぜ〜
これから始めてみよう
高3+程度と言うと、英検で言えば2級か
ラグランジュ法ぐらいはあらかじめ理解してないとしんどいだろ
確率統計のいい本ない?
東大出版の統計学入門読み終わったくらいのレベルなんだけど
>>251 「図解でわかる」レベルの本を読み終えたら、そのまま機械学習の本に入ればいいよ
「マンガでわかる」じゃダメですか?
標本となるデータってどっから調達してるの?
要するに機械学習で用いられるアルゴリズムの数式を理解出来るようになれば良いんだなお前ら。
>>254 国際大会とか学会が金融や交通の架空のコンテスト用のデータを公開してる
あとはWEBサーバのログとか
なるほど
いわゆる「お客様の声」とか、評判分析に使えるようなテキスト・データ無いかな?
自動車だと国交省のクレームシステムがあるけど、基本的にネガティブ系に偏ってるし。
件数として100万件オーダーであるとうれしい。2ちゃんのログは勘弁。
>>257 架空のヤツしかない
実在のヤツが欲しければ、企業に就職するか、企業と共同研究してる大学の研究室に入るしかない
企業の中の人ですが、
近頃はプライバシー保護がどうので、
なかなか思うように使わせてもらえません。
情報収集時にエンドユーザに見せる文言も
法務がやたらと保守的な文章にするし、
現場がよほど協力的じゃないと難しいっす。
>>258-259 サンクス。やっぱ難しいみたいだね。自分も口コミ系サイト (kakaku.com等)、オンラインショップの
リコメンド (amazon等)、blog、facebook、twitter、2ch など探してみたけど、ゴミが多くて所望の情報を
選り分けるのが大変という印象。数100件程度ならともかく、それ以上は現実的じゃないと分かりました。
おっしゃるとおり企業に入るか、データを買ってくるしか、大量データをそろえるのは難しい感じですね。
論文書くときは、実在のデータを探すのが一番難しい
263 :
デフォルトの名無しさん:2011/04/20(水) 23:23:46.00
WebAPIとかないの?
>>262 そうか?
どうせ比較評価するために学術系公開データを使わざるを得ないから、
特に論文書くためのデータで困ったことはない。
>>264 企業の中の人だが、実際のデータだと迫力が違ってくると思うよ。もっとも、扱いが制限されるので
結果が外に出ることはないのだけど、どうしても見たいとかならインターンシップとかで中に入ればOK。
査読や追試されない論文もあるんだよ
Googleとかインフラとかの社内統計データでの論文発表多いよね。
データマイニングの基礎ってアルゴリズムの手法を詳しく解説してる見たいだけど
入門向けとしてはどう?
>>267 まあ、それはググルだから聞いてもらえるわけだがなw
270 :
デフォルトの名無しさん:2011/04/24(日) 21:21:50.60
重み空間だとか重みベクトルは特徴ベクトル+1次元だとかマジ難しい
データマイニングで効果や利益でるの?
>>272 マイニング対象、入手可能データ、マイナーの技量、顧客の能力とやる気、そして運による。
デジコンより在庫の回転率が上がる物販のが効いてくるのか?
「はじめての機械学習」って本が出たね。
プログラム例がC言語で書かれてるらしいからちょっと興味ある。
CかよせめてPythonにしてくれ・・・
277 :
デフォルトの名無しさん:2011/04/30(土) 23:22:36.99
アラヤダ、ゴミ本でおなじみの小高知宏じゃない
こんなのポイよポイ
>>276 実務家用向けの本というより手法指向の本で
書いてる人もこの分野に長けた人じゃないんで
アルゴリズムの勉強書籍として使ったらいいね。
だったら、確かにCの必要性はないんだけど、
Pythonを知っている人が多いかと言うと、
むずかしいね〜
この分野の数学的知見を得ようと思うんだけどこれなら分かる最適化数学って本って
どうでしょう?
結構ビンゴな内容だと思うんだけど
古典的な内容だと思う。
一通り知っていた方が良いけど、機械学習とは直接関係ない。
どうしてビンゴな内容だと思ったのか、わけがわからないよ。
ラグランジュ法ぐらい、初学者になるための前提知識だろ…
>>279 機械学習から得られた複数の結果から
(その中で)何かを最適化するという時には考えられるけど。
280が行っているように直接関係はない。
もともと最適化できるんなら、機械学習いらないし。
ん?
MLなアルゴリズムには凸最適化を始めとする最適化問題に帰着できるものが多いのは事実だぞ。
どっちにしろ局小値問題が出てくる
カーネル関数なりラグランジュなり主成分分析なりはアルゴリズムを理解する上で必要だろ
FOILでも局小問題が出てくる
直接は関係なかったようで・・・
とりあえず一度立ち読みしてから判断しようと思います。
ラグランジュ法すら知らないレベルなら買っても良いかもね
>>287 そだね
応用で考えると、なんでも絡んでくるから。
本質を見失っちゃ意味ないし。
290 :
「コンピューター監視法案」が閣議決定:2011/05/06(金) 02:55:07.75
>>290 RFタグが流行ってたときからある話題だから今さらって感じ
パーセプトロンの学習規則を用いた2クラス間での判別は分かったんだけど
3クラス以上になったらどうなるの?
g(x)=g1(x)-g2(x)=WX>0 || WX<0の判定が出来なくないですか?
多分とんちんかんなことを言ってると思いますが(^_^;)
>>292 出力のセルを3つ(log_2 3以上の整数)にすればいいだけじゃね?
>>293 まだ修行不足でした。
もうちょっと考えて見ます
295 :
デフォルトの名無しさん:2011/05/07(土) 20:30:14.99
2値分類器を3つ用意するべし。
フリーソフトでつくる音声認識システムとデータマイニングの基礎だとどっちが難しい?
おまえがどの程度の基礎知識を持っているかによるんじゃない?
どっちも対して変わらんけどどちらかといえば前者の方が平易に書かれている。
なんと、書籍のタイトルだったのか。
>>298 ありがとうございます。
データマイニングに興味があるのでデータマイニングの基礎買おうと思います
301 :
とうとうばれた「美しくない国」日本・・・安倍元首相の嘘:2011/05/15(日) 11:44:58.59
302 :
「コンピューター監視法案」内閣決議は菅内閣統合失調症の表れ:2011/05/15(日) 11:46:28.19
「人的情報漏洩」が問題なることは量子暗号化理論が今後実用化される
のがわかってきていたにもかかわらず、小泉元首相とともに「個人情報保護法案」
を可決し、小泉路線と言われた安倍元首相が日本を「美しい国」を主張しながら
「インテリジェンスという横文字を使った諜報能力の向上」を狙った時点で一般
庶民の私にもわかりました。つまり、安部元首相が「美しい国」発言をした時点で、
「人的漏洩」と「監視社会」がどんどん問題化する「美しくない国」になることを
証明することになっていたのです。今後も「人的情報漏洩」と「監視社会」、成文化
した情報保護を無視した「違法・越権調査」、「情報漏洩現象」の再現性がどんどん出
てきます。そのような「人的情報漏えい」を一種の『世間』と考えるならはじめから
「国民の情報を守ったふりの八百長」である個人情報保護法(場合によっては通信の秘密の法律も)
成文化しなければよかったののです。「成文化」するから調査がやりにくくなるのです。
いままで個人情報保護法違反で摘発された会社は「八百長法律」と自分の秘密情報も守らない、
冤罪も行いそうな「いかさま(警察??)調査隊の犠牲」になったといえます。 内閣府のHP
『個人情報保護法に関する疑問と回答』』(下記URL)
http://www.caa.go.jp/seikatsu/kojin/gimon-kaitou.html#1_2 などは完全に内閣府からの国民に対するガセ回答になってしまっていることになります。
また、国会で2回も否決された「コンピューター監視法案」の菅内閣における内閣決議は
内閣が過去の国会における重大事項との整合性を認めずに一方的に「監視法案」決めて
しまう「内閣統合失調症」の表れであると考えられます。
企業と一般人との情報格差は開く一方だな。
集合知プログラミングのナイーブベイズでフィルタリング作るやつ
特定の単語が含まれるドキュメント数/全ドキュメント数で確立求めるより
特定の単語数/全単語数のほうが感覚的にも正確にも出るんじゃなかろうか?
スタッキングって別々の学習アルゴリズムに同じ訓練データを用いて分類器作った後に、それぞれの分類器に訓練データと違うテストデータを与えてその出力結果を属性とするデータをもう一つの分類器で出力するであってますか?
多分日本語でおkって言われそうなんですがググッても出なかったのでお願いします。
306 :
デフォルトの名無しさん:2011/06/06(月) 09:56:14.94
308 :
デフォルトの名無しさん:2011/06/06(月) 22:16:24.22
>>306-307 非常にありがたいです。願わくば、現場で行われているテキストマイニングによる
大量データの活用での場面のような、実践的な話題を紹介してくれるとうれしいです。
自分が読んだ範囲では那須川 哲哉 氏による「テキストマイニングを使う技術/作る技術」
が実践で培われたノウハウに富んでいて役立ちました。
309 :
デフォルトの名無しさん:2011/06/10(金) 21:46:39.09
出会い系サイトで相性の良い相手を推薦するのはクラスタリング?
回帰分析
協調フィルタリング
一様分布ベースの統計推論モデル
色んな方法があるんだね
みんな聞いたことある単語並べてるだけだぞ
!(◎_◎;)
316 :
312:2011/06/13(月) 18:17:39.50
誰もツッコんでくれない…
この分野で読んでためになるOSSのコードありません?
協調フィルタリングって最近傍法?
kkベースのアルゴリズムもあれば、そうでないものもある。
スタッキングとかカスケードとか解説してるサイトないかな
サポートベクトルマシンとニューラルネットワークまじ難しい
その数学が戦略を決めるって本面白いね
教師は馬鹿って内容の本だったっけ?
何かの専門家よりも絶対計算が常に勝るって本。
人間の予想は最低の回帰分析にすら劣る、みたいな感じ
翻訳が山形浩生なので買うの躊躇してる。
おまえら、どの言語でプログラム書くの?
状態遷移もつし、この分野はhaskellやocamlで書けんよね?
行列がプリミティブな言語ならなんでもいいよ
R,matlab,python,c++,java,ocamlあたりで
意見が分かれてくれたら面白そうなんだがなー
>>329 速度は出るのかな?
この分野、cpuやメモリがまだまだ非力だと実感する場面が多いし。
F#もなんかあったっけ?
>>330 http://swik.net/scalalab >The scripting code is extremely fast, close to Java,
>and about 20-40 times faster from equivalent Matlab .m scripts!
ScalaLab(ScalaSci) は、Javaと同等でMatlab mスクリプトより 20〜40倍速いそうです。
これはScalaがJavaと同等の速さだから当たり前ですね。
Incanterは動的型付言語のClojureで書かれているので
Rには勝てても静的型付言語には太刀打ちできないでしょう。
この分野はPythonでしょ。
数理計算得意だし分かりやすい
浮動小数点演算のバグやSTLとテンプレートのエラー、
ポインタ周りのバグ取りに疲れたので、
型推論してくれるocamlを試してみたいといった銀の弾丸を探しをしたい気分
pythonなんて、統計処理専門のRともoctaveともつかない
半端モノのグルー言語で、しかも遅いだろうから使ってみようという意欲がわかない
「python 使ったことがない」まで読んだ
銀の弾丸を探してるのもむべなるかな
>>335 matplotlibやnumpyだったり、あれこれライブラリ入れないとダメで面倒だし
特別に速いわけでもなく行列演算に特化したリテラルがあるわけでもないし、
この領域がpythonの得意な分野だなんて、釣りにしか聞こえない
おれはc#使うけどね。
c#に統計処理とか機械学習周りのライブラリなんてあったっけ?
javaなら、まだwekaだとかcoltだとか、
数値計算周りのライブラリが充実してた気がするけど
糞遅いJavaは論外です。
R使ってる奴はいないのか〜
話が発散してきたぞ
>>337 外国人研究者のPython好きは異常(俺の周りだけか?)
ライブラリ入れないと云々なんてこまけーことを言っているようではな
windows なら pythonxyとかあるのにね
c# + SQLServerが最強だろ。
戦略的データマイニング
349 :
デフォルトの名無しさん:2011/06/24(金) 22:19:46.93
Micro$oft製のツールはこの種の用途に向かないと思う。
理由はドキュメントが貧弱だし、技術サポート情報も手に入れづらく障害切り分けに難儀する。
基幹系に乗せるのにも苦労する。実験室ならいいかもしれんが。
困ったらふつうにサポートに丸投げするだろ。
昔、PM8:00にメール投げても、AM2:00に回答メールが返ってきたぞ。
MSのドキュメントが貧弱ってw
MS以上に技術ドキュメント公開してるところなんてないだろ。
ソース以上のものはないので、
F#流の文化が浸透するのを待っている。
MSがソース公開したらMSの製品を使うのは辞めるね。
質問したら犬板みたいにソース嫁って言われるのやだし。
実際MSDNに書いてあることを質問すりゃ同じように扱われるだろ
高い金払ってMSDNに書かれてる程度のことを質問する馬鹿はいないだろ。
MSDNに書かれてないことや、書かれてる仕様外の動きをしたときに質問するんだよ。
MSのソフトウェアで困るのは、たとえば機能仕様が見当たらないとか、文書では説明できない問題
に突き当たって後にも先にも進めなくなる。 MSDN を利用すれば解決するのかな?
自分の経験の範囲でいえば Oracle の技術情報が一番マシだったと思う。興味があれば読んで
見て欲しい。
たとえば、機能仕様はリファレンスマニュアルとして無償で参照できるし、
開発者向けのライセンス制度を使えば製品と同じソフトウェアやマニュアルをダウンロードして、
実機で評価したりアプリケーション開発することもできる。
無償でこれだけできるのは個人ととしては助かる。
有償のサポート契約を前提になるが、技術ノウハウ、未解決のバグ情報、修正ソフト、バージョン
アップ版が参照できる。 インシデントは何件でもサポート契約内に含まれるのは開発者は助かる。
しかしOracleは高いのが難点。保守料金はライセンス料の一定額 (たとえば22%) が毎年かかる。
全てのパッチもバージョンアップもサポート依頼も有償でないと入手できない。 研修もかなり高額。
それでも金さえ払っていればメインストリームから落ちても最低限のサポート (=回避策) が
得られるのは企業としては助かる。
余談だが、Oracle製品については日本語の対応にばらつきがあるので十分に検証した方がいい。
主力のデータベース製品や、買収した会社に由来する製品はいいが、Oracle由来のソフトは
日本語の下ではタコなものもあるし、突然ターミネートしたりとリスキ−。
ドキュメントを日本語訳してくれることは評価するが、翻訳の品質のばらつきは大きい。
oracleは対応が遅すぎ。バグや詳細書くと訴えられるし。話にならない。
卒論のための良いアイデア教えてくれ
名門大学に入るための独立変数の相関関係を見つけるとかどうよ
親の収入だな
何番煎じって感じだな
>>362 機械学習は結論よりも方法論の方が重要だから、結論が分かってることから始めるべき
ロジスティック回帰で有名大学に入れる確率求めるとか楽しそうじゃん
新しくパターン認識のためのサポートベクトルマシンって本が出てるぞお前ら
367 :
デフォルトの名無しさん:2011/06/27(月) 23:35:43.41
質問です。
サポートベクターマシンは計算に時間がかかるとの話ですが、
確かに最初に訓練データを使って分類モデルを構築する際は、
計算時間がかかると思うのですが、
一度構築した分類モデルを使ってなにかを認識する際はそこまで
時間がかからない気がするのですが、、、
この認識って間違ってますか?
あってる
369 :
デフォルトの名無しさん:2011/06/28(火) 12:12:50.63
また、質問なのですが、
特徴量選択(SFS, SBS, SFFS)というのと主成分分析は、
どちらも特徴量を減らすことを目的にしているのですが、
2つの違い(メリット、デメリット)を
教えていただけないでしょうか?
線形前提かどうか
373 :
デフォルトの名無しさん:2011/07/02(土) 01:23:28.59
色々やってみてどうしても分からないので質問させてください。
Wekaのニューラルネットワークって、複数の入力に対して複数のアウトプットを
設定することってできないんですか。
ニューラルネットワークの良書教えてください
やだ
ゴミなんかに話しかけないほうがいいいよ
どうせ
>>376 こういうゴミしかいないんだからさ
実際のデータ集めるときにhtmlをパースしてデータセット作ってる人っている?
データセットいちいち手入力じゃ死んじゃうしかといって仮想データで予測しても仕方なくて困ってるんだよね、、
ここム板なんだけど?
コーヒーを?
>>378 Webからデータを集める方法を知りたいのなら、
「スクレイピング」でググってください。
ここム板なんだけど?
そうなので?
Webからデータ取得してDBに突っ込むプログラムを書くだけ。
こんな単純で定型的で基本的なプログラムは1日もかからないだろうに。
>>385 実装はpythonとポスグレで1時間かからんだろ。
あとはどれだけ偏りなくクローリングさせるかが勝負。
裁判所の判決データから罪状と判決、犯人の性別やら事件への反省、無罪の主張とかで判決予測したいんだけどやっぱりそんなに詳しくまとまったデータがないから困った。
みんな真似しないでね
まとまったデータがほしいって、まとめるのがお前の仕事だろ。
機械学習(特にNNやSVM)を社会現象の解析に用いようと考えているのですが、
複雑な交互作用を持つ現象をどう要素毎に分解して、更に説明変数に加工するか、
ということで途方に暮れています。
紀伊国屋みたいな大きな本屋へ行っても、機械学習絡みの本は原理を解説するか、
エンドユーザー向けにSPSSやRの操作を解説するような本ばかりで、実際に説明変数を
どう作るか、どう複雑な現象を解析するか、といった実践向けの本が見つかりません。
洋書でも良いので、良い本があればどなた様か教えていただけないでしょうか。
>>390 早速のご回答、感謝いたします。
特に分析手法までありがとうございます。
ご紹介いただいた本を調べてみますね。
丁寧な回答、重ねて感謝申し上げます。
6.マシンラーニングと5.のパターン認識の
違いってどうなの?
この分野の統計的手法なら多変量解析の勉強始めたら良い?
回帰分析なり判別分析なり
すべて必須です。
全てを統計解析を理解して、その中から最適な手法を選択する必要があります
目的や取得可能なサンプルデータ数、計算速度等いろいろな条件があるしな
適当な論文書くだけなら、一番新しそうな手法選んでちょっと変わったことやるだけで良いけども
この分野でももっとも尊敬される研究の一つは
データセットを整備することがある。
2ちゃんでも、AmazonやRakutenでの評判でもいいが
研究の素材として使えるだけの素性ををもっていればその
努力を買うよ。
SVMの詳しい方法なんて知らなくても適用事例が分かれば良いよね・・・自分で実装するわけじゃないしさ
カーネル選択とか前処理ぐらい出来んと話にならんな。
今この分野の勉強をして途方にくれているのですが効率の良い勉強方法は無いですかね。。。
今はとりあえず勉強した手法をPythonでプログラミング化してみたりとしているのですがwekaなどのソフトがあり無駄なことをしている気がします。
学んだ手法を用いてサンプルデータを解析してみたり、ブログの分類などの応用事例に手を付けたほうが良いんでしょうか?
自分と似たような研究論文を読んで、それを足がかりに掘り進めるのがいいんでない?
402 :
デフォルトの名無しさん:2011/08/09(火) 09:40:34.79
初学者と実際に研究にコミットしている人間じゃ大違いじゃないか?
初学者が引用もされないレベルの研究論文を見つけてそれを参考にしたら
とんでもない遠回りをすることになる。
>>400 アルゴリズム自体の研究をしたいのか、応用の研究をしたいのか、でしょ。
アルゴリズム自体の研究するなら自分で実装して一杯データ喰わせて体感したほうがいいし、
応用の研究したいなら筋がいいライブラリ使ったらいいんじゃね?
いずれにせよ、色んなデータ喰わせた経験積んでナンボの世界だわな。
>>400 難のために勉強してるのか文面を読んでも分からないよ。まず自分の活動する目的を
ハッキリさせた方がいいと思う。
先生のもとについてるなら基礎研究なのか応用なのか相談しては?
>>401-402 早速論文を漁ってみたのですが協調フィルタリングを使った観光地推薦などとても興味深くて自分のやりたいことが分かったような気がします。
なかなか難解な論文が多くて大変で学生の卒論レベルのものがちょっと見てみたかったり。。。
>>403-404 やりたいことは応用事例なので何らかの手法を用いた応用事例を考えて実装できるように頑張ります。
それで手法の勉強が必要だったら手法の勉強をする。
自分の中で目的が明確になってなかったのが問題だったと思いました。
皆さんありがとうございました!
>>405 場合によるけど、学会に出ると、卒論レベルの発表に遭遇することがあるよ。
ポスターの説明員などをつかまえて、研究手法などを聞き込んだりすると良いかも。
>>405 > やりたいことは応用事例なので何らかの手法を用いた応用事例を考えて実装できるように頑張ります。
ありがちな間違いだけど、
使いたい技術のために応用事例を考えるんじゃなくて、
現状困難な問題を解決するためにその技術がどう役に立つかを考えるんだ。
そうすると先行研究がわかり、君の研究の貢献を位置付けることができる。
>>407 君、彼に何がいいたのかよくわかんないよ。
彼は、問題の解決のために、手法を模索してるんでしょ?
>>405ですがご指摘頂いたように勉強した手法から応用事例を考えるのではなくて問題解決のために手法を勉強することが大切で手段と目的が混同してしまっていますね。。
やりたい目的の為に手段を勉強していることを忘れないようにしたいです。
後一度学会に出てこの分野の研究者の話を聴いてみたいなと思いました。
重ね重ねになりますが皆さんありがとうございました!
画像イメージファイルのカラーヒストグラムを作成して数値テキストデータに落として、クラスタリングかけたら類似画像検索システムができたよ。
はあ。そうですか。
本気なんだか。冷やかしなんだか。
417 :
デフォルトの名無しさん:2011/08/15(月) 10:41:11.04
おまいらICMLの論文とか読めるん?
全くをもってイミフなんだが。
まだまだ勉強が足りんか・・・
意味不明な研究も多いからなぁ
アメリカ出張か、いいなーー。
報告は大変そうだけどw
420 :
「位置ゲー」による個人情報の流出に気をつけよう:2011/08/19(金) 03:25:56.84
おれも統計とか機械学習とかやろうかなって思って色々いじってみてわかったんだけど、
R、python, matlab, mathmatica ← こいつらプログラミング言語としてはゴミレベルww
なんとかしろよ。
じゃMahoutかBoostでも使えばいいだろカス
Boost=なまごみれべるwww
じゃ、自分で書けば? がんばってねー(棒読み
>>421が高速統計ライブラリを作ってくれるそうです
NHKのサイエンスZEROで人工知能ワトソンの特集をやってたよぉ
421じゃないが、確かに現状の統計処理とか科学計算系のプログラミング用の言語とかライブラリって
なんかセンスがないな。言語やライブラリとしては素人くさい。使ってて恥ずかしくなるレベル。
馬鹿のドヤ発言か。
使ってて恥ずかしくない言語は何?
そうだな。
使ってて恥ずかしい言語ってJavaとかだな。
あんな糞遅い言語を数値計算で使うとかあり得ないよ。
恥ずかしくない言語
科学技術計算ならfortranでいいんじゃね
今時、演算子オーバーロードができない言語なんて読みにくい。
行列すら a = b +c って書けないんだろ?
C++使ってろよ
rubyじゃだめか。
>>421 何と比べてどんな所がゴミと思ったのか具体的に書いてください。
実行速度?オブジェクト指向でないから?関数型でないから?
何が不満なのか書かないと他人には意味不明です。
>>431 数値計算の話だから、起動時間やGUIライブラリは関係ないですよね。
Javaはプログラミング言語を実行速度別に分類すると
トップグループに入るのですが、何と比べて糞遅いのですか?
たまに伸びてると思ったら
439 :
デフォルトの名無しさん:2011/08/19(金) 22:19:58.62
>Javaはプログラミング言語を実行速度別に分類すると
>トップグループに入るのですが、何と比べて糞遅いのですか?
ここ笑うところ?
バカが必死で上げてるな
441 :
デフォルトの名無しさん:2011/08/19(金) 22:34:01.05
うんこ
442 :
デフォルトの名無しさん:2011/08/19(金) 22:43:56.02
Javaより遅い言語を探すほうが難しい。
>>442 スクリプト系は全部Javaより遅いんだが。
IBMが人間の脳を模倣して知覚や認知を行う、
新世代のコンピュータチップを開発したことを発表しました。
高度なアルゴリズムとシリコン回路を使用して、
人間のように経験から学習し、相関関係を発見し、
仮設を立て、成果を記憶する「認知コンピュータ」をIBMは構想しているとのこと。今回の発表では、すでにそのプロトタイプのチップ2つが作成され、現在テストを受けていることが明らかにされています。
そのゴミじゃない言語でライブラリを自作できない
>>421
>>431=
>>439=
>>447ですよね?
レスがひとりよがりすぎて頭の悪い煽りにしか見えません。
どう間違っていると思うのか具体的に書いてください。
もしかしてJavaの起動時間より短い時間で実行できるような
数値計算しか考えていないのですか?
バカを相手にしてるとバカになるぞ
まあ、言語としてのレベルなら
R,Python,Matlab,Mathmatica, こいつ等が言語としてゴミレベルじゃないと思ってないやつなんていないだろ。
素人がドヤが押して発言してるのが目に浮かぶww ま、わらわせんなwwってとこだねww
Java信者が馬鹿すぎて笑える。
遅すぎてあらゆる分野で使い物にならず、
サーバーサイドでしか使われてない現実を未だに受け入れられないとかw
夏だなぁ
しかたないよ。統計とかやってるひとに言語的なセンスを求めるのがそもそもあやまり。
こまっちゃんのソース読んでから言えよw
だれだよそいつ、頭悪そうなきもいやつだなww、こまっちゃんw^1000 わらわせんなw
統計とか微分方程式とかその辺は(少なくともその初歩は)大学の理系なら誰でもやるからな…
一方、言語理論とかは一部の専門のやつ以外はまったくやらない
この非対称性がこういう問題を生じさせるのかもしれませんね。
なんだ、モグリか。
精々、大学生活最後の夏休みを満喫してなw
この分野で言語理論系でこまっちゃんといえば、あの人でしょ?
言語理論って何? しらない? 統計やってきた人はそんなもんしらないでしょ。
>>459 は?ノンパラベイズの応用研究の結構な割合が自然言語系だろw
さっさとゼミの予習でもしてろ
>>456-460 まじでおまえら頭悪すぎwwww
言語理論と自然言語処理は違いますwwww
まじでもぐりだわこいつらwww
462 :
456:2011/08/20(土) 17:08:59.85
>>461 はぁ、だれも自然言語処理とか言ってないだろ。言語理論って形式文法とかのことだろ、馬鹿はお前。
統計的統語論ぐらい理解した上で言ってるのか?
はぁ形式文法なんて言語理論の前提だろ。さらに自然言語処理みたいな雑魚が出てくる場所じゃないんだよwww
統計処理系言語のごみっぷりを非難されて、この発狂振りww
わらわせんなwww
>>465 で、統計的統語論は勉強した?
まだだったら、いまのうちに統計の復習してなw
統計なんてうえでどっかのばかもいってたように誰でも学んでるwww
あとは形式的な統語論さえわかってれば誰でも理解できるだろ。
こんなところにわざわざドヤ顔してだしてきてんじゃねーよw
そもそも、自分らが使ってる統計処理言語のくそっぷりにどんだけむじかくなんだwww
俺は使い始めてからイラ付いてイラ付いてしょうがないねwww
こんなごみをつくってるやつは、まず、ゲーテルの完全性定理くらい理解してからにしてほしいねwww
わらわせんなwwwww
ああ、やっぱり統計的統語論すら知らないレベルか。
高校生か学部生か知らんが、時間を大切になw
ああー統語論もしらない院生(笑)かwwww
統計処理言語のゴミップリを指摘されて発狂して、統計的統語論なんていう恥ずかしい用語を持ち出して得意げになってる暇があれば
自分の勘違いをただしたほうがいいよwwww
まじでわらわれてるだけだからさwwww
そろそろ晒しとこ
痛々しすぎる
統計云々機械学習云々いったところでプログラミングは素人だから仕方が無い
いまんとこ晒されてるのがR,Python,Matlab,Mathmatica,そしてJavaか
でも、代りにどんな言語が良いか質問しても答え返ってこないよね
まあ、煽るのだけが目的の最底辺の低能だから
答えなんて持ってないだろうけどね
もう良いだろこの話題
R,Matlab,Mathmatica と python, java じゃちょっと区分が違うだろ?
ま、javaやpythonの数値解析系のライブラリはだめだめだとおもうけどね。
Mathematicaだっての。。
同じ奴が自演してんのか?
うえのをこぴったMath"e"maticaだね
てか、草を生やす時点でまともじゃない
具体例がなきゃただの水掛け論に終わるんだが。。
ここにいるのは、大学教養を過ぎた連中が多いと思うんだが、
もう少し精神年齢の高い書き込みしようぜ。
中身のあることについてだけ話して、あとはスルーでいいよ。
ゆとりのガキかよ。
ここの住人は8ビット時代から機械語でバリバリコード書いてた奴ばかりだよ。
いや、バカはフルボッコにしておいたほうがいいな。
知能==スタイルシート
と仮定すればExcelが良い
つか機械学習の話題でマセマテカは普通入れないよな。
やったことないのがバレバレ
代数的な素質が無い馬鹿↑ 普通に使うよwww
>>484 使うかどうかじゃなくて、典型的な言語として話題に挙げないよ普通は
>>484 具体的にどんな学習アルゴリズムを実装したか言ってみろw
なんで数式処理なんて回り道するんだ?
数式をしらない幼児が学習できないとでも思ってるのか
ああそうか、君がそうだったんだね
これは失礼
自己紹介乙
反論できない人間の典型的な反応だな
どっちもな
議論がなんかかみ合ってない気がする(ま、まともな議論じゃないけど)
私は言語設計やライブラリ設計のどこがいけてないのか素直に気になります。
もちろん統計解析とかやってる人は言語のプロではないので、だめな部分はあると思う、
そこがどこかが気になる。
携帯用のCコンパイラ位なら普通に作ってるよ
もちろんアセンブラを先に作るけどな
中間言語をS式にするかRPN形式にするか、その他にするかは
ハードウェアの仕様で決めるけどな
いや何、電力事情がどうか知らんが
コンパイルを電力食いのパソでするより携帯でやってしまうほうがイィ!
っていう要望があってなwww
ごめん、もう10年も前に通った道なんだ・・・
あれ〜俺の作ったCコンパイラ実行文の途中での変数宣言を受け付けてしまったぞw
まあスタックポインタずらすだけだし関係ないやw
あまり恥ずかしいレスするなよ。
名無しで恥ずかしいもクソもないだろ
恥ずかしい言語使いながら、あまり得意げになるなよwwwwww
501 :
デフォルトの名無しさん:2011/08/22(月) 01:15:46.80
言語は道具
自転車に乗ろうと自動車に乗ろうが、乗る人間が変わるものじゃない
そんなことで得意になったり恥ずかしがる理由があるものかね?
言語に振り回される程度のレベルか・・・
大体、使っている言語が気に食わないのなら
自分で新しい言語を作ればすむ話だろ
道具とか言い出したら、もうなんでも道具だよwwwwww
機械学習も道具、統計処理も道具、何でもかんでも道具wwww
でもその道具の良し悪しで、結局のところいろんなことが決まってくるんだよwwww
いわゆる「俺言語コンパイラ」を作ったこともあるが
公開したところでオナニーにしかならないのでね・・・
そんなひまねーからいってんだろwwwwわらわせんなwww
お前等みたいなニートとはちげーーーんだよwwww
まじでまともなのないの、使ってていらついてんだけどwwwwwww
>>505 ここに書き込む時間を削れば多分作れると思うよ
なぜ突然キレてファビョったのか・・・謎だ・・・
自分もコキ使われるだけの道具だと気づいたのさ。
>>421以降でたくさん草を生やしているレスは全部同一人物ですか?
R,Python,Matlab,Mathematicaがゴミだと思う理由を書いてください。
あなたが判断基準を一切書かない以上、
誰もあなたの基準でまともな物を紹介できません。
ゴミじゃなくて道具
無いものをいくらねだっても決して出ないよ。
それより、誰かPL/SQLでRPN系の言語系のパーサーを作ってくれ。
FORTHでもいい。
Oracle上にあるテキストデータの解析やマイニングの手続きを記述する。
きれてないですよwwwwwwwwwwwwww
ってかふりーんだよwwwwふりそのものがさwwwww
R使ってていらつかないのか???????????
Weka使ってていらつかないのか??????????
python,SciPy使ってていらつかないのか??????
Maxima使ってていらつかないのか?????????
どんだけ、どMなんだよwwwwwwwwwwwww
>>513 返答ありがとうございます。やっと状況がつかめました。
つまりR,Python,Matlab,Mathematicaに固有の欠陥があるのではなく、
どのプログラミング言語もうまく使えなくていらついていただけなのですね。
うまく道具をつかいこなせていないと
はぁwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
あふぉかwwwwwwwwwwwwwwwwwwwwwwwwwwwww
てめぇwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
自分のどMっぷりを棚に上げてとんだ言い草だなwwwwwwwwwww
ワラワサセサンナwwwwwwwwwwwwwwwwwwwwwwwwwwww
残念だけど君には向いていないと思うよ、心も体も壊す前に休んだほうがいいと思うな?
月曜の朝は近い
締め切りが・・・
取りあえずRねwwwwwwwwwww
こいつは、行列の各要素に対しての操作が終わってる。まじ面倒。
というか、もうデータフレームというオブジェクトの設計がそもそもめちゃくちゃwwww
関数を適用すること以上のちょっと複雑なことを使用とするともう最悪wwwwwww
まじアセンブラレベルwwwwwww お前等いつの時代に生きてんだよwwわらわせんなwwってかんじww
いい加減草生やすなよ痛いぞ
よくわからんが、追い詰められて余裕がないんだろ
こんなときには人間の本性が表にでてくるんだろうな
自滅は時間の問題だが、餞別がわりにしばらく付き合ってやれよ。
wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
これくらいで追い詰められてると思うお前の精神状態の方が心配だよwww
キチガイうざ!
うぜwwwwwwwwwwwwのはてめwwwwwwwwwwwww
524 :
デフォルトの名無しさん:2011/08/22(月) 11:13:30.53
ゲーデルの完全性定理を「ゲーテルの完全性定理と言ったり
道具を満足に満足に使いこなせないことを道具のせいにしたり
これほど自分の無知と無能をドヤ顔して晒すヤツを、自分はuy以外には知らないな
結論:高卒のuyには無理
Σの使い方を教えてくだしあ;;
>>524 よくいるんだよ、そういうどうでもいいとこ指摘してで鬼の兜とったような気になってる地頭空っぽの院生がさwwwww
どうしょうもねーよwwwwwwwwwwwwwww
2chで誤植を指摘するって2ch素人だけだろ。
当の言語の話をしてんのに間違えるってのは、口からでまかせ吹いてるからだよ。
つーか、ゴミクズはさっさとうせろよ。
wを連射する奴に○○外が多いって法則は、
あながち外れてないな。
uyって何ですか?
クソコテ
識別モデルと生成モデルの違いを簡単に教えてください
識別モデルは料理評論家
生成モデルは料理人
全然分かりませぬ
537 :
デフォルトの名無しさん:2011/08/23(火) 23:11:14.70
だれだよuyって馬鹿はwwwwいっしょにすんなwwww
誤植指摘して調子こいてるのは2ch素人だけじゃなくて院生にもゴミのようにいますwww
何を今更w
他人にフリワロスwww
541 :
デフォルトの名無しさん:2011/08/23(火) 23:24:54.90
他人のフリワロスwww
高卒のuyは学歴コンプレックスが酷くて院生を目の敵にしていたな
丁度
>>537のように
院生ずぼしwww
わらたwww
uy名無しで乙
精神病院生一匹発見。通報願います。
てかおまえがuyとかいうやつだろwww
wと一緒に悪臭放ちすぎなんで、保健所送りにしてもらえないですか。
精神病の院生はおまえ。院生がかっこいいとでもおもってんのかw
俺はRについてかいてやっただろ、お前は何も書いてないw
ど素人だなw
自宅警備員なんで強制連行は無理です
どうやったら掲示板から臭いがすんだよwww
あ、そうか、普通に考えてそれはお前の臭いだろwwwおめーがくせーんだよww
自分が悪臭はなってるから臭うにきまってだっろ。
くせーーーーーーーーーーーーーーーーーーー
今時、院にコンプとは恥ずかしすぎ、誰でも行けるだろ。
もちろん、正常な精神を持ち合わせてたら、の話だが。
あれがまともに見えるか?
誰でもいけるといっときながら、院にコンプを持ってると思ってるという発想が終わってるwww
それこそコンプの証拠wwwいったいお前をそこまで発狂させるのは何なんだよw
おれは、Rとかがゴミだなっていっただけだろwwww
日本語は理解できるかな?
人に言われたことをオウム返しにしか反発できない奴、小学校によくいたな。
ネガティブな感情をぶちまけることしかできない、知的水準の低い可哀想なやつだな。
この板、IDつかないのかな。フィルターかけたいな。
学習屋なら自然言語処理でフィルタリングすべき
はぁ? 院なんてだれでもいけるんだよ、これはもうこれ異常ないくらいの事実w
にもかかわらず、院にコンプを持ってるって言う発言が出る時点で、
おまえ(図星で院生wwだった)は院が特別だと思ってんだよwwww
どんだけ低レベルなんだよwww
名指ししていないのに、的確に反応してるなw
きちんと自己分析ができている。精神病院生とは失礼だぞ!
草が三回生えた時点でアウトだね、フィルタさせてもらうわ。
自然言語処理wwwwwwwwwwwwwアプリ乙
w=草っとか言ってる時点で同類だろwwwwwww
>>558 唐突に誰でも行ける院生を叩いているから、
変な人じゃないかと思われてるんだろ
院生はたたいていませんwww
誤植指摘して得意げになってる院生がリアルにも2chにもいたから指摘してあげただけです。
ゲーデルとゲーテルの違いくらいで得意げになるのは2chだけにしなさいよwwwww
触るなよ草が生えるぞ
誤植指摘されただけで、ここまでムキになるってのも。。
大した研究成果もないから、誤植指摘でプライドズタズタなんだろ。
察してやれ。
無理に背伸びして慣れない言葉使ってドヤ顔しようとして、失敗したのさ
ゲーテルって書いてある本もあるよ。
今はゲーデルの方が圧倒的だろうけど。完全な誤植とは言い切れない。
それとも誤植と言うことでゲーデルに統一されたのかもしれない。
自分で誤植って認めてるだろ、何を言ってるんだ
むきになってなんかないけとwwww
Rがゴミって言われて、大発狂してるのはおまえだろwwwwwwwwwww
ゲーテルは普通に誤植だろw
相手が弱みを見せてるときは煽るのも効果的だけど
自分が弱み(誤植した等)見せてるときに草生やして煽っても
相手は少しも悔しく無いんだぜw
誤植をどこからどう見たらどこが弱みになんだよwwwwwwwwwwwww
ワラワセンナwwww
おまえもっと気持ちを強く持って生きたほうがいいよ。この先さw
このスレもう終わったな
精神に問題があり、Fラン万年助教に島流しにあったのか。
レベル間違えてるから、そもそも大学いってないよコイツは
多分・・・
今時の高卒は希少価値があってうらやましいなw
Rがごみだって事実をいっただけでこれだけの大発狂っぷりにはわらわされますねwwwwww
すみませんニューラルネットワークで入力層60, 中間層180で
線形伝達関数を sigmoid(s) = 1.0 / (1.0 + e^-1.0*s)で計算を行ったところ
sの値が30程度になってしまい常に値が1.0となってしまいます。
e^-1.0*sの値が小さすぎることからだと思うのですが解決策分かりましたらお願いします。
大学行ってようが行ってなかろうが2chじゃ関係ないだろwwww
大学なんていまどきだれでもいけんだよwww
大学いってないっていうのがあおりになってると思ってる時点でOUTwww
そもそも大学も行ってないやつがこんなスレッドに書き込むかよ。本気で頭悪いなおまえ。
真面目な書き込み、びっくりするなぁ、もおw
>>578 ゲーテル閣下が、機知に富んだ回答をしてくださいます。
しばしお待ちを。
583 :
デフォルトの名無しさん:2011/08/24(水) 01:06:46.46
>>579 >レベル間違えてるから、そもそも大学いってないよコイツは
>多分・・・
「コイツ」としかいってないのに、自分のことだと分かるということは・・・
白状乙(笑)
難問に頭を抱えて逃走か!?
はぁ、おまえが答えてやれよw専門なんだろこのあたりがwwww
俺は使う側だから、学習とか統計解析とか、だからRとかいじってんだろーが
お前Rなみにひでーな
高卒の俺でも分かるのに難問?
精度上げるしかないだろ
256ビット浮動小数点ライブラリ使えよ
閣下、ドヤ顔の言い訳、恥ずかしすぎます。
高卒の俺も笑っていいですか
哀れんでください。
高卒と詐称してぎゃっぷつけたいのかよwwwwww
ほんとあたまわりーなwおまえwwwwwwwwww
しらないものにドヤ顔して答えるわけにはいかないだろ、ま、お前みたいな馬鹿は
どこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
そんな態度は2chだけにしとけwww
591 :
デフォルトの名無しさん:2011/08/24(水) 01:26:31.59
え?ゲーテルってドヤ顔したのは何処のどいつだったっけ?
今日の金言
>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
ゲーテルの誤植は必死に言い訳できても、これはいかんなあ。
ドヤ顔はしてないよwwwww
述語論理の完全性定理くらい理解して言語設計しろとはいったけどwwww
ゲーテルってゲーデルのこと??その誤植にまだこだわってるのwwwww
詐称がばれてまた発狂かよwwwww
見事な発狂っぷりだな
>>586 精度を上げるしかないんですね
解答ありがとうございます。
>>596 こんな状況で申し訳ない、次回から他スレで質問をお願いします
今度は専門用語並べてドヤ顔か
簡単な数学ができてからにしようね
かなり言語設計に問題がありそうな気がするが
こんな状況wwwwwwwwwwwこれが状況と呼ばれるようなものなのかよwww
どんだけお前のせかいせまいんだよwww
さらに、専門用語wwwwww
まじで意味わからんwwwwどこのことを指しているのかまったく不明wwww
ニューラルネットワークは専門用語でなくて完全性定理(<--ここかな?)が専門用語?????
まじお前院生病だわwwwwww
見事な発狂っぷりだな
>>527 荒れるのは望みませんが、これだけは言わせてください。
「鬼の兜とった」は「鬼の首とった」が正しいです。
機械学習の力でこいつを識別してNGにするフィルタを作れという天からの出題だろ
草生やしてるからテキスト処理だけで十分
たとえ本人でなくとも草生えてるレスにはろくなものがないから
すれが止まった。結局お前ら等機械学習よりあおりあいの方が好きなんだな。
このグラフどうやって作ったの?面白いね!
>>578ですがやっぱり上手くいきません...
中間層が180個もあるので一つの中間層の値が0.5として全ての重みを0.5としても180*0.5*0.5=45でこれをシグモイド関数で計算するとe^-1.0*45は限りなく0になるので値が1になってしまいます。
>>608 教師データと合うように重みを変えていくわけだから
それができないってことは学習アルゴリズムがバグっているか
教師データが間違っているのでは。
>中間層の値が0.5として全ての重みを0.5として
0.5というのはどこから出てきたの?
>>606 日付ごとのレス数を棒グラフにしたら止まったかどうかわかるんじゃないかな
>>609 初期では重みをランダムで[0,1]の範囲で与えているので入力層:60、中間層:180とすると入力層で与える値が全て0.1だとして重みの平均は0.5なので一つの中間層の値はΣx•w = 0.1•0.5•60=3
sigmoid(3) = 0.99..となり
次の出力層の値はΣx•w = 0.99•0.5•180=90
sigmoid(90) = 1.0 になる始末です。
入力層、中間層の数を少なくすれば機能することは確認済みなのですがやはり数を多くすると上記の不具合が出てしまいます。
大人しくwekaでも使ったほうが良いですかね...
>>611ですが自己解決しました。
ご迷惑おかけしました
>>611 入力がなんだろうと重みを調節すれば出力値はどうにでもなる。
中間層の数が増えれば、各ユニットの重みが減るというだけで、
それができないというのは学習の処理がバグっているのでは。
解決したならいいけど。
誰かIBMのワトソンみたいなの作って無料で公開してくれないか?
日本語で分かるやつ頼む。
.
実際マイニングするより下準備のほうが大変だよね。
今いちいち手入力でデータセット打ち込んでるわ・・・
データから作ると大変だよな。
ここム板なんだけど?
RもCもパイソンもゴミだった。
来年は北京だってさ
>617
SMAP が新しくなった?
卒論で競馬や野球といったスポーツの多変量解析をテーマにし、
将来の成績やタイムや順位を予測するモデルを考えているのですが、
分からないことがありますので、ご存知でしたらどなたか教えて下さい。
まず、競馬にしろ野球にしろ過去成績データを説明変数として重回帰分析等の
モデルを作ろうとした場合、どの期間をデータとして使用するか、手掛かりが
掴めないのです。
626 :
625:2011/09/02(金) 08:57:46.26
安定性を考え、なるべく長い期間を取るべきとは思いますが、
具体的に どの位の期間を取れば良いか分かりません。
また長期間の成績データを使うと、最近調子が上がった馬や選手等の
直近の成績は活かせないし、長期間の過去データが存在しない新人や
新馬はどう予測するのか途方に暮れています。
野球なら新人を分析データから外せば良いかも知れませんが、競馬なら
新馬もレースに参加するので無視できないし、新馬の扱いが分かりません
627 :
625:2011/09/02(金) 09:13:54.48
それにしても野球も競馬も背景の違いを扱いのが難しいですね。
野球の打率やら出塁率やらは、相手のレベルが違いますし、
競馬のタイムも走った場所や馬場の条件等が違います。
背景が違うものを比較するのに、多変量解析でファクター毎に
線形に分解して影響度を比較しようと考えています。
628 :
625:2011/09/02(金) 09:19:51.56
たとえば、競馬のタイムなら競馬場、芝・ダート、馬場等のファクター
毎に分解して、他の条件が同じならダートの方が芝より○秒早い、
と言った感じで分析したいな、と思います。
これは例えば競馬場ごとのタイム差が有意かどうか検定を行い、
2元配置分散分析等で交互作用を分析し、ダミー変数や交互作用項を
利用して、重回帰分析の偏回帰係数をファクター毎の影響度と見なして、
分析するのが良いでしょうか。恐れ入りますがお知恵をお貸し下さい。
629 :
625:2011/09/02(金) 09:26:24.63
野球にしても競馬にしても日本語で読める統計やデータマイニング
絡みの本が少ないですね。
Sabermetricsは「メジャーリーグの数理科学」他数冊しかなく、
「メジャーリーグの数理科学」は上巻が絶版で図書館には無いし、
競馬は「実践データマイニング―金融・競馬予測の科学」位しか
無いです。
英語が苦手でも、やはり洋書で高い専門書籍を買うしかないですかね。
成長の確変を計算で予測出来たら世界が変わるぞ
野球の新人ならドラフトにかかるまでの成長曲線
競馬の新馬なら血統から求めれば良いかと
その後の成長なんて指導者や調教師や怪我次第だから、
重回帰でも主成分分析でも、あくまで肉体的な統計を取るくらいしか出来ん
学習期間を最適化したら良いんじゃないの?
つうか、やってみる前に人に訊く時点で
データマイニングに向いてないよね
分かってることを解析しても意味ないからな
635 :
デフォルトの名無しさん:2011/09/02(金) 23:13:36.51
>>634 むしろ研究の本筋は特徴量の方だろうね。機械学習自体は定番のライブラリそのまま使うのがおおいと思う。
637 :
625:2011/09/03(土) 18:34:44.44
今からFBIのプロファイリングの番組やるぞお前ら。
録画&アップ頼む
FBIと日本のプロファイリングの精度ってどのくらい違うの?
日本は冤罪率が高いので比較できない。
プロファイリングをモデルに置き換えるとしたら犯行内容ぽちぽち入力したら結果出てくる感じ?
最強なのは現場の刑事の勘
それが日本で冤罪が多い理由なんだよな。
過去の凶悪事件で報道される、捜査中でのプロファイリングって大抵間違ってるよね
あれは犯人に安心感を与える為の罠なんだよっ(キリッ
分類に不要な変数を見つけるのに決定木を用いる方法が良いかな?
多分最適化もできないと思うので
647 :
デフォルトの名無しさん:2011/09/05(月) 16:22:40.59
決定木において、二分木と多分岐の
メリットとデメリットをそれぞれ教えて下さい!
2分木は多分木の特殊な場合だろう
649 :
デフォルトの名無しさん:2011/09/05(月) 17:02:16.56
>>648 多分木のほうが処理が速いとかいったメリットってないんですか?
多分木は2分木の組み合わせで表現できるだろ。
>>651 知らないならエラそう言わなきゃいいのにw
そういえば野球選手と言えば例のその数学が戦略を決めるって本で選手の出塁率だか四球の数だかが重要な変量として有望な新人を見つけるみたいな話があったな。
後は映画の脚本で興行収入を予測したりとか
>>653 その辺りは選球眼や、いやらしい球をカットする技術を持っているかの指標だね
でも、長打力や肩や足は、生まれ持った素質でしか無いから、メジャーのトップクラスになるには両方大事
そういう個別理論じゃなくて、統計の裏付けのあるデータにもとづいて戦略を
立てろという話なんだが。セイバーメトリクスでググれ。
>>656 ところで良い統計的決定をするには
>>655みたいな
ビリーフモデルがあった方がいいんじゃないのか?
人間に解釈しやすい(事前確率を作りやすい)という意味でも
>>629 株価予測のやり方の方は実践してみた?
あの天井と底を決めるやり方が書いてないんだよね
660 :
デフォルトの名無しさん:2011/09/06(火) 17:48:52.09
半教師あり学習と転移学習の違いについて詳しく教えてください!
やってることが違う
iPhoneのAkinatorがやってることは決定木だよね。
なるべく最短で見つけるためのNP困難で工夫してるんだろうけど
ブラック企業多そうな職種
>>662 最短であることは要求されていない。
なんとなく、思ったより早く絞れればいい。
間違えて入力した時どうやって遡るのかが分からない
ベイジアンネットワークを実装しようと色々な本を読んでいますが、
変数にはガウシアンネットワークなどを除くと、基本的にカテゴリーデータ
しか使えないようですね。
そのため、数量データを等間隔に分割してカテゴリ化したり、
順序尺度に変換して分析しようとしていますが、カテゴリーデータに置き換える
客観的な指標や方法論などはございますでしょうか。
各種論文にはカテゴリーデータに置き換えるテクニックの記載がなかったもので。
それとも案外アナログに決めているんですかね?
k-meansとかx-meansすれば?
そういえば、x-meansを挙げるやつがたまにいるけど
クラスタを分割する条件が悪くて使い物にならないだろ
Wakeのx-meansも論文とは違う実装だし
ワケ?
670 :
デフォルトの名無しさん:2011/09/15(木) 22:47:31.66
キューティー・クラスタリングでぐぐれ
pythonごみすぎてわろた
来期は単位取れるといいね。
知能のあるコンピュータウイルスって面白そうだね。
遺伝的プログラミングでコードを自己書き換えしてセキュリティに引っかからないようにするみたいな
>>674 5年前くらいから存在してないっけ?
どこかのカンファレンスで、そういったウィルスの対応方法を聞いたことがある。
ポリモーフィック型という奴だな
もうあるのか〜
でもこれを研究するのも面白そうだね
ただ発表することは出来なさそうだけど
パソコン1つで1個体だと相当数感染させないと
まともな子孫作る程度の人口が確保できないよな。
そういうやり方じゃないのかな?
処理としての意味が変わらない範囲でコードを書き換えて
ウィルスのデータベースにヒットしないようにしてるだけだろ
リアルウイルスも生き物1匹の体内で大量の個体が世代交代して
たまーに他の生き物のウイルス達と混ざるわけだよな。
なんかいかにもGAの並列計算で考えつきそうなネタだな
まさに進化そのものだからな
機能そのものも変化できたら面白いのに
進化の裏に淘汰があるわけで、かならずしも思うようにならないかと。
淘汰があるから(平均的には)良くなる方向にいく
684 :
デフォルトの名無しさん:2011/09/26(月) 00:13:29.35
モバイルエージェント )チラッ
685 :
デフォルトの名無しさん:2011/09/26(月) 01:16:17.85
質問
集合K [ 2, 4, 5 ]
集合1 [ 3, 4, 5 ]
集合2 [ 1, 2, 4, 3 ]
集合3 [ 2, 4, 5, 1 ]
集合1〜3のうち集合Kを全て含む集合を
高速に特定するにはどうしたらいいだろうか。
現実には集合は大量に存在するのでビットマスクは避ける方向で。
何かいい方法はない?
686 :
デフォルトの名無しさん:2011/09/26(月) 03:50:12.78
相関係数法を使った協調フィルタリングを実装するのに一番簡単な方法を教えてください
今のところPhp(Vogooライブラリ)+SQLを利用しようと考えています
某企業は、ある日いきなり韓国メーカーに呼び出され、
VIP待遇を受けて、韓国の粗悪なメカ工場視察イベントに招待された。
後、韓国はそのメーカーに対し、
「我々は貴様らに工場視察をさせてやったのだから、日本の工場を見せろ!」
と、言いがかりをつけてきて、日本の工場へずかずかと入り込んだ。
後、韓国の工場が日本の工場の技術を盗んで、そっくりな工場を作っていたことが発覚した。
日本の技術を賞賛し、工場を視察しに行くタイプの番組が増えているな。。。
>>688 ずかずかと工場に入り込んだだけで技術を盗めるなんて韓国人ってすごいんですね
キチガイのネトウヨのコピペに反応してどうする
できないとおもうりゆうは。。
韓国の工場の製造機器なんて日本製が大量に入ってる。
だから韓国製品は日本製と品質が大して変わらない。ネトウヨはアホすぎる。
ターンキーで何でもできると考えるのはさすがに舐めすぎだけどな。
日本の工場で実際に手を動かしてるのはブラジル人と中国人だけどな
数量データを予測するのにSVMって使えるん?
samui
698 :
デフォルトの名無しさん:2011/10/05(水) 17:04:01.24
パラメトリックとノンパラメトリックの長所と短所をそれぞれ教えてほしい
699 :
デフォルトの名無しさん:2011/10/05(水) 17:29:28.93
>>698 データを生み出すモデルが想定できる → パラメトリック
モデルが想定できない → ノンパラメトリック
質問文をよく読みましょう
701 :
デフォルトの名無しさん:2011/10/21(金) 23:13:04.19
SPSS Modelerって何円?
自分の顔写真をアップロードしたらどの有名人に似てるかっていうサービスあったよね。
初心者にも分かりやすい統計分析の入門本のオススメってありますか?
巷ではRがいいと聞きましたが、そっち系の本買った方がいいのでしょうか?
統計学もツールも同時に学びたいってこと?
俺はそれぞれ別に本を買う派
それぞれのおオススメ本は?
707 :
位置情報と検証令状(2):2011/10/24(月) 18:37:47.36
この分野って、octaveとRじゃ、どっちがよく使われるもんなの?
フリーの統計ソフトウェアRのパッケージ"nnet"でニューラルネット、
パッケージ"e1071"でサポートベクターマシンを利用してマイニングしています。
-1から1の範囲で基準化した10の説明変数で判別と回帰を行いました。
説明変数の元データと-1から1で基準化したものを被説明変数として
学習し、学習データに回帰を行うと全くデタラメな数値が出力されます。
しかし、被説明変数を正の値と負の値の2値に変換したものを被説明変数と
して学習し、学習データに判別を行うと65%の精度で正しく判別できます。
なぜ回帰だとデタラメな数値が出力され、同じデータをバイナリ化したものに
判別をかけるとある程度正確な数値が出力されるのか、回帰と判別で結果が
全く異なることに首をかしげています。
こういう場合はどのような原因が考えられますでしょうか。
このスレッドは凄腕のデータマイナーがひしめいていると思いますので、
なにとぞお優しい方がいらっしゃいましたらご教示いただけないでしょうか。
オーバーフィットしてるだけに見えるぞ
クロスバリデーションしてみろ
711 :
709:2011/10/25(火) 22:34:49.48
>>710 有難うございます。"e1071"パッケージの「svm」の関数にて、
学習する際にクロスバリューデーションの回数を引数として
渡せるので、10回指定して学習させたのですが、うまく行きませんでした。
特に異常値と言えるほど大きな正・負値も無かったので、
外れ値の除去を行わなかったのですが、それがまずかったのでしょうか?
>>710 学習データに対してうまくいっていないと言ってるし
オーバーフィッティングしてないと思うけど
>>709 回帰がニューラルネットワークで判別にSVMを使っているの?
全体的になに言っているか分かりにくいけど
データ数はどれくらいなの
ニューラルネットの中間層のユニット数とイテレーション数はどうなっているの
デタラメとはRMSEなどを計算してから言っているの
713 :
709:2011/10/27(木) 22:49:35.06
>>712 返信が遅くなってもうわけございません。
WEKAを使用したらなぜか解決いたしました。
お騒がせして大変申し訳ございませんでした。
Wekaを使用したら解決したって全く別物やんけ
データとやりたいことはあっててRの使い方が間違ってたんだろ
てす
会社やめたい
718 :
デフォルトの名無しさん:2011/11/08(火) 19:48:53.06
テキストマイニング専用ソフトかな?
わざとらしい宣伝乙
質問させてください。
遺伝的アルゴリズムで1〜5の範囲で並びの順番を表そうとしているのですが
染色体A:1 2 3 4 5
染色体B:5 4 3 2 1
を用意してこれを適当なところで一点交叉させると
染色体C:1 2 3 2 1となり順番の値が重複してしまい困っています。
質問の意図が分からないと思いますがエスパーの方いましたらお願いします。
そもそもそれは塩基?遺伝子?
前者なら1-4の範囲の気がするから後者?
>>722 TSPで皆がどうエンコードしてるか検索すれば解る
>>722 構わずphenomeと1対1対応。基本。
>>723-725 返信遅くなりましたが回答ありがとうございました。
特に
>>724の方の巡回セールス問題に対する遺伝子の表現の仕方の工夫で上手くいくことが出来ました。
卒論執筆のために、皆さんにご相談したいことがあります。
短距離や長距離などの陸上競技の選手間のタイムなどを説明変数、
順位を目的変数とし、重回帰分析を行おうと考えております。
そのために、タイムなどを集めたサンプル全体で標準化したのですが、
当然陸上競技は相対的に順位が決まります。
弱い選手と当たればブッチギリで勝てる選手も、猛者と闘えば、
ビリッケツになるかもしれません。
そのため、サンプル全体の標準化に加え、更に各レースごとのタイムなどで
標準化を行ない、両者を足した説明変数を使用しております。
しかしながら、データを各レースで標準化しただけの基準値だと、
平均からどの位飛び抜けているかという情報は分かりますが、
どれ位の順位にあるかという順位の情報が入っておりません。
もし、ご存知でしたら、基準値に代わる、バラつきや平均のみならず、
順位の情報を含む距離を図る尺度をご教示いただいても宜しいでしょうか。
(ユークリッド距離のような抽象的な空間内で距離を測る指標など)
また、ブラッドリー・テリーモデルについてですが、相撲やチェスなどの
直接対戦が豊富にあるゲームにしか適用は難しいですよね?
お忙しいところ、申し訳ございませんでした。
タイム:絶対値
順位:相対値
この時点で相関出しにくいんだよね・・・
しかも短距離と長距離混ぜると、順位データとしては全くの別物になるし
理想はプロットにした時、短距離と長距離で集合が出来れば良いんだけども
なんで結論ありきなの
研究へのアプローチが間違ってる。
まずは既存のやり方をしらみつぶしに試せ。
アンサンブル学習について詳しい本があったら紹介お願いします。
今さらだけどワトソンって凄いね。
普通の質疑応答だったらもっと容易いだろうしどんなアルゴで動いてるんだろ
libSVM使ってみたんだけどdecision Valueってなんの値?
順位相関があるだろうが
因みに説明変数は、筋神経パワー,無酸素運動容量,VO2MAX, LT-Power
この中には短距離スピードと負の相関のものがある
プロファイル形状とレベルが重要になる。てかそれで説明出来る
>>734 誰も使ったことないのか?
俺も使ったことないけどsing(x)みたいな-1,1の値じゃないの
737 :
727:2011/11/25(金) 09:24:08.37
>>728,730
返信が遅くなり申し訳ございません。
アドバイスをいただき、どうもありがとうございました。
>>736 データによってもっと変わるかもだけど、-5から5くらいの実数値だった
予測ラベルと相関ありそうなんだけど、よくわからん
おまえら、なにいってんだ?
>>738 たぶん決定関数の値だと思うから
符号とって正か負かでラベルに属するか属さないか2値分類するものじゃないかな
libsvmはラベルと確率を返す関数があるようなので
そっち使ったほうがいいのでは
オライリーから入門ソーシャルデータってデータマイニングの本が出てるね
ぜひ買って感想をヨロ
Google Buzz が閉鎖されたのでオワコン
監訳者のブログ
7章の前半のGoogle Buzzは閉鎖されちゃって残念だけど、
実際には「入門 自然言語処理」で詳しく解説されている NLTK を、試しに使ってみよう、的な章になっているので、
ほとんど問題ないし、7章後半の Gmail に関する記事は内容に遜色は無いです。なので、「Google Buzz が閉鎖されたので本書はオワコン」は的な過剰な反応は無用だと思います。
自分は Google Buzz は使ってないからインパクトなし
おまえらに必要なのはそんな軽い本ではなく
線形代数と解析学、統計学の基礎だろ
そんなのとっくに大学で習ってるだろ
あ、専卒さんでしたか?
749 :
デフォルトの名無しさん:2011/11/27(日) 09:28:35.06
自己組織マップはあまり使われないのかな
入門ソーシャルデータがアマゾンから来てた
またpythonか、、、
Python使ってる俺は嬉しい。
自然言語処理の本もPythonだし
機械学習には教師あり学習、教師なし学習、強化学習があると思いますが、
ニューラルネットワークで強化学習と教師あり学習をMixしたようなモデルと作りたいと考えています。
各入力ノードの入力値に重みを付けて、中間層を介して、出力層より1か0を出力します。
通常の教師あり学習では、教師信号と出力の誤差を取り、誤差を最小にするように、
デルタ則を用いて最急降下法などで重みを決めると思います。
しかし、作りたいモデルでは教師信号が強化学習のように存在しませんが、
1を出力した場合に当たりなら報酬を貰い、外れたら-1の報酬ペナルティ、
0を出力した場合には報酬0となるようにし、学習データの報酬の総和が
最大になるように各入力ノードと中間層のノードの重みを決定したいのですが、
報酬の総和の関数を作り、数値微分で重みを決めようとしても、
恐らくやり方が悪く収束しません。
下手の考え休むに似たり、の諺の通り、アホの自分では上手く行きませんでした。
どなたか、そのようなニーズを満たすアルゴリズムやコード、ツールなどを
ご存知でしたらご教示願えませんでしょうか。
755 :
デフォルトの名無しさん:2011/12/08(木) 14:54:47.66
このスレってデータマイニングを使ってビジネス情報を分析している人の話題が多いけど
データマイニングや機械学習って他にも色々な分野と関連してるじゃん
パターン認識と合わせたWEBマイニングや自然言語処理と合わせたテキストマイニングや人工知能はスレ違い?
>何でもいいので語れ
Googleの検索候補って自分の過去の検索履歴だけじゃなくて
他人の過去の検索履歴も使ってるみたいだけど
自分のが出てくると恥ずかしいので
自分のだけは除外するようにするにはどうすればよいですか?
IMEも同意語も翻訳も似たもの同士だよな
>>757 恥ずかしいのぐらいがまんしたら?
それより、スレ違い
オープンコンプリートならブラウザで止めればいいが
Googleが出しているならアカウントをログアウトするしかないんじゃね
>>757 でもそんなに簡単に個人のモノがGoogleに反映されるものかな?
ブラウザ自身 (含む検索用のプラグイン) が記憶して、それを候補として挙げてるってことはない?
ページ上に最初から自分の検索語が堂々と表示されているか、それとも検索語を入力するための
テキスト枠に候補としてプルダウンメニューから出るかで大きく違うと思う。
前者はみんなが見られるし、後者はログインした個人毎にカスタマイズした内容。みな推測だけど。
明らかに自分が入れたことのない単語が検索候補ワードに出て来ます
ってことは他人の環境でも自分の使った単語がそのひとのところに出てるかもしれない訳ですよね
もちろんドロップダウンの話です
統計とって上位しか使っていないだろうから
おまえと同じ検索ワードをたくさんの人が入力していないと出ないし
たくさんの人が入力しているワードなら出てもいいだろ
質問よろしくお願いします。
今アソシエーション分析を行っているのですが、
条件部となるアイテム集合をAprioriアルゴを用いて抽出したのは良いのですが
その後のルール抽出作業において結論部となるアイテム集合のパターンが膨大で計算に時間が掛かってしまいます。
結論部に関しては全ての単語の組み合わせを計算しているのですが
Aprioriアルゴリズムのように良い解決方法はないでしょうか?
766 :
デフォルトの名無しさん:2012/01/07(土) 11:19:46.24
767 :
やらせ商売としての『2ちゃんねる』の煽動者ありか?:2012/01/10(火) 17:59:30.92
ネットで「プロ固定」とか騒いでるの、どう見ても「集団ストーカーが!」とか言ってる人の同類ばかりじゃないか。
ゲハでやれ
>>762 あれは、Googleが作った検索ワードの辞書にそって、ユーザーが入力したワードに近い辞書ワードを
検索上位のワードのウェイトを付けて表示している。
この辞書の2次派生物がGoogle JapanがリリースしたIME
だたし、フロント側の表示メカニズムはAjaxによるサーバークライアント型のアプリケーションで組んでるので
ブラウザのjavascriptの機能をoffにすると働かなくなる。
もっとも、Googleはユーザーが入力した検索ワードは全て記録しているので、機能をoffってもサーバーサイドでは
記録は残される。
>>765 前、Amazonで表示される「この商品を買った人はこんな商品もかっています」というのと同じメカニズムを組み込もうとして
ログ解析をしたことがあるが、やはり、順列組み合わせでユーザーごとのページ遷移を全て追跡すると計算量が膨大に
なって処理ができなくなって辞めた。
前、Yahoo Jのなんかの記事で、YJではこの処理を組むため専用のクラスターコンピューターを購入したとかあって、
順当に処理をこなすには専用の処理系が必要かな、と思った。
専用の処理系が調達できない場合は、ヒューリスティックなルーチンを組み込んで不必要な枝を削除する必要がある。
これはチェスの処理系とかでやってる。
ブラック企業多そう
すでにある手法を学ぶ
納得したら使う
納得出来なかったら研究する
>>771 そのクラスタってのはHadoopなんじゃないかな
最近はHadoopで何でも力技でやる傾向にあるみたい
Weka使ってる人いる?
質問させてください
配列(array)に入っているデータを比較するとします
array1 = [ 1,2,3 ]
array2 = [ 1,2,4 ]
array3 = [ 5,6,7 ]
この場合、array1とarray2の関係は、arrayとarray3よりも「近い」と判断したいです
機械学習的に解けるような問題なのでしょうか?そういうアルゴリズムがあれば教えて頂きたいです
宿題は自分で解こうね。
>>777 776じゃないが、そんなクソの役にも立たない意見ならレスすんなよ馬鹿か。
答えられないくせにレスするなら分からないのと同じだ。
別に構わないのでは? 宿題スレならともかく、
質問への反応は回答でなければならないなんて決まってるわけじゃない。
そもそも近いの定義すら明らかにしない質問じゃあね……
こんな過疎スレ質問ぐらい答えてやれやw
だが断る
>>776 分類する クラスタリング あたりで頑張ってください
あと回帰分析な
普通に最近傍法で良いのでは
まあ方法はいっぱいあるよね
そこが機械学習の厄介な点であり面白い所でもある
どれも統計学の上で踊ってるだけだがな
分類・回帰じゃなくて類似度計算でしょ.距離を定義して解きゃええやん.機械学習必要なし
回帰分析に距離指標定義は切っても切れない関係なわけだが
>>776 単にユークリッド距離でいいのでは
その配列をx,y,z座標として点の近さをはかる
ついにこのスレにもマジレスの波が……
>>788 これが正解で他のレスは的外れだと思います。
機械学習とはデータから評価関数を逆算する処理であり、
距離定義が最初から決まっているなら機械学習は不要です。
>>790 質問者が示したデータは座標ではなく文字列で
1,3,4より1,2,9の方が1,2,3に近いのかもしれません。
>>792 >array1とarray2の関係は、arrayとarray3よりも「近い」と判断したい
とかしか書いていないので、これが教師データだろ
妄想でデータ作って近いのかもしれないって馬鹿なの?
いや質問者の意図自体が読み取り辛いのだからそこは仕方無いだろ
>>793 >>776が評価関数の求め方を質問しているのならそうですね。
>>794 演習問題なら教師データさえ正しく判定できればOKですが、
実用なら「ユークリッド距離」が目的に合うとは限りません。
それを具体的な例で説明しただけです。
質問者の意図が読み取りづらいのに正解だの間違いだの言ってるのが間違いで
まず質問者に質問の詳細を問うのが正解です
お前らの脳も機械学習しろよ
この分野の優良企業ないかな?
社会人になっても研究とかしたいし
>>800 極めたいならツールベンダーか、コンサル会社じゃないかな。両方兼ね備えてるところが多いけど。
あるいは立場をユーザー企業に向ければもちろん VOCとか、特許とか、様々な技術文書等の
本物のデータがあるよ。 ただ民間は決められた時間内で成果を出さないとならず、学術的な
仕事をするなら研究所をもってる所に行かないと厳しいだろうけどね。研究所とはいえ民間だから
成果の評価順は 製品への展開(技術移管)、特許活動、学会発表の順に低くなる。
>>801 そっか〜やっぱり大学卒業すると厳しそうだね
アドバイスありがとう。
>>801 会社の研究所は学校では無いからねぇ
金にならない特許なんて不良資産だし
>>776自身が判断するなら、
大量のデータ用意して自分が学習するしかない。
「したい」ということは教師役も自分でやる。
ナイーブベイズでテキストフィルタリングをしてるんですが辞書のデータの数が少ないほうに全て判定されてしまいます。
ちゃんと事前確率P(class)も掛け合わせて是正しているんですがP(class|words)の計算で既に差がつきすぎてるようで・・・
何か良い解決策はないでしょうか、よろしくお願いします
>>806 P(class|word)じゃなくてP(word|class)だろ?
>>806 補集合のやつ(Complement Nyve Bayes)使ってみたら?
2クラス分類なら意味ないけど.
対数とってなくてオーバーフローしてるとかではないの
add one smoothingって、時々そういうマイノリティ優遇に働くことがあるよな。
>>810 それだと丸まって0.0になるから同点になるだけで、
小さなクラスが勝つことはないんじゃ?
回答いただいた方ありがとうございます。
今回やっていることは文章から性別を判定させるという事で、
取り合えずデータの数を合わせると納得がいかない方法ですが一応偏った判定はしなくなりました。
>>809 2クラス分類なので使えなさそうですね・・・
でも一度読んでみますありがとう。
>>810 値も常に確認しているのでそれはないと思われます。
一応つたないコードですが間違いがありましたらご指摘いただくと嬉しいです。
http://codepad.org/BsdTrv9t
>>813 add one smoothingで、+len(male) や +len(female)が小さいほうが有利になっている。
v = len(set(male.keys()+femail.keys()))
としておいて、+len(male)や+len(female)を+vに置き換えてみたら?
>>814 修正しました、ありがとうございます。
一度データの数が少ない辞書を用意して確認してみます
サンプルコードなんだろうけど
wordsでforを二回回してるのが気持ち悪い
817 :
デフォルトの名無しさん:2012/02/11(土) 19:21:09.78
文系のプログラマなんですが質問です。
Excelファイルのデータクリーニングをしているのですが、名前の入力間違い(仲村と中村など)や入力形式が違う電話番号といったレコードが多く、データの紐づけに手間がかかっています。
機械学習を用いて解決できないでしょうか?
何か参考になるツールやサイトがあれば教えて頂けないでしょうか?
いやです
それは機械学習使うとこなんのか?
正規表現使う場面では?
うんそれは機械学習を魔法の箱かなんかと勘違いしてる
泥臭く正規表現でやれるはず
821 :
817:2012/02/11(土) 20:56:39.37
>>820 はい、勘違いしてました。ありがとうございます。
機械学習でも正規表現でも無理。
仲村と中村の正解をどうやってするんだ?
本人の正しい漢字を知らなかったら無理。
紙のカードなどに書き出してデータにミスないか本人に確認して貰うとか手動が確実にいる。
すでに確認済の正しいデータがあればそれ使え。
一方で電話番号はよっぽどのことがない限り置換(数字のみに)で済むと思う
古典的な名寄せ処理
827 :
817:2012/02/12(日) 11:08:48.17
皆さんありがとうございます。
的外れな質問だったのに、ありがとうございます。
下げます。
829 :
『2ちゃんねる』:海外からのデータマイニング?(2):2012/02/23(木) 19:50:19.59
>>36、
>>95に関連してです。
『Wikipedia』の「2ちゃんねる」を参照しました。
(以下一部引用)
『運営:2011年現在、主としてアメリカ合衆国カリフォルニア州
サンフランシスコ365 Main社運営のデータセンターにある、
Pacific Internet Exchange所有スペースにある約60台のサーバ群で運営されている。
OSにはFreeBSDを用い、数年にわたって改良が続けられてきた投稿を受け付ける掲示板システム群
(各ユーザはこれらの入っているサーバにアクセスする)と、各種ロギングや投稿チェック、
そして「実況」と呼ばれる最大で秒間数百以上にのぼる大量投稿を捌く…などの役割を与えられた
バックエンドシステムによって構成されている。』(以上引用)
>>95に関連して、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html 盗聴法改正案が2011年に提出され、もし成立していれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
さて、ひろゆき氏がトラブル回避のために『2ちゃんねる』サーバーを手放したことは
日本国内『2ちゃんねる』ユーザーにとっていい影響がでているのか、それとも・・・?
830 :
インターネットで個人情報の追跡ビジネスが急成長=WSJ調査:2012/02/24(金) 07:46:07.10
このような調査が掲載されていました。
『インターネットで個人情報の追跡ビジネスが急成長=WSJ調査』(下記)
http://headlines.yahoo.co.jp/hl?a=20100803-00000007-wsj-int (以下引用)
「本紙が独自に調査を行った結果、インターネットで最も急速に成長している
ビジネスのひとつが、インターネット・ユーザーのスパイ事業であることが判明した。
(中略)
o消費者の追跡は一般に認識されているよりもはるかに広範囲かつ徹底的に行われている
ことが明らかになった。具体的には、以下の点が確認された。
o米国の上位50のウェブサイトが平均して64の追跡テクノロジーを、訪問者のコンピュータ
にインストールしている。ほとんどの場合、警告は行われていない。
追跡テクノロジーは、以前よりも高機能化し、深く入り込むようになっている。これまで
モニター行為には、ユーザーが訪問したウェブサイトを記録する「クッキー」ファイルが使用
されることがほとんどだった。本紙の調査によって、ウェブページ上でのユーザーの行動を
リアルタイムでスキャンし、アクセス場所、所得、買い物の嗜好(しこう)、さらには健康状態
までを即座に算定する新しいツールが使われていることが明らかになった。一部にはユーザーが
削除を試みても後で密かに復活するツールもある。
o これらの個人情報のプロファイルは、常に更新され、1年半ほど前に誕生した、株式市場の
ような取引所で売買されている。』(以上引用)
ライフログが売買されるようになると、個人情報保護法も無力化しますし、本来の目的も
失われます。下記参照してください。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html また、警察官や自衛官もプライバシーを無視してよいとは考えていないと判断してよいようです。
『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』
http://infowave.at.webry.info/201001/article_1.html
うぜえ
スレに常駐するキチガイさんです
おすすめNGEX
TargetURL=0
TargetURLBody="2ch.net/test/read.cgi/tech/1286200810/"
Name=1
NameBody="デフォルトの名無しさん"
Mail=4
MailBody="^$"
Msg=0
MsgBody="http"
834 :
【実証】つぶやきだけで個人の特定は可能:2012/03/21(水) 20:04:08.26
835 :
Twittwr Facebook Mixiと集団ストーカー:2012/03/21(水) 20:05:03.98
『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
http://infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。
※重要※ 「GPSを使った携帯を用いた場合」
携帯で撮った写真を携帯からMixiなどに投稿→写真に位置情報が記載されているので、自宅や職場から写真投稿すると
「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。
※重要※ 「GPSを使った携帯を用いた場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。
※重要※ 「TwittwerとFacebookやMixiを連携している場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)を流出させているだけで
なく、Facebookを通じてプロフィール等の情報も流出してしまう。
↓
↓
「集団ストーカー」の原因である個人のライフログ情報(プライバシー情報)流出の大きな
原因となってしまっている。
参考:『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html 2011年9月20日にも同様の警告がされています。
『スマートフォンで自分の居場所がバレるサービス&アプリに気を付けろ!』
http://r25.yahoo.co.jp/fushigi/wxr_detail/?id=20110920-00021515-r25 個人的には現状Facebook Twittwer Mixiはしていません・・・。
836 :
Facebookに内在する危険性が顕在化している:2012/03/21(水) 20:06:10.75
『フェイスブック、情報公開に注意…悪用の恐れ』読売新聞 2月25日(土)14時45分配信
http://headlines.yahoo.co.jp/hl?a=20120225-00000405-yom-sociを参照しました。
(以下一部引用、個人名は****にしてあります。)
『「初期設定では、個人情報の公開範囲が『すべてのユーザー』となっている項目が多く、知らない間に自分の情報を
世界中にさらしてしまう人もいる」。日本IBMのシニア・セキュリティ・アナリスト****さん(38)はこう警鐘を鳴らす。
****さん自身も、昨年12月、過去の投稿や活動状況を簡単に時系列で閲覧できるサービス「タイムライン」を使い始めたところ、
これまで書き込みや写真投稿の際に登録した約500件の位置情報が地図上に一覧表示されてしまった。「いつ、どこで何をしたか簡単
にチェックできる。滞在回数の多さから自宅や勤務地域が予想できるので、ストーカーに悪用されかねない」海外ではフェイスブックの
情報が、就職前の学生の素行調査や、交際相手の浮気調査に使われたりしているという。「利用者は一度、自分のプライバシー設定を
見直した方がいい」と****さんは指摘する。「実名や所属、関心事などの様々な情報が入手できるため、特定の個人や組織を狙う標的型
のサイバー攻撃の『下調べ』に使われる恐れがある」と警戒するのは、情報処理推進機構・セキュリティセンターの****調査役だ。』
(以上引用)
『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
http://infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。
個人的には現状Twitter Facebook Mixiは使用していません。
またかよ
個人情報を情報量としてとらえれば、全員が互いの個人情報を晒していれば、
その情報が持つ価値なんて、すごく低いはずなんだけど
TもFもmも情弱のツールだろ
2chやってるやつが言うこっちゃないけどな
漏れはVC6も現役
作者に聞けや
機械学習や自然言語処理に関する初歩的な質問をするのに適切な場所をご存知でしょうか。
一般的なプログラミングに関する質問なら「はてな人力検索」でかなり適切な回答を頂けるようですが、機械学習のような専門ジャンルとなると厳しい模様です。
実際機械学習に関する質問は10年でたったの4件のみで、しかも回答は「門外漢なのでよくわかりませんが〜」といった具合です。
全くの門外漢の文系卒社会人が機械学習を学ぶには独学でコツコツとテキストを読むしか無いのでしょうか。
ここじゃだめなのか?
>>846 大学に行くか独習できる程度に基礎を積むのがいいと思うけど
ヤフー知恵袋だったら答えてくれる人はいるかもね
>>846 英語ができるならQuoraがいいんじゃない?
webのような半構造データからの情報抽出(Information extract)に興味があります
該当する学術分野としては自然言語処理と機会学習という認識でよろしいでしょうか
また日本語の情報源があれば教えて頂きたいです
始めまして。
サポートベクターマシンの、マージン最大化ってところで、分からないところがあるのですがどなたか分かりやすく教えていただけませんか?
マージンとは、分離平面をwx-b=0として、
min_i |wx_i -b| / ||w||
と定義するそうで、ここまではおkです。
本ではこの後、
「分離平面は全体を定数倍しても変わらないのでmin_i 1/ ||w||とできる」
とあります。
何でこんな式変形ができるのか分かりません。なんで全体を定数倍しても変わらなく、1になってしまうのでしょうか?
853 :
hf:2012/06/06(水) 13:48:51.63
age
854 :
デフォルトの名無しさん:2012/06/10(日) 17:07:47.96
855 :
hf:2012/06/13(水) 17:24:05.82
大学は理系なんだけど情報系じゃなくて、機械系の卒業。今の仕事もIT系じゃない。
そんな自分が機械学習を速習するには、どういう方法がいいんだろうね?
ちなみに英語力はかなりあると自負してるので、Bishop本を読み始めた。だけど、すぐに
確率統計・行列演算の基本的なところでつまづいて、そっち方面の日本の大学の
教科書を読み始めた。機械系って、微積はかなりやるんだけど、確率統計・行列ベクトル
なんかは、あまりやらないんだよね。
なんか、お勧めの本とかあったら教えて。
ちなみに、興味の中心は、ウェブからの情報抽出と整理(aggregation)。
856 :
デフォルトの名無しさん:2012/06/13(水) 18:00:07.84
板違い
たぶん、いまさらやっても遅いよ。
確率統計や行列ベクトルの習得には時間が掛かりすぎる。
それらを完全にマスターし終えたころには10年くらいたっているだろうね。
だからすぐ分かるとかやさしいとか書いてある奴がいいと思うよ
書籍読む->それを踏まえてプログラム組む
これのループでいいんじゃないかと。
>>855 - これなら分かる応用数学教室
- これなら分かる最適化数学
- ニューメリカルレシピ・イン・シー
- はじめての統計学
- わかりやすいパターン認識
- 情報検索と言語処理
- 言語と計算 (4) 確率的言語モデル
- PRML
- 言語処理のための機械学習入門
- 日本語入力を支える技術
機械学習って、学習によって何をしたいんだろう。。。
個々の手法や知識なんていきなり網羅しようとせずに必要に応じて逐次勉強すればいいのに。
基礎として線形代数/解析学/数値計算/数理計画/統計学がないと
機械学習に入れないでしょ
862 :
hf:2012/06/14(木) 11:26:51.58
>>859 ありがとうございます。「わかりやすいパターン認識」は買いましたよ。
読んだのは途中までですけど。
確かに数学の基礎は必要なんで、復習してます。いくら大学が機械系っていっても、
高校は理系だから、確率統計なら検定、行列なら逆行列や固有値の計算ぐらい
まではやりましたよ。もう殆ど忘れちゃったけど。
機械学習を勉強するならそんな実用数学じゃだめだよ。
確率もルベーグ積分から理解しないといけないし、
線形代数も抽象代数の立場から理解しないといけない。
結論をいうとお前には無理
大学でやらなかっただけで一生できないほど難しくはないだろ
一流研究者を目指すと言っているわけではないし
>>863 君はそのどれも理解していないことはよくわかった。がんばれ。
開始数ページでsigma-fieldとか出てくる
本気で殺りに来てる確率論の基礎本で勉強すべき
へー、そんな基本的な事も分からない人がいるんだ。
そう難しく考えなくても研究者になるわけでないならできるよ。
てか、あれこれ言ってるのってバカな連中。
機械学習そのものを研究して論文通すのが目的じゃないんだから質問者の立場を考慮しようよ
無駄にハードル上げて「無理」連呼とかちょっと意味がわからん
>>855 半構造化データからの情報抽出に機械学習が必要だけど、あくまで要素技術の一つにしか過ぎない
情報系の学科卒じゃないのなら機械学習よりも情報検索(IR)系の基礎を先に学んだ方がいいかと
あと英語できるなら
http://www.amazon.co.jp/dp/3642194591/ がお勧めですね
webからの情報抽出に特化した本で機械学習についても一通り触れられている
機械学習そのものに数学は必要ない
効率や収束速度や他の機械学習との比較を議論するときに数学が必要になる
機械学習を利用するだけなら数学は必要ないでしょ
適切な学習機が選択できれば十分
あとは素性をなめらかにするためにsqrtするとかlogとるとかそういうノウハウで十分
「機械学習そのもの」を「機械学習を利用するだけ」と読めというのは無理があるだろ
874 :
hf:2012/06/15(金) 14:26:47.53
>>869 >>半構造化データからの情報抽出に機械学習が必要だけど、あくまで要素技術の一つにしか過ぎない
確かにその通りで、一般的な機械学習の教科書に書いてある方法だけでは、半構造化データからの
情報抽出は、できないですよね。機械学習の上に、Information retrievalのひと工夫が必要と言うか。
初めは"information retrieval"とか"information extraction from semi-structured data"とかの
キーワードで、Google Scholarで論文検索して読んでました。ただ、こういうのを読んでても、
やっぱり機械学習とかパターン認識の話は出てくるんで、基礎の数学のところからやり直してます。
道のりは長いなあ…
中身の原理はまずは置いておいて、とりあえず機械学習を浅く広く触ってみる。
どういうデータを投げるとどういう成果が出るのか、実際に機械学習ライブラリを使って遊んでみる。
そうするとHTMLのような半構造化データをそのまま機械学習に投げられないことに当然気がつく。
つまりどういう「前処理」をしなければならないかがボンヤリ見えてくる。
この前処理には色々な要素技術が絡んできて、機械学習を使う前の段階でかなりの労力が必要だと愕然とするはずです。
なのでビショップ本などで機械学習の本質の勉強を先にやるより、まず他にどういう技術が必要なのかという全体像を把握することをお勧めします。
その上で機械学習が重要だと思ったらそこを掘り下げるとか、自然言語処理をメインでやるとか、道が色々と開けてくるのではないでしょうか。
FOILとかニューラルネットも作るだけなら数学は一切必要ない
おそらく最初に考えた人も手順だけ考えて数学は使ってなかったと思われる
数学がなければできない機械学習はベイズ分類機とサポートベクトルマシンとカーネルメソッドくらいではなかろうか
普通のベイズもSVMも数学なんていらねーよ。
適用するだけでも本気で数学が要るのはノンパラベイズぐらいだ。
最初の数学必須、しかも今からでは無理という論調からかなり変わってきたな。
最初のやつが研究と利用をごっちゃにして語っただけだったのだろうが。
CGの絵を書くアーティストが幾何学とか分からなくてもいいって
同じ意味だろうな。
でもそれじゃあ本当の自分の描きたい絵は掛けないだろう。
こんなところで「本当の」とか女子高生が使うような使い方に出会うとはな。
本当のは普通のオッサンでも使うだろう。
むしろ、数学が必須なのは研究よりも利用の方ではなかろうか
一番はじめに手続きを提案するだけなら、数学は必要ない
本当のは誰でも使うだろう。
使い方は違うことがよくあるね。
ではリーマン幾何がわからないとどんな絵が描けないのか、
>>879にキッチリ語ってもらおうかw
幾何学がないと描けないじゃなくて、幾何学を使えば対称性という一面を解釈できる、というのが正解でしょう
886 :
デフォルトの名無しさん:2012/06/16(土) 22:04:48.75
ニューラルネットでも勾配はいるし
微分積分が分かってないと無理だろ
ニューラルネットを使うだけなら微積なんて関係ないよ。
>>876は明らかに「使うだけのほうが数学が必要」という主旨なのが
理解できない程度の頭脳を持つ
>>888がニューラルネットを理解でいているか
非常に疑問である。
>>887 ベタなニューラルネットで数学が必須なのは、使う場合だけ
単に作るだけなら数学は必要ない
そもそもニューラルネットは脳をモデル化したモノなんだから
使う場合には、解空間の構造から次元の呪いまで理解してなければ解が出てこなくて、その理解には数学が必要
次元の呪いなんて別に数学がなくても直感でも理解できる
アホ?
ニューラルネットって何のこと言っているんだ?
多層パーセプトロンはBackpropagationに微分がいるし
自己組織化マップはベクトル空間上で距離が計算できないといけないだろ
どこまでが数学と言っているのか分からないが
>>891 次元の呪いは、数学と直感がかなり異なる部分
実時間で使える解を求めようと思ったら絶対に数学が必要
へー、次元の呪いって計算コストのことだったのかー(棒読み
>>892 Backpropagationの微分は、極小値に効率よく落ちる方向を見つけるために使ってるだけだから、微分が必須というわけではない
自己組織化マップで必須なのは距離の計算ではなく、衝突判定
距離ε以下を衝突と定義したときに実用上有益なら距離の計算をする
男子便所で隙間をあけて便器を使うときに距離の計算をしているわけではない
距離を使わずに If-Then ルールだけでも自己組織化マップを構成できる
>>894 次元の呪いが影響するのは、計算コスト(時間、空間)と収束性(必要なサンプル数)と解の形(解の頑強性)
落ちるりんごが物理演算をしているわけではないと言うタイプの馬鹿か?
コンピュータで計算する場合に必要だろ
リンゴが落ちるシミュレーションに数学が必要とか言うタイプのバカがいるねw
>>897 代入以外の算術演算子が一切ないPrologのソースファイルをコンパイルしてそれを実行することを数学と呼ぶのなら、確かに数学は必要ですけど
ニューラルネットに学習させるのに数学なんて必要ないよ。
むしろ学習対象の知識を使ってどうやって従属因子を減らすか
そっちのほうがずっと大事だ。
>>899 ならそれを書いてうpしてみてよ
既に存在するならその情報でもいいよ
自己組織化マップなら衝突判定するから、代入以外にも == か =/= が必要です
ニューラルネットなら、配列アクセスで次の要素にアクセスするために +1 が必要です
== や配列の次の要素を取り出すための +1 が必要なので機械学習には数学が必要です
それ恐ろしくつまんない
数学を使ったほうが効率的なら数学を使ったほうがいいだろ
使うだけなら数学はいらない。
その方法が有効であることを説明したり、
よりよい方法が無いかを探るために数学的表現に直して解析する段で初めて数学が必要となる。
おまいら喧嘩すんなよ
>>905 「使うだけ」にどこまで含まれているの?
数学を使わずに機械学習を使う手順を具体的に示してみて
ぐぐって、似たような問題を解いてるコードをコピペして修正する
最初は、理系で工学部機械科卒業レベルの数学は持ち合わせているがそれ以上に勉強する必要を本人は感じた。
次に、機械学習ぐらいしか能のない馬鹿が数学は必須であり、今更上記人物は無理であると唱えた
その後使うだけなら対して数学の知識を必要としないとなった。
この時点で、数学の知識はどの程度は必要で、その場合どこまでできるとか議論ががないんだがな。
西暦何年卒の高校レベルならとか大学でこれこれこういう科目を理解してるのを前提とかさ。
>>907 例えばlibsvmを使って分類する場合
・素性と教師データを用意します
・svm_trainで学習してモデルを作ります
・サンプルとモデルを使って分類します
おしまい
分類機の使い方を知っている必要があるけど
少なくとも数式を頭に浮かべる必要は全くない
これが「使うだけ」
よりよく使うなら素性を0〜1にスケーリングしたり
平坦になるようにlogをとったりするけど、数学と言うよりノウハウだな
数字を使ったものはすべて数学だというなら、まぁそうなんだろうなw
>>910 「作るだけ」なら不要と言っている人と違うのか
>>911 何が知りたいのかよくわからないけど
OSの知識がなくてもWindowsは使えるでしょ?
必要なのはWindowsの使い方だけ
数学の知識がなくても機械学習は使えるのよ
必要なのは機械学習の使い方だけ
同じだと思うよ
いいかげん言葉遊びやめたら?
キチガイは
>結局どんなものが出てきても文句言ってるっていう気がする。
だよな。
もう、自分や自分の会社で文句でないの作れだよな
>>912 マウスがクリックできればどんなボタンも押せるよな
だがマインスイーパは難しい。
どんなに機械学習させても運に頼る部分が出てくる。
機械学習しなくても確率は計算できるけど。
麻雀と一緒だな
いやいや麻雀こそ機械学習が有効な分野。
麻雀は心理の面が大きく、ラプラスの原理では計れない。
人間は状況によってリスクを過小評価したり、過大評価したりする。
統計を取れば必ず似たような心理的傾向が炙り出されるはず。
機械学習でアカギレベルまで相手の捨配が読めるかもしれない。
作るだけなら数学は必要ない → 現実の学習モデルをモデルとして提示するときに数学は必要ない
使うだけなら数学は必要ない → 学習にかかる時間や解の妥当性をガン無視するなら、頭からっぽにしてググッて出てきたプログラムをサイコロ振って選んで使えばいい
>>919 全然違うw
おまえ、MLド初心者だろ。
作るだけなら数学は必要ない:
性能評価せずに単にメモリベースに毛が生えた程度のオレオレ学習器を実装するだけなら数学は必要ない
使うだけなら数学は必要ない:
実績のあるライブラリを使って学習するだけなら、とりあえずの使い方と素性選択ができれば十分。
使い方を理解するのに数学は必要ないし、素性選択は学習対象に関する知識と試行錯誤のノウハウだけ。
>>920 例
現実の学習モデル: 脳のパーセプトロンのネットワーク、 提示するモデル: ニューラルネット
>>921 作るときには、性能評価もメモリベースのような実装も提示する必要はない
学習理論ではないが、これの一番極端な例がクイックソートを提案した論文
使うとはただ単に動かすということではなくて、解(汎関数)を求めるということだから、解の妥当性を検証するには学習対象に関する知識と試行錯誤のノウハウだけでは無理
>>923 使用者の目的が満たされれば、それば十分使えていると言えると思う
万人が厳密に解の妥当性にこだわっているわけではない
感覚的にだいたい8割くらいあっていてくれれば十分という人だっているんだよ
たぶん研究者なんだろうけど、誰もが自分と同じものを求めているとは考えない方が無難かと
ポインタとかスタックがわからない人でもプログラムが組めるようになった
数学わからないし学習器の仕組みもよくわからない人でもライブラリを使って機械学習使えるようになった
両者とも似た構図だと思うし、どちらも好ましいことだと思う
926 :
デフォルトの名無しさん:2012/06/19(火) 00:38:07.12
>>922 脳は機械ではないし脳とニューラルネットワークの差は大きすぎだろ
工学モデルとしてのニューラルネットワークを提示する必要があると思うが
そんなオカルトあり得ません!
928 :
デフォルトの名無しさん:2012/06/19(火) 03:18:27.90
>>921 メモリベースでもベクトルの距離や類似度が必要だろ
>>926 モデル=単純化して注目したい部分のみを抽象化して分かりやすくしたもの だから現実のモデルと実装とどんなに差が大きくても問題ない
930 :
デフォルトの名無しさん:2012/06/19(火) 21:09:27.34
機械学習でホワイトカラーは削減するとか言ってたけど、具体的な道筋はあるんですかね?
>>923 汎関数化が必要なのは研究屋かマイニング屋ぐらい。
機械学習の応用のうち極一部だよ。
ほとんどの応用では、およそそれっぽい推定ができれば十分。
933 :
デフォルトの名無しさん:2012/06/20(水) 13:44:36.89
>>929 なら全く関係ないものを提示してもいいのか
>>931 機械学習の出力はほとんどすべてか汎関数
ルールベースシステムのif-thenルールも汎関数
だからさあ、汎関数そのものを取り出す必要がある応用は少ないっての。
ほとんどの応用は推定した汎関数を評価できればいいの。アホ?
>>935 逆に聞きたいけど、学習結果が汎関数じゃない機械学習って何があるの?
よくわからんが、たとえばSVMの学習結果は分離超平面だけど、
これは汎関数とみなせるの?
>>937 SVMの学習結果は、入力に対して出力(の集合、T or F)を出す関数、またはその関数を表現する関数だから、汎関数
>>938 >
>>937 > SVMの学習結果は、入力に対して出力(の集合、T or F)を出す関数
これはわかる。
> またはその関数を表現する関数だから、汎関数
これはよくわからない。
「関数を表現する関数」ってどういうこと?
「汎関数」は「関数を引数に取る関数」だけど、それと同じもの?
>>939 「表現する」とは、何かを何かに対応(変換、写像、写像、射、ただの対応)させること
exp関数を定義域R値域{T,F}の関数に表現する対応は、exp関数を受け取り定義域R値域{T,F}の関数を出力する汎関数
>>840 というか、関数はすべて汎関数
sin(x) = sin(id(x))
id(x)=1*x
SVMの出力が定める分離超平面がx+y=cだったとして、これは具体的にどういう汎関数とみなせるのでしょう?
単なる整数でもチャーチ数表現すれば汎関数になる。
あらゆるものは汎関数とみなせる。
>>941 おいおい、焦るなよ。
俺じゃないだろ。
>>942 F(y) = {T : y >= c, F : y < c}
y = -x+c
結局、機械学習に数学は必須キリリリリッ!!!とか言ってたアホがど素人だったという結論か。
僧も含めて尤度関数の最大値がなぜ尤もらしいのか説明してある
本は皆無だな。
そうゆうものなんですねで終わらせる人ばっかなんだろうな。
>>947 尤度の定義から考えれば当たり前だからだろ
>>947 その定義で尤もらしいと思わなければ、別の尤度を定義しろってことじゃないの?
尤もらしさを数値化するための手段に対して目的が分からない?
尤度が分からない人は角度とか温度とかも分からないんじゃね?
まず読み方を教えてください。
いぬど
イヌっぽいど
ナル度
もっど
ぬるぽ
もうすぐ七月
尤度関数を作るとは確率のモデルを作るのと同じ。
事前分布が一様ならそのモデルから生成されるサンプルで最も多いのが最尤推定値のもの
>>961 サンプル数が最も多いとは限らない
まったく同じサンプルがいくつも入ってる場合を考えれば分かる
>>962 だから、事前分布が一様って前提つけてるんでしょ
そういうときは窓関数を使う
デマのお勧めツールは、もちろんフリーで
僧の一問目解けないと思って答え見たら
必要条件だったのね。
無駄な時間をすごした。
皆さんプログラミング言語は何がお気に入り?
なんとなく周りみてるとPython/Javaが多い気がする
RDBを使うときに一番ストレスがないのがJavaだから、仕方なくJavaを使ってる
勉強会等で人と共有する機会が多いコードはPython。データマイニング用ライブラリとの
バインディングの豊富さも優れる。自分はメインはOracle RDBMS上での開発なので
そういう部分はネイティブなPL/SQL や 慣れているPerl を使う。
今後 Apache Hadoop の枠組みを使う方向なので Java を勉強したい。
PythonやJavaはよいライブラリが揃ってるからな
俺はC/SIMD/OpenMPで書いてる
NumPyのRuby版があればRubyで書きたい
計算速度のみを追求するよりは他の側面を重視した方が機械学習的にはいいですよね
計算科学専門の人からなんでPython?とかたまに言われてモヤモヤしてた
そのひとはPython知らないだけかと
>>973 一般向けの機械学習の本のサンプルコードがPythonばっかりだから、「なんでPython?」といつも思う
Pythonが機械学習に不向きという意味ではなく、「Python以外じゃダメだったの?」という意味
pythonはグルー言語的な使い方なんじゃないかな。
当然、ライブラリ以外の部分もネイティブの方が速いけど
976 :
デフォルトの名無しさん:2012/07/17(火) 07:57:19.82
Pyはアメリカの大学で「これが教育用の標準」と推す勢力があるし
ライブラリの充実でほぼ既成事実化してきたからなあ
画像系だとMATLABが多いな
NumPyもMATLABも行列計算などをよく最適化されたネイティブなライブラリで実装しているから
呼び出す側が遅くても全体的には遅くならない
ただMATLABは実験以外で使えないだろ
゙'. '.;`i i、 ノ .、″
゙'. ,ト `i、 `i、 .、″
| .,.:/"" ゙‐,. ` /
` .,-''ヽ"` ヽ,,,、 !
、,、‐'゙l‐、 .丿 : ':、
、/ヽヽ‐ヽ、;,,,,,,,,,-.ッ:''` .,"-、
,r"ツぃ丶 `````` ../ `i、
,.イ:、ヽ/ー`-、-ヽヽヽ、−´ .l゙`-、
_,,l゙-:ヽ,;、、 、、丶 ゙i、,,、
,<_ l_ヽ冫`'`-、;,,,、、、、.............,,,,、.-`": │ `i、
、、::|、、、ヽ,、、. ```: : : ``` 、.、'` .|丶、
.l","ヽ、,"、,"'、ぃ、、,、、、、.、、、.、、、_、.,,.ヽ´ l゙ ゙).._
,、':゙l:、、`:ヽ、`:、 : `"```¬――'''"`゙^` : ..、丶 .l゙ `ヽ
,i´.、ヽ".、".、"'ヽヽ;,:、........、 、、...,,,、−‘` 、‐ |゙゙:‐,
,.-l,i´.、".`ヽ,,,.".` `゙゙'"`'-ー"``"``r-ー`'": _.‐′ 丿 ,!
j".、'ヽ,".、".、"`''`ー、._、、、 、._,、..-‐:'''′ .、,:" 丿
゙l,"`"`''ヽヽ"`"` ```゙'''"ヽ∠、、、、ぃ-`''''": ` 、._./` ._/`
`'i`ヽヽヽ`''ーi、、、: : 、.,-‐'` 、/`
``ヽン'`"` : `~``―ヽ::,,,,,,,,,,.....................,,,,.ー'``^ ,、‐'"`
`"'゙―-、,,,,..、、 : ..,、ー'"'`
: `‘"`―---------‐ヽ``"''''''""
RDBMSと日本語文字列の扱いが充実してるからJavaを使っている
pythonも充実してるならpythonを使いたい
この分野すげー大事だと思う
大学文系なんてうんこだったなあて思う
理系いけばよかった
----- ここまでscikit-learnの話題ゼロ -----