【統計分析】機械学習・データマイニング【集合知】

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
何でもいいので語れ

【関連サイト】
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/index.php?FrontPage

2デフォルトの名無しさん:2010/10/04(月) 23:08:23
このスレはアイちゃんです
3デフォルトの名無しさん:2010/10/04(月) 23:15:13
関連スレ

人工知能を作ろうver0.0.6
http://hibari.2ch.net/test/read.cgi/tech/1263645019/
4デフォルトの名無しさん:2010/10/04(月) 23:24:00
このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。

アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。

                  京都大学霊長類研究所
5デフォルトの名無しさん:2010/10/04(月) 23:43:14
ニューラルネットワークもこのスレでいいの?
6デフォルトの名無しさん:2010/10/05(火) 01:32:52
何か、くだらない事に使えそうな気がする。
7デフォルトの名無しさん:2010/10/05(火) 08:47:51
スレタイに集合知、とあるだけで厨スレにしか見えなくなっている件
8デフォルトの名無しさん:2010/10/06(水) 01:02:05
機械学習やデータマイニングの初心者なら
最初に集合知プログラミングを読むだろ?

集合知プログラミング
http://www.amazon.co.jp/dp/4873113644/
9デフォルトの名無しさん:2010/10/08(金) 05:53:59
機械学習とデータマイニングって同じものなの?
10デフォルトの名無しさん:2010/10/08(金) 06:12:53
起源が違うしようともアルゴリズムも違うものが多いが、
数学的にいえばどちらもデータ縮約の一種なので似た一つのグループとして扱われる

JPEGの不可逆圧縮も実は機械学習やデータマイニングと同じグループに入る。
11デフォルトの名無しさん:2010/10/09(土) 07:27:22
縮約は要素技術の1つにすぎないだろ。
データマイニングは実データからモデルを構築するための技術群と手法。
機械学習は観測データから外挿的推定をするための技術群。
共通した要素技術は多いが、目的と得られる出力がまるで違う。
12デフォルトの名無しさん:2010/10/11(月) 05:42:11
サポートベクトルマシン
13デフォルトの名無しさん:2010/10/14(木) 05:50:06
次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
http://www.publickey1.jp/blog/10/10_3.html

グーグルやマイクロソフト曰く、
「統計分析こそ次の10年でもっとも魅力的な職業になる」そうです。

いま、大量のデータを指す「Big Data」という言葉が多くの場面で使われるようになってきました。
ITの発展に、さまざまなビジネスの現場で、いままで以上に詳細な販売データ、ネット広告に対する反応、
オンライン上での自社の評判など、ビジネスに関連するデータが詳細かつ膨大になってきたためです。

IBMもデータの分析ができる人材を4000人増やすと記事で触れられています。

これまで、IT分野の中心的な役割は、さまざまな目的に応じたシステムを構築することでした。
ITの専門性とは主に、ソフトウェアとハードウェアを使って構築するためのものでした。

しかし、そうして構築したシステムからどんどんとデータが送られてくるようになってくると、次の時代のITの役割として、
このITによって生成されたデータを活用するために分析、加工することの比重が高くなってくるのでしょう。

そしてITエンジニアに求められる専門性もそれに従って、統計や確率、集合や演算といった数学的な専門性の上で、
それを実装するためのプログラミング技術が重視される時代になるのかもしれません。
14デフォルトの名無しさん:2010/10/14(木) 22:52:54
同じBlog上のこの記事読んで絶対計算の本を思い出した。

ttp://www.publickey1.jp/blog/10/post_131.html
グーグル、世界中のショッピングデータから独自の景気動向指数を算出。
カルビーは降雨量や気温からジャガイモの品質を算出。「これがデータの威力」
15デフォルトの名無しさん:2010/10/16(土) 04:08:38
データ分析の応用的手法が商業的に最も熱い分野になるだろうというのは、
実際やっている人間からするとものすごくよく分かるのだが、
プログラマ かつ 統計の専門教育を受けている人が少ないからなあ。
このスレの過疎っぷりを見てもそうだが。
A4で5枚くらいのパンフレットを書いて分野を盛り上げたほうがいいんだろうか。
16デフォルトの名無しさん:2010/10/16(土) 04:21:51
ageて宣伝してみる

プログラマの皆さん。
「スパムフィルタの学習」説明できますか?
「google IMEのクローン」ぱっと骨組みだけでも考えられますか?
「天候から品質や売上を予測する」穀物メジャーからコンビニまで使っています。

インターネットを使って日々膨大なデータを低コストで集めることができるようになりました。
そして今、湯水のように溢れるデータから価値のある情報を引き出す技法、
データマイニング、機械学習、各種の統計は一番ホットな分野となっています。
今後10年はこれで戦うことができ、20年後にはただの常識となっているでしょう。


プログラマの皆さん。
統計を覚えて、プログラマからコンサルタントになりませんか。
17デフォルトの名無しさん:2010/10/16(土) 06:22:57
>>16
いや、俺はプログラマとして機械学習を応用したプログラムを作り続ける。
つーか、こんな面白い仕事、他人に渡せるかってのw
18デフォルトの名無しさん:2010/10/23(土) 21:20:07
>>16
仕事紹介してよ・・・
基礎統計が分かってて
プログラム組めればいいの?
19デフォルトの名無しさん:2010/10/24(日) 06:35:49
>>18
やっぱ、ノンパラメトリック・ベイジアンぐらい鼻歌まじりに実装できないと・・・
20デフォルトの名無しさん:2010/10/24(日) 11:36:58
ベイジア〜ン♪
21デフォルトの名無しさん:2010/10/24(日) 18:17:24
>>18
SASとSPSS必須
22デフォルトの名無しさん:2010/10/24(日) 18:27:41
>>21
Rじゃだめですか?
SPSSはともかく、SASは高い。
23デフォルトの名無しさん:2010/10/24(日) 19:29:20
統計は「流派」ができちゃってるからな。
ウチはR(37)、ウチはSPSS、ウチはSAS(18)って感じで。
ウチはMatlab(19)でとかウチはLabViewでみたいに。
2422:2010/10/24(日) 21:38:47
>>23
そのライブラリにバグないの? と聞かれたときに、このソフト使ってるから大
丈夫です。と印籠のように使えるからね。
25デフォルトの名無しさん:2010/10/25(月) 02:42:14
統計系
・SPSS
・SAS
・R

機械学習系
・Octave
・Matlab
・Weka

最近は自分で実装しなくてもツールが沢山あるからねぇ。
使いたい手法の概要とツールの使い方だけ覚えておけばいい。
26デフォルトの名無しさん:2010/10/25(月) 03:21:52
SASってむずかしいの?
何とか統計で働きたい
27デフォルトの名無しさん:2010/10/25(月) 06:06:24
難しいのはツールでもプログラミングでもなく、統計の理論そのものだろ
28デフォルトの名無しさん:2010/10/25(月) 07:54:47
難しいのはツールでもプログラミングでも統計の理論でもなく、適用対象分野の性質の理解だろ
29デフォルトの名無しさん:2010/10/25(月) 08:35:27
そうなってくると完全に板違いだな
30デフォルトの名無しさん:2010/10/25(月) 08:36:57
SASは文法?が気持ち悪い。便利だけど。
Rのほうがまし。SPSSはしらない。
31デフォルトの名無しさん:2010/10/25(月) 18:13:19
>>25
マイニング屋ならそうだね。あと研究主体の人達。
ML応用系のシステム屋は、地道にシコシコと実装。でも楽しい。
32遠隔地からの電磁波による思考盗聴は現段階では不可能:2010/10/25(月) 19:23:56
『思考盗聴』には少なくとも
@脳に電極を埋め込む手術が必要である。
A通信媒体は電波(電磁波)である。
ということが2009年段階で言われているようです。(下記参照)

『脳を読み取る最新技術(前半) 20090209 』
http://www.youtube.com/watch?v=D-8kuZzFKlA

『脳を読み取る最新技術(後半) 20090209 』
http://www.youtube.com/watch?v=mBYWsHsVuKA

したがって、「脳に電極を埋め込まれるような手術を受けていない人」や
「遠隔からの電磁波による思考盗聴を危惧している人」は思考盗聴される
ことはありえないと判断してよいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。

33遠隔地からの電磁波による思考盗聴は現段階では不可能(2):2010/10/25(月) 19:25:04
『Wikipedia』の「ブレイン・マシン・インターフェイス」(下記)
http://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AC%E3%82%A4%E3%83%B3%E3%83%BB%E3%83%9E%E3%82%B7%E3%83%B3%E3%83%BB%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%BC%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9
でいう「非侵襲式」という方式です。実用面の説明として(以下引用)
「手軽にセンサーの取り外しが出来ることから実用面でリードしているものの、
頭蓋骨などの影響で脳波が変化してしまい(体積伝導)、侵襲式と同じように正確に情報を読み取れるかどうかは課題として
残っている。」(以上引用)
と述べています。@脳に電極を埋め込む手術が必要である。ような侵襲式でない場合は正確な脳波を測ることは 現段階では不可能
なようです。脳波を測るのにA電波(電磁波)を使う。と考えるとして、遠隔地からどのような電波 を対象者(ターゲット)に照射
して脳波を読もうとするのでしょうか。指向性電波でしょうか。対象者だけに電波(電磁波)を照射できる 保証はあるのでしょうか。
携帯電話の電磁波でも長時間浴びると脳に障害がでると言われていますが、どれくらいの間対象者に電波 (電磁波)を照射するので
しょうか。長時間の電磁波照射は人体に有害である可能性が高いですよね。結局、遠隔地からの電磁波照射では対象者の脳波や
脳の血流を正確に読むことはできないと考えられます。

34遠隔地からの電磁波による思考盗聴は現段階では不可能(3):2010/10/25(月) 19:26:19
『NEWTON(ニュートン)』の3月号(記参参照)
http://www.newtonpress.co.jp/science/newton/back/back10/n1003.html
の『脳研究の今』P42〜P43に「fMRI」についての情報がのっています。日本では
>>33で述べられているような脳に電極を埋め込まない「非侵襲式」の研究が盛んなよう
です。興味があれば読んでみてはいかがでしょうか。「fMRI」については下記の
『Wikipedia』の「fMRI」を参照してください。
http://ja.wikipedia.org/wiki/FMRI

脳波を測定するにしても、脳も血流を測定するにしても、遠隔地からの電磁波による
思考盗聴は現段階では不可能なようです。 したがって、>>32で述べているように
「脳に電極を埋め込まれるような手術を受けていない人」や 「遠隔からの電磁波
による思考盗聴を危惧している人」は思考盗聴される ことはありえないと判断して
よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。

35遠隔地からの電磁波による思考盗聴は現段階では不可能(4):2010/10/25(月) 19:30:41
『Newton』6月号(右記)http://ime.nu/www.newtonpress.co.jp/science/newton/index.html
 サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、>>32
で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』 http://infowave.at.webry.info/201001/article_2.html
遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。

36『アメリカ経由の通信情報ローンダリング手法』の確立可能性あり:2010/10/25(月) 19:34:03
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。
37警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2010/10/25(月) 19:37:35
『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
http://infowave.at.webry.info/201010/article_1.htmlの参照お願いします

38デフォルトの名無しさん:2010/10/25(月) 19:54:20
思考盗聴という言葉から一瞬キチガイさんかと思ったが、
Webブラウジング履歴やユビキタス/Augmented Realityにおける個人情報データの蓄積に対する抗議文か。

まあその危惧は分からないでもない。
39デフォルトの名無しさん:2010/10/25(月) 20:37:42
思考盗聴はまだ先の技術っぽいね。

google等の情報集積の危険性は同意。。
40デフォルトの名無しさん:2010/10/25(月) 22:42:58
たしかにgoogleはデータ集めすぎ
androidでさらに加速するだろうしね
41デフォルトの名無しさん:2010/10/26(火) 04:58:31
危険なのはgoogleよりもISPだろ。
日本の総務省はDPIを認める方向で動いているし。
42デフォルトの名無しさん:2010/10/26(火) 19:16:33
俺の性癖まるわかりになっちゃうしな
43デフォルトの名無しさん:2010/10/27(水) 00:55:36
カード会社が最強
44デフォルトの名無しさん:2010/10/27(水) 12:23:35
google危険だよ。
たまに出てくるGoogle Ads見てみ
見事に最近の検索結果と一致してるから。

まあDPIも危険だろうけど。

歴史上独占が進んでおかしくならなかったケースなんて
ほとんど無いからね。
45デフォルトの名無しさん:2010/10/27(水) 22:23:55
それは売る側のプログラムに既に書いてあるよ
46デフォルトの名無しさん:2010/10/28(木) 20:51:54
>>44
> たまに出てくるGoogle Ads見てみ
> 見事に最近の検索結果と一致してるから。

それのどこが危険なの?
47デフォルトの名無しさん:2010/10/29(金) 11:18:23
ああ、アフォがいる
48デフォルトの名無しさん:2010/10/29(金) 18:28:17
よそで見たページの語彙とか、自宅の近所に貼ってあった選挙ポスターとか、
そういうのが検索結果やアドに反映されてたら怖いけどさ、
ググルで検索した履歴がググルのアドに反映されても何の不思議も怖さもないんだけど。
49デフォルトの名無しさん:2010/10/30(土) 00:34:03
( ´_ゝ`)フーン
50デフォルトの名無しさん:2010/11/06(土) 06:39:42
とうけい!
51デフォルトの名無しさん:2010/11/06(土) 22:47:40
HMMが実装できない・・・
52デフォルトの名無しさん:2010/11/07(日) 20:27:44
かくれ☆まるこふ!
53デフォルトの名無しさん:2010/11/07(日) 21:03:12
ばうむ☆うぇるち!
54デフォルトの名無しさん:2010/11/08(月) 01:06:54
M・R・F!!M・R・F!!
55デフォルトの名無しさん:2010/11/08(月) 01:10:52
クラスタリング結果を評価する時
どういう評価方法を採るのが一般的ですか?
56デフォルトの名無しさん:2010/11/08(月) 03:56:05
クラスタリングなどの教師無し学習は、
そもそも教師データが無いので評価できないのでは?
クラスタリングの目的は潜在変数の予測だしね。
評価の基準(教師データ)があるなら教師付き学習を使うだろ。
57デフォルトの名無しさん:2010/11/08(月) 17:13:59
評価というか結果の解釈のことじゃね?
58デフォルトの名無しさん:2010/11/09(火) 04:58:42
>>51
とある過程の動的計画法(ダイナミックプログラミング)
59デフォルトの名無しさん:2010/11/09(火) 04:59:53
>>56
凝集度を計測したり、色々な評価尺度があるが?
60デフォルトの名無しさん:2010/11/10(水) 00:24:15
MAPとMLEって,どう違うの?
61デフォルトの名無しさん:2010/11/10(水) 10:41:29
CやJavaでガリガリコーディングする分野じゃないよね?
62デフォルトの名無しさん:2010/11/10(水) 12:08:14
>>61
JavaならWekaとかあるよ
ガリガリは書かないだろうけど
63デフォルトの名無しさん:2010/11/10(水) 15:37:52
集合知プログラミングのクラスタリングのプログラムロジックをPerlに移植した上で、
過去半年の英米圏で発表された科学論文系のプレスリリース約12000件のクラスタリングを
やってみたところ、プログラムがまったく動作しなかった。

元テキストで使われている英単語から辞書を作成したところ、辞書の大きさは約6万件。
これを元に記事ごとの単語頻出度を抽出させたんだが、1記事6万件の単語フィールドだと
普通のプログラムだと処理しきれないみたい。

集合知プログラミングのサンプルデータだとちゃんと処理できたのだが、
http://kiwitobes.com/clusters/blogdata.txt
64デフォルトの名無しさん:2010/11/10(水) 21:52:51
bayonで処理してみたが、100件のデータ処理でも5分以上かかり、全件データの処理は無理があるということが判明しました。
単語頻出度の出現率リストから作り直す必要があるみたいなので、今、元データを見直してみたところ、
全テキストに出現するユニークワードは67769。この内、1度しか出現しないワードは全体の48%。
反対にもっともよく出現するワードはこれ、とりあえず、上と下のワードを削ってみます。

1 6703 research
2 6442 study
3 6297 university
4 5410 researchers
5 4182 journal
6 4071 published
7 4049 found
8 3467 professor
9 3088 years
10 2910 health
11 2862 time
12 2819 results
13 2694 team
14 2688 patients
15 2687 scientists
16 2687 data
17 2635 author
18 2623 disease
19 2581 people
20 2578 findings
65デフォルトの名無しさん:2010/11/10(水) 23:11:42
この分野を学ぶのに,無料で読めるpdfのオヌヌメないですか?
66デフォルトの名無しさん:2010/11/11(木) 00:45:30
現時点ではオライリーの集合知プログラミングが唯一に入門書。
日本語のブログ記事もそこそこあるが、ほとんどは、他のサイトでこういうことが紹介されていました、という
伝聞記事で、実際にテキストマイニングをやったことはない人が書いたもの。実際に自分で試して記事は
ベイジアン分類はそこそこあるが、クラスタリングになるとほとんどない。非負値行列因数分類とかになると
そもそも入門レベルでの解説は不可能で、自然言語系の専門教育を受けた人じゃないとかなり難解。

集合知プログラミングの作者のブログによるとこの本(原書)は1500部売れたとか書いてあるけど、
1500部というと多分、初版で終わりのレベル。英米圏でも1500というのはオライリーの専門書のなかでも
かなり専門的な分野だと思う。

67デフォルトの名無しさん:2010/11/11(木) 01:37:55
いちいち上げんな
68デフォルトの名無しさん:2010/11/11(木) 15:22:25
ageとく
69デフォルトの名無しさん:2010/11/11(木) 22:25:58
70デフォルトの名無しさん:2010/11/12(金) 01:54:30
>>66コードがpythonの時点でダメダメ
71デフォルトの名無しさん:2010/11/12(金) 16:23:58
この話題プログラム板より学問板のがいんじゃね。
72デフォルトの名無しさん:2010/11/12(金) 16:29:20
今時、理論は分からなくても、LibSVM呼ぶだけじゃん。
もっと応用に使うべき。
73デフォルトの名無しさん:2010/11/12(金) 16:30:09
>>70
どうして?
74デフォルトの名無しさん:2010/11/12(金) 17:11:05
>>71
シミュレート板に関連スレがいくつかありました。
しかし9月上旬にkamomeが飛んだ時にログが2ch.netから失われました。
過疎板の上に今は書き込み規制が乱発されているので再建は難しそうです。
http://kamome.2ch.net/sim/

kamome移転前のログが下記ページにあります。
http://www.unkar.org/read/science6.2ch.net/sim
75デフォルトの名無しさん:2010/11/12(金) 18:15:26
>>70
あの本で載っているPythonのサンプルはアルゴリズムを説明するため使っているもので、
プログラム例ではないよ。現にそもまま打ち込んでも動かないというか、多分、著者は、
実行系で動かしたものを掲載したんではなく、ワープロでそもまま直感的に打ち込んだもの
を掲載しているんじゃないかと思う。つまり、アルゴリズムの表現としてただ単に平易な言語
を使っただけではないかと思う。
76デフォルトの名無しさん:2010/11/12(金) 19:25:28
自分で打たなくても動くやつDLできるだろ
77デフォルトの名無しさん:2010/11/12(金) 22:40:37
確かにダウンロードはできるのだが、ダウンロード提供されているプログラムは書籍に載っているプログラム例と異なる。
アマゾンのコメントとかには、プログラムを打ち込んでも全然動かないとか、そもそもシンタックスがおかしくおかしいとか、
果ては演算子のxが書籍内ではx(エックス)が使われており、著者は四則演算もできないバカとか、完全に的外れのコメントまで書かれている。
78デフォルトの名無しさん:2010/11/13(土) 16:21:37
融通きかんやつだな
79デフォルトの名無しさん:2010/11/16(火) 12:55:31
Googleがやってるのも要はデータマイニング。
80デフォルトの名無しさん:2010/11/16(火) 13:29:46
>>75
そうは言うけど、自分の知らないプログラミング言語だとわかりにくいよ
サンプルコードはC系の言語(C,C++,C#,Java)当たりにしとくべき
81デフォルトの名無しさん:2010/11/16(火) 14:34:35
>>80
それこそ、向かないでしょう。
82デフォルトの名無しさん:2010/11/16(火) 14:44:42
600ページの本になっちゃう。
83デフォルトの名無しさん:2010/11/16(火) 19:33:51
あの本を読んで、単純ベイジアン分類器とデータクラスタリングの2章分の機能をサイトに移植したのだが、
データクラスタリングの章は、根本的なところで、テキストから抽出する単語の頻出度データの構造が悪い。
セガランのクラスタリング実装では、Big brown fox jumps over the lazy dogとNow is the time all the good men stand for America.
という2つのテキストがあった場合、出現する全部単語で列を作って
1 -> 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0と
2 -> 0 0 1 0 0 0 1 0 1 1 1 1 1 1 1 1
のようなテーブルを作ってクラスタライングを実行することになる。ところが、大量の文章を元にこのデータ
構造を作ろうとなると、それこそ、普通の辞書に載っているだけの単語が出現することになって、
元データの1行の列数が数万とかとんでもないことになって処理が困難になる。

その後でBayonを使ってみてBayonのデータ構造がかなり違っていることに気づいたのだが、Bayonの場合、入力データは
Big 1 brown 1 fox 1 jumps 1 over 1 the 1 lazy 1 dog 1
Now 1 is 1 the 2 time 1 all good 1 men 1 stand 1 for 1 America 1
みたいな記述になっていてデータが単純。あの本の批判には、Pythonのシンタックスがおかしいという他に
Pythonによる実装例だとスケーラブルな処理ができなくなるというのがあるんだけど、まあ、その批判も
実際に試した結果から言っているものではないな。上のデータ構造はセガランはベイジアン分類器でも
使っているが、そもそもスケーラブルな処理をこなすためにはこのデータ構造そのものが問題でPython
云々の問題ではない。ただし、まあ、あのレベルの本だとそこを含めて判って当然なんだろうと思う。
84デフォルトの名無しさん:2010/11/18(木) 16:14:31
>>83
データ構造の考え方としては間違えてないと思う。
実際、疎行列に最適化した実装なんていくらでもあるよ。
85デフォルトの名無しさん:2010/11/19(金) 10:51:52
>>80
Javaに関してだけのコメントだけど、
「Javaによる知能プログラミング入門」なんかを読んでみると
この手の本にJavaは向かない気がする。プログラムの一単位が
大きく、説明文とコードを1ページに詰めようとすると、文字も
細かくなり読みにくい。やはりこういうレベルのアルゴリズム
記述は記号処理言語だけで構成することが望ましいのではないか。
8685:2010/11/19(金) 12:56:02
そうは書いてみたものの、「集合知プログラミング」の中で、アルゴリズムの
説明箇所は少ないね。データ構造と実行例ばかり。
87デフォルトの名無しさん:2010/11/19(金) 17:01:43
そもそもこれ以外に包括的に書かれた入門書ってあるの?
88デフォルトの名無しさん:2010/11/20(土) 08:05:27
>>87
集合蜘 in action
89『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化:2010/11/22(月) 06:40:29
興味深い事に、今日(2010年11月22日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。

@本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
A「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。

『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
http://infowave.at.webry.info/201011/article_2.html
90デフォルトの名無しさん:2010/11/22(月) 07:40:10
「○○は俺が知らないから駄目!俺の知ってる言語で書け!」とか言われるなら
既存のどの言語にも平等に似てない擬似言語を使うしかないんじゃないか

いや件の本が良いか悪いかは別として
91デフォルトの名無しさん:2010/11/29(月) 08:26:36
>>86
そのアルゴリズムを何を使ってどうやって説明するかは難しいよ。
例えばGoogleのページランクのアルゴリズムを説明するには、最終的には方程式でも示さなければダメになる。
それでもいいけど、そこまでいくともう論文でしょ。
オハイリーで出版できる本じゃなくなる。
92デフォルトの名無しさん:2010/11/29(月) 10:52:54
関連記事検索システムのために作ったデータクラスタリングのプログラムに画像データのカラーヒストグラムマップの数値
情報を与えて分類させたらちゃんと動くと思う?

93デフォルトの名無しさん:2010/11/29(月) 11:27:11
ここの記事読んで、カラーヒストグラムを使った類似画像検索システム作ってみたんだが、K平均法のデータクラスタリングの
プログラムにデータを与えたらちゃんと分類したよ。

これはちょっとおもしろい。
http://d.hatena.ne.jp/aidiary/20091003/1254574041
94デフォルトの名無しさん:2010/11/29(月) 16:17:36
ああおもしろそうだ
95『2ちゃんねる』:海外からのデータマイニング?:2010/11/29(月) 23:03:28
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

96デフォルトの名無しさん:2010/12/01(水) 10:59:12
>>93
あたりまえだけど
色しかみてないのが良くわかるね
97デフォルトの名無しさん:2010/12/01(水) 12:40:01
エロ画像と水着画像の識別はできなさそうだな
98デフォルトの名無しさん:2010/12/01(水) 23:04:18
機械学習全般についてかかれてるいい教科書ない?
できれば日本語で
99デフォルトの名無しさん:2010/12/02(木) 02:03:08
オライリーの集合知本ブックオフに売っちゃったんだよなあ
このスレ見てたらまた読みたくなってきた
100デフォルトの名無しさん:2010/12/02(木) 03:39:03
一回読んだのなら、ソースコード眺めれば大体思い出すだろ。
101デフォルトの名無しさん:2010/12/02(木) 07:05:18
オクにでも出せばよかったのに
あそこだと400円ぐらいだろうww
102デフォルトの名無しさん:2010/12/03(金) 07:06:17
>>98
【超初心者向け】
集合知プログラミング
http://www.amazon.co.jp/dp/4873113644/

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで
http://www.amazon.co.jp/dp/4627847114/


【初心者向け】
統計的機械学習―生成モデルに基づくパターン認識
http://www.amazon.co.jp/dp/4274502481/

わかりやすいパターン認識
http://www.amazon.co.jp/dp/4274131491/


【中・上級者向け】
パターン認識と機械学習 上 - ベイズ理論による統計的予測
http://www.amazon.co.jp/dp/443110013X/
103デフォルトの名無しさん:2010/12/06(月) 17:22:20
ちぃ、モンティー・ホールおぼえた!
104デフォルトの名無しさん:2010/12/15(水) 03:15:59
集合知プログラミングって尼で内容が薄いって酷評されてるのもあるけど実際とうですか?
105デフォルトの名無しさん:2010/12/15(水) 09:51:05
中学の英語の教科書見て、「こんな簡単な本じゃ役に立たん!」という類の池沼さん。
106デフォルトの名無しさん:2010/12/15(水) 15:53:22
少なくともこの分野の全くの初心者からすると読み応えあるはず
多少かじってる人なら中身をちょっと見れば自分に適してるかどうか判断できるっしょ
107デフォルトの名無しさん:2010/12/15(水) 16:36:38
>>105-106
どうもありがとうございます。
アメリカの尼の評価は非常に高かったしデータマイニングは初学なので読んでみようと思います。
108デフォルトの名無しさん:2010/12/16(木) 18:23:01
>>104
良い本だと思いますよ。
題材も、掲載されているアルゴリズムも、わかりやすいと思う。

ただ、プログラム例に怪しいものもあるので
ネットで検索しながら読んだ方がいいかもね。
あと、数学的な背景を知りたければこの本の後に別な本を読むべし。
109デフォルトの名無しさん:2010/12/16(木) 22:35:37
特徴ベクトルの次元30くらいで、
windows版のliblinearのL2正則化付きロジスティック回帰で学習させると、
学習例が10億を超えたくらいからエラーが出ます
(正確にはVisual Studioのデバッガが出る)。
心当たりのある人いますか?

本当は自分でliblinearをコンパイルして調べないといけないのだけど・・・。
110デフォルトの名無しさん:2010/12/17(金) 05:08:12
使用できるメモリの容量を上げろ
111デフォルトの名無しさん:2010/12/17(金) 10:22:37
まさか32bit OSじゃないよね?
112デフォルトの名無しさん:2010/12/17(金) 11:27:21
なにそれ卒論?
113デフォルトの名無しさん:2010/12/17(金) 14:43:08
スタックトレースの見かたもしらないの?
114デフォルトの名無しさん:2010/12/17(金) 23:10:42
機会学習ってなかなか面白いな
115デフォルトの名無しさん:2010/12/20(月) 09:29:05
美人とセックスできる機会を学習させたい
116デフォルトの名無しさん:2010/12/20(月) 15:14:25
学習に利用できるデータがありません!
117デフォルトの名無しさん:2010/12/20(月) 19:39:46
美人とのセックスの回数と年収の相関係数は1.0。
118デフォルトの名無しさん:2010/12/21(火) 14:09:10
母集合に韓国産を含めてもダメかい?
119デフォルトの名無しさん:2010/12/21(火) 15:52:43
しょうもな
120デフォルトの名無しさん:2010/12/23(木) 02:37:50
>>108
皆さんの意見により買わせて頂きました。
とても楽しい本で導入として買って見ましたが非常に良かったと思います。
とりあえず>>102を参考にして順次レベルアップしていこうと思います。
回答頂いた方本当にありがとうございました。
121デフォルトの名無しさん:2010/12/23(木) 04:55:28
sqliteとかlibsvmのバージョン違いでAPIが変わっているので
そのへんは少し自分で調べて変更が必要だった。
122デフォルトの名無しさん:2010/12/23(木) 23:10:11
WebAPI多用し過ぎだろww
アルゴリズムの記述も少ないし内容的にも表面なぞってるだけでなんでこんなに褒められてんだかわからんww
123デフォルトの名無しさん:2010/12/24(金) 03:05:34
概要が分かればいいんだよ。
どんな問題に適用できるのかさえ知っていればね。

SVMだって使うだけならカーネル法なんか知らなくても問題無い。
124デフォルトの名無しさん:2010/12/24(金) 06:55:49
>>122
なら100万件のデータセットを手で打ち込め。
125デフォルトの名無しさん:2010/12/24(金) 22:38:01
>>122
車輪の発明しないようにね
126デフォルトの名無しさん:2010/12/26(日) 23:17:51
フリーソフトでつくる音声認識システムと集合知プログラミングのどっちにしようかかなり悩んでます。
フリーソフトでつくる音声認識システムの本のほうの利点みたいな所を紹介してもらえないでしょうか。
127デフォルトの名無しさん:2010/12/26(日) 23:50:39
「集合知プログラミング」はいくつかのデータマイニングの手法の概要がわかるだけ。
・各手法がどのような問題に適用できるのか
・各手法の長所と短所
とかね。

各手法の詳しいアルゴリズムは載ってないので自分で実装は出来ないけど、
どの問題にはどの手法が適しているとかは分かるようになるし、
WebAPIなどのツールを使って問題を解く事は出来るようになる。


「フリーソフトでつくる音声認識システム」の方は機械学習やパターン認識寄りで、
各手法のアルゴリズムを数式を使って詳しく説明している。

「集合知プログラミング」よりは多少難しいが、
これくらいの内容は理解してないと色々困る。
128デフォルトの名無しさん:2010/12/27(月) 00:01:32
>>127
なるほど自分の用途だと後者の本が良かったのでこれで心配せずに買えそうです。
迅速な回答ありがとうございました。
129デフォルトの名無しさん:2010/12/28(火) 20:55:13
俺には教科書的な感じでしょうもなかったな
130デフォルトの名無しさん:2010/12/29(水) 11:09:26
教科書最強
131デフォルトの名無しさん:2010/12/29(水) 11:15:49
機械学習を卒論で発表するぜ
132デフォルトの名無しさん:2010/12/31(金) 20:23:09
機械学習とデータマイニングの両方勉強してる人っているの?
133デフォルトの名無しさん:2010/12/31(金) 21:57:35
いるよ、俺とか。
134 【小吉】 【1041円】 :2011/01/01(土) 01:39:02
本の話で申し訳ないんですが>>102みたいなデータマイニングについての本で良い本はありますでしょうか?
機械学習とはどうやら違うようなので。
135 【豚】 【251円】 :2011/01/01(土) 19:19:24
データマイニングの分野の本はそんなにないから調べてみ。
136デフォルトの名無しさん:2011/01/02(日) 01:55:06
問1.機械学習、データマイニング、パターン認識の違いを述べよ (30点)
137デフォルトの名無しさん:2011/01/02(日) 02:38:08
138デフォルトの名無しさん:2011/01/02(日) 15:17:57
機械学習 ⊃ データマイニング
139デフォルトの名無しさん:2011/01/02(日) 15:39:08
>>138
それは違うだろ・・・
140デフォルトの名無しさん:2011/01/02(日) 18:49:42
株価予想とかはデータマイニング?
141デフォルトの名無しさん:2011/01/02(日) 19:06:56
株価予想の一部はデータマイニング
142デフォルトの名無しさん:2011/01/02(日) 19:53:52
データマイニングも機械学習もおんなじようなもんだろ。
143デフォルトの名無しさん:2011/01/02(日) 21:28:40
無知乙
144デフォルトの名無しさん:2011/01/03(月) 14:56:41
>>142
機械を使わなくてもデータマイニングはできる
機械で実装できていないデータマイニングがある
145デフォルトの名無しさん:2011/01/04(火) 01:59:30
146デフォルトの名無しさん:2011/01/04(火) 18:41:51
R言語とかあんのか
147デフォルトの名無しさん:2011/01/07(金) 18:11:27
地雷っぽい本だな
148デフォルトの名無しさん:2011/01/10(月) 00:57:17
【R言語】統計解析フリーソフトR 第4章【GNU R】
http://kamome.2ch.net/test/read.cgi/math/1294561909/
149デフォルトの名無しさん:2011/01/10(月) 14:12:35
テキストマイニングって本が少し高目だけどお薦め。
150『2ちゃんねる』:海外からのデータマイニング?:2011/01/21(金) 05:48:32
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

151遠隔地からの電磁波による思考盗聴は現段階では不可能:2011/01/21(金) 05:58:20
『思考盗聴』には少なくとも
@脳に電極を埋め込む手術が必要である。
A通信媒体は電波(電磁波)である。
ということが2009年段階で言われているようです。(下記参照)

『脳を読み取る最新技術(前半) 20090209 』
http://www.youtube.com/watch?v=D-8kuZzFKlA

『脳を読み取る最新技術(後半) 20090209 』
http://www.youtube.com/watch?v=mBYWsHsVuKA

したがって、「脳に電極を埋め込まれるような手術を受けていない人」や
「遠隔からの電磁波による思考盗聴を危惧している人」は思考盗聴される
ことはありえないと判断してよいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。

152遠隔地からの電磁波による思考盗聴は現段階では不可能(2):2011/01/21(金) 05:59:36
『Wikipedia』の「ブレイン・マシン・インターフェイス」(下記)
http://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AC%E3%82%A4%E3%83%B3%E3%83%BB%E3%83%9E%E3%82%B7%E3%83%B3%E3%83%BB%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%BC%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9
でいう「非侵襲式」という方式です。実用面の説明として(以下引用)
「手軽にセンサーの取り外しが出来ることから実用面でリードしているものの、
頭蓋骨などの影響で脳波が変化してしまい(体積伝導)、侵襲式と同じように正確に情報を読み取れるかどうかは課題として
残っている。」(以上引用)
と述べています。@脳に電極を埋め込む手術が必要である。ような侵襲式でない場合は正確な脳波を測ることは 現段階では不可能
なようです。脳波を測るのにA電波(電磁波)を使う。と考えるとして、遠隔地からどのような電波 を対象者(ターゲット)に照射
して脳波を読もうとするのでしょうか。指向性電波でしょうか。対象者だけに電波(電磁波)を照射できる 保証はあるのでしょうか。
携帯電話の電磁波でも長時間浴びると脳に障害がでると言われていますが、どれくらいの間対象者に電波 (電磁波)を照射するので
しょうか。長時間の電磁波照射は人体に有害である可能性が高いですよね。結局、遠隔地からの電磁波照射では対象者の脳波や
脳の血流を正確に読むことはできないと考えられます。

153遠隔地からの電磁波による思考盗聴は現段階では不可能(3):2011/01/21(金) 06:01:31
『NEWTON(ニュートン)』の3月号(記参参照)
http://www.newtonpress.co.jp/science/newton/back/back10/n1003.html
の『脳研究の今』P42〜P43に「fMRI」についての情報がのっています。日本では
>>152で述べられているような脳に電極を埋め込まない「非侵襲式」の研究が盛んなよう
です。興味があれば読んでみてはいかがでしょうか。「fMRI」については下記の
『Wikipedia』の「fMRI」を参照してください。
http://ja.wikipedia.org/wiki/FMRI

脳波を測定するにしても、脳も血流を測定するにしても、遠隔地からの電磁波による
思考盗聴は現段階では不可能なようです。 したがって、>>151で述べているように
「脳に電極を埋め込まれるような手術を受けていない人」や 「遠隔からの電磁波
による思考盗聴を危惧している人」は思考盗聴される ことはありえないと判断して
よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。


154遠隔地からの電磁波による思考盗聴は現段階では不可能(4):2011/01/21(金) 06:02:49
『Newton』2010年6月号(右記)http://ime.nu/www.newtonpress.co.jp/science/newton/index.html
 サイバーワールド『脳波から意志を読み取る装置が実用化へ』(12ページ)の
「持ち運び可能な無線脳波計」の項目に次のような記載があります。
(以下引用)
「これまでの認知型BMIは、装置が大きく高価で、操作もむずかしいなど、
実用性にもとぼしいものが多かった。そんな中、産業技術総合研究所の研究
グループは、認知型BMIシステムを用いた、より実用性の高い意志伝達装置
「ニューロコミュニケーター」を開発した。BMIには、脳に電極を刺して
脳活動を読み取る「侵襲型」と、脳に電極を刺さない「非侵襲型」がある。
ニューロコミュニケーターは、より安全性の高い「非侵襲型」で、ヘッド
キャップをかぶり、頭皮上の脳波(電位変化)から脳活動を計測する方法
を採用している。そして、コア技術の一つとして開発されたのが、持ち運
び可能な「超小型脳波計」である。この脳波計は、コイン型電池で長時間
稼動し、外部機器とは無線で通信するため、ケーブルからのノイズの混入
もなく、ユーザーの動きも制限しない。(以上引用)
『このニューロコミュニケーターでも頭部に脳波を測るヘッドキャップを常時装着しています。
その測定結果を電波で送信するのです。脳波を測定するにしても、脳も血流を測定するにしても、
遠隔地からの電磁波による 思考盗聴は現段階では不可能なようです。 したがって、>>33
で述べて いるように 「脳に電極を埋め込まれるような手術を受けていない人」や 「(自分の意思で脳波測定の
ヘッドキャップをつけていないのに)遠隔からの電磁波 による思考盗聴を危惧している人」は思考盗聴
される ことはありえないと判断して よいのではないでしょうか。

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。 『ライフログ集合体と個人情報・プライバシー問題
(『思考盗聴』とよばれる現象の一種について)』 http://infowave.at.webry.info/201001/article_2.html
遠隔地から電磁波を送って思考を盗聴する「思考盗聴装置」という機器があるわけではないと思うのですが
どうでしょうか。

155デフォルトの名無しさん:2011/01/21(金) 06:06:39
今度はここか
156デフォルトの名無しさん:2011/01/21(金) 06:27:17
何回同じ質問してんだよ
池沼か?
157警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2011/01/21(金) 07:29:33
>>156

「池沼」とはどのような意味ですか。池と沼ですか。
158警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して:2011/01/21(金) 07:31:21
興味深いことに、インターネットで「警察・盗聴」で検索するとほとんど事件らしい事件は
見当たりません、目立つ事件と言えば『日本共産党幹部宅盗聴事件』くらいです。下記『Wikipedia』
「日本共産党幹部宅盗聴事件」を参照してください。
http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%85%B1%E7%94%A3%E5%85%9A%E5%B9%B9%E9%83%A8%E5%AE%85%E7%9B%97%E8%81%B4%E4%BA%8B%E4%BB%B6
一方、「警察・盗撮」で検索すると多くの盗撮事件があることがわかります。これは、警察の盗聴と盗撮に対する
「令状主義」の差がでているのではないかと考えられます。下記参照おねがいします。

『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
http://infowave.at.webry.info/201010/article_1.htmlの参照お願いします
159警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して2:2011/01/21(金) 07:32:38
今まで起きた警察による盗撮事件はコメント欄に記載されています。
参照してください。
160『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化:2011/01/21(金) 07:36:33
興味深い事に、今日(2011年1月21日現在)、インターネットの検索エンジン(たとえば、Google、Yahoo! など)
で「警察・盗撮」というキーワードで検索すると、警察官による盗撮事件が複数検索できます。もちろん、盗撮行為をした
警官は逮捕されています。一方、「警察・盗聴」というキーワードで検索すると、警察官による盗聴事件はほとんど検索結果
がでません。これにはいくつかの可能性が考えられると思うのです。

@本当に警察官は傍聴法にもとづいたと傍聴以外の違法な盗聴を行って
いないから事件にならない。
A「検察が法的根拠なしでも開示要請すれば、ほいほいと従うという暗黙の慣例」にしたがって、
実は傍聴法にもとづかない違法・越権盗聴を行っているが、日本国内のプロバイダーや通信業者の
協力で問題が表面化せずにごまかせている。

『尖閣ビデオ』流出問題に垣間見る通信の秘密の法律・傍聴法の無力化』(下記参照おねがいします)
http://infowave.at.webry.info/201011/article_2.html

161デフォルトの名無しさん:2011/01/21(金) 19:57:10
頼むからこういう奴は規制してくれよ
掲示板的には右翼左翼よりもある意味性質が悪い
162デフォルトの名無しさん:2011/01/21(金) 20:02:04
通報しました
163内閣府HPにおける個人情報保護法:2011/01/21(金) 21:26:40
興味深いことに、インターネットで「警察・盗聴」で検索するとほとんど事件らしい事件は
見当たりません、目立つ事件と言えば『日本共産党幹部宅盗聴事件』くらいです。下記『Wikipedia』
「日本共産党幹部宅盗聴事件」を参照してください。
http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%85%B1%E7%94%A3%E5%85%9A%E5%B9%B9%E9%83%A8%E5%AE%85%E7%9B%97%E8%81%B4%E4%BA%8B%E4%BB%B6
一方、「警察・盗撮」で検索すると多くの盗撮事件があることがわかります。これは、警察の盗聴と盗撮に対する
「令状主義」の差がでているのではないかと考えられます。下記参照おねがいします。

『警察の傍聴・撮影に係わる「令状主義」の徹底の必要性に関して(Nシステム運用法律の立法の重要性)』
http://infowave.at.webry.info/201010/article_1.htmlの参照お願いします


『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.htmlにも記載させていただきましたが
内閣府(HP管理は消費者庁に移動したようです。)の『個人情報保護法に関する疑問と回答』
(下記参照してください)http://www.caa.go.jp/seikatsu/kojin/gimon-kaitou.html#1_3
このページのQ1−3には「個人情報保護とはどういうことですか。プライバシー保護とは違うのですか。」
という質問がのっています。

その回答の一部に「個人情報保護法は、個人情報取扱事業者が個人情報の適正な
取扱いのルールを遵守することにより、プライバシーを含む個人の権利利益の侵害を未然に防止することを狙いとしています。」
という内容があることを確認できます。

つまり、内閣府ではプライバシーを含む個人の権利利益の侵害を未然に防止することを
目的にして、 とくに個人特定に関わる情報を個人情報として守るべきであるということを明示しているということです。

164元総務省顧問の意見:2011/01/21(金) 21:30:56
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.htmlにも記載させていただきましたが
「自己情報コントロール権の銘記」に関しては必要があるという判断をしている元総務省顧問の人がいます。
『個人情報保護法改正の議論を始めよう』(下記参照してください、発言時は現職です。)
http://blog.goo.ne.jp/hosakanobuto/e/e51128c894c86ebef042aaaaa985cd11
(以下引用)

「個人情報保護法とは、その名の通り「国民の個人情報」を保護するのではなくて、
「個人情報」を行政機関(警察・検察など捜査機関を含む)が自由自在に使える状態
となってしまっていて、行政機関がどのように「個人情報」を扱っているのかについては、
当事者である個人がアクセスしようにも、「個人情報だから教えられません」という倒錯が起きている。
「自己情報コントロール権」が銘記されなかったせいだ。」 以上引用)

とにかく、個人情報やプライバシー情報が本人の一回ごとの認証なしに一方的に入手・利用されるような
状況は避けるべきではないでしょうか。

165『2ちゃんねる』:海外からのデータマイニング?:2011/01/21(金) 21:33:23
(>>95再)

『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

166Tea and Coffee Time:2011/01/21(金) 21:46:38
掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
http://infowave.at.webry.info/200804/article_1.html
掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。

167デフォルトの名無しさん:2011/01/22(土) 03:06:05
そんなことよりシステムトレード実装したいな
168デフォルトの名無しさん:2011/01/22(土) 19:51:31
スレチ
【自動】株式トレーディングシステム Part6【売買】
http://hibari.2ch.net/test/read.cgi/tech/1252642575/
169デフォルトの名無しさん:2011/01/23(日) 13:50:17
トレーディングシステムに機械学習は必須じゃないし
170デフォルトの名無しさん:2011/02/05(土) 03:31:35
あげ
171デフォルトの名無しさん:2011/02/05(土) 14:28:21
【工学】インターネット上の大量な情報を分析・整理し信頼性判断を支援する技術を開発 
http://toki.2ch.net/test/read.cgi/scienceplus/1296736553/
172デフォルトの名無しさん:2011/02/12(土) 14:48:46
15パズルを強化学習で説かせたいのですが
状態数が多すぎて評価値を保存しきれません
何か良い方法はありますか?
173デフォルトの名無しさん:2011/02/13(日) 22:21:53
そもそも状態数が多すぎるものは強化学習に向いてない
174デフォルトの名無しさん:2011/02/14(月) 18:13:54
TokyoCabinetでも使えば?
175Tea and Coffee Time:2011/02/24(木) 07:12:59.52
>>166(再)

掲示板等の匿名性は保たれているのでしょうか、暗に言語統制をしようとするための情報
漏洩ルートはないのでしょうか。個人情報保護法や「通信の秘密」を守る法律が軽視、無視されて、
掲示板などのインターネット上の匿名性がなくなると、最近話題の集団ストーカー行為等が引き起こされる
可能性があると考えられます。(下記参照)
http://infowave.at.webry.info/200804/article_1.html
掲示板やホームページ、あるいはブログの意見を消去せずに言語統制や集団ストーカー
の関係を調べるよい方法がいくつか考えられると思うのですがどうでしょうか。

176『2ちゃんねる』:海外からのデータマイニング?(再):2011/02/24(木) 07:46:57.50
『【ネット】2ちゃんねる、“言論なき日本”を見捨てた?…2ちゃんねる、ひろゆき氏の手を離れてシンガポール共和国の法人へ譲渡[1/2]』
(下記参照)
http://gimpo.2ch.net/test/read.cgi/news4plus/1230860771/
(以下引用)『譲渡先は「PACKET MONSTER INC. 」とされており、これについての詳細な説明はない。・・・(中略)・・・
また、書き込みを保存するサーバー自体はアメリカ合衆国にあり、従来、2ちゃんねる
ガイドに添えられていた「書き込み削除の最終責任は管理人ひろゆきにあります。 」という表現自体も削除されている・・・
(中略)・・・今回の“外国への譲渡”が、
書き込みをめぐる名誉棄損訴訟や法務省、警察庁など“ネットを取り締まる”官庁にも相当の影響を与えると思われる。』
(以上引用)

以上を読んでいただ後、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が来年提出され、もし成立すれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

177デフォルトの名無しさん:2011/02/24(木) 12:20:50.48
TCと他map実装の比較(全部memcopy時)
http://fallabs.com/mikio/tech/promenade.cgi?id=64
なんとかなるかな
178デフォルトの名無しさん:2011/02/26(土) 12:41:48.45
吉本ってこれ使ってネタ作ってる

話聞いてておかしいと思ったよ
なんかエキサイト翻訳的な日本語で話しかけられてるから意味が通じないって
言う、ハーフの友人の母なんかエキサイト翻訳の英文の意味が本国では通じな
いって言ってたけどな。

何度も何度も「子供たち」「子供たち」って聞こえて明らかに30過ぎたおっさんが
何言ってんだ?と思ったがな。
179デフォルトの名無しさん:2011/02/26(土) 14:21:45.10
単語を適当にマルコフ連鎖でつなげれば、
100に1つくらいは使えるネタが作れそう。
180デフォルトの名無しさん:2011/02/27(日) 09:35:17.93
ガンダムって教育型タイプコンピュータだったんだな。
http://www.youtube.com/watch?v=dXXd251N7C8
の13分あたり
181デフォルトの名無しさん:2011/02/27(日) 09:48:05.76
常識だろ
ガンダムはSVMでNT判別するんだぜ?
182デフォルトの名無しさん:2011/02/28(月) 12:03:48.96
その当時にSVMが(ry
183デフォルトの名無しさん:2011/02/28(月) 15:09:44.04
なんか人口無脳作って喋らしたいんだけどフリーの喋らせるソフトってない?
184デフォルトの名無しさん:2011/02/28(月) 16:29:55.90
>>183
作りたいのか拾いたいのかどっちなんだ?
185デフォルトの名無しさん:2011/02/28(月) 17:45:19.38
拾いたいです
186デフォルトの名無しさん:2011/02/28(月) 19:30:38.70
>>185
作れよ。
187デフォルトの名無しさん:2011/02/28(月) 19:43:50.89
伺か
188デフォルトの名無しさん:2011/02/28(月) 22:20:08.98
作るのは人工無能で、拾うのは人工有声
189デフォルトの名無しさん:2011/03/01(火) 00:30:57.35
>>188
そうです。
喋らせる言葉はテキストマイニングで決める予定なので欲しいのは人工有声です。
190デフォルトの名無しさん:2011/03/01(火) 12:56:32.13
タミーの買ってやれよ
191デフォルトの名無しさん:2011/03/01(火) 13:45:39.26
ニコニコで人工有声使ってる人いなかったっけ?
192デフォルトの名無しさん:2011/03/01(火) 13:53:37.87
テキストマイニングの分野で入門自然言語処理ってどう?
193デフォルトの名無しさん:2011/03/01(火) 15:11:23.18
別に
194デフォルトの名無しさん:2011/03/01(火) 16:16:24.39
>>193
だったら書き込まないでください
195デフォルトの名無しさん:2011/03/01(火) 21:11:40.43
>>189
じゃ、お前って結局何もする気ないってことじゃん。
帰れよ。
196デフォルトの名無しさん:2011/03/01(火) 23:17:24.54
なぜそうなるのか、よく分からん。
音声エンジンは作らないけど、AI作るんじゃないのか?
197デフォルトの名無しさん:2011/03/02(水) 11:19:10.31
このスレじゃ人工有声も作るのがデフォらしい
198デフォルトの名無しさん:2011/03/02(水) 20:05:55.59
単純パーセプトロンって入力層と出力層だけの構成のもの?
それとも出力層ニューロンが1つだけのものをいうの?
199デフォルトの名無しさん:2011/03/03(木) 21:48:14.53
出力層ニューロンが1つだけのもの。
層の数は関係ない。
200デフォルトの名無しさん:2011/03/09(水) 23:51:17.98
SIで機械学習使った仕事が出来るのってどんな分野ですか?情報家電とか?
201デフォルトの名無しさん:2011/03/10(木) 00:44:07.42
SIで情報家電って、そのSIは何だろう。
202デフォルトの名無しさん:2011/03/10(木) 00:45:50.16
BIなど分析系の業務なら使えるのでは。
203デフォルトの名無しさん:2011/03/10(木) 02:01:00.06
Web系企業はどこでもHadoop使ってデータマイニングやってるけどね
204デフォルトの名無しさん:2011/03/10(木) 19:44:03.64
>>200
そこら辺のメーラーにも機械学習が使われているから、
機械学習を使ってない仕事を探す方が難しい。
205デフォルトの名無しさん:2011/03/10(木) 19:52:49.00
いや、直接ML実装するのは末端パートナー
SIerは末端パートナーから買い叩いたMLをポンと繋げるだけ
もちろん、SIerのSE様はMLなんて理解できてないから、
使えねえゴミシステムができあがるわけだがw
206デフォルトの名無しさん:2011/03/10(木) 20:23:15.40
実際つくるのは、SIerだと研究所ぐらいだよな
207デフォルトの名無しさん:2011/03/20(日) 22:21:37.03
パターン認識もここでいいの?
208デフォルトの名無しさん:2011/03/21(月) 01:39:02.32
>>16
批判思考、論理思考(広範囲の可能性から根拠に基づき対策を確定)、
人の気持ちを察する。これが出来なきゃコンサルは無理。
データをインフォメーションに変えるのは人間だからな。
209デフォルトの名無しさん:2011/04/01(金) 20:07:40.61
機会学習、データマイニングを勉強して幸せになれるようなことって何?
具体的にどんなことが出来るようになるの
210デフォルトの名無しさん:2011/04/01(金) 20:19:39.67
>>209
論文を書ける
211デフォルトの名無しさん:2011/04/01(金) 21:23:29.19
そんなしょうもないこと聞いてないです。
もう結構です
212デフォルトの名無しさん:2011/04/01(金) 22:13:30.65
>>209
女にモテる
213デフォルトの名無しさん:2011/04/01(金) 22:17:02.11

ジ  ハ ,,ハ
デ (;゚◇゚)z
!?
214デフォルトの名無しさん:2011/04/02(土) 06:03:59.97
ヒルズ勤務になれる
215デフォルトの名無しさん:2011/04/02(土) 06:46:22.60
カネがもらえる
216デフォルトの名無しさん:2011/04/02(土) 11:03:44.70
ここまで自演
217デフォルトの名無しさん:2011/04/02(土) 15:46:18.69
機会学習の勉強の本教えて〜
218デフォルトの名無しさん:2011/04/03(日) 22:54:49.03
マンガでわかる統計学ってどうすか
219デフォルトの名無しさん:2011/04/04(月) 00:37:16.22
意外に良書だけどスレチ
220デフォルトの名無しさん:2011/04/04(月) 09:54:07.28
>>219
統計もあながちスレチではないと思ったんですが関係ないんでしょうか?
221デフォルトの名無しさん:2011/04/04(月) 16:30:37.69
統計は帰納学習だから機械学習といえなくもない
ベイズ統計までくると完全に機械学習と区別できなくなってくる
222デフォルトの名無しさん:2011/04/04(月) 18:24:54.79
つうか線形回帰の時代から機械学習は統計無しに語れんだろ。
223デフォルトの名無しさん:2011/04/04(月) 22:49:09.47
ベイズって今でもAIとかに使われてるの?
エキスパートシステムよりニューラルネットワークスの方が優れている事がわかった時点で
終わってると思ってた
224デフォルトの名無しさん:2011/04/05(火) 00:58:38.84
ネットワークスw

別に優れているわけじゃないでしょ。
得意分野が違うだけで。
225デフォルトの名無しさん:2011/04/05(火) 11:19:38.43
わかりやすいパターン認識って今でも良書
226デフォルトの名無しさん:2011/04/05(火) 18:36:38.21
です
227デフォルトの名無しさん:2011/04/05(火) 20:01:59.13
西日本も福島原発の放射能に曝される。

4/7 予測 http://up3.viploader.net/ippan/src/vlippan198234.jpg
発表はドイツ気象庁 http://www.dwd.de/
228デフォルトの名無しさん:2011/04/05(火) 22:56:27.28
ベイズネットは今も最前線で活躍してる
スパム分類はほとんどベイズネットが入ってる
229デフォルトの名無しさん:2011/04/05(火) 23:34:03.69
ベイズネットは、計算が高尚な割りに、
大した性能がでてないけどね。。
因果関係に自分で縛られて過学習を起こしやすいような希ガス
230デフォルトの名無しさん:2011/04/05(火) 23:41:09.44
このスレ的にラフ集合ってどうなん?
231デフォルトの名無しさん:2011/04/06(水) 04:37:59.39
ベイジアンネットワークとナイーブベイズぐらい区別つけようぜw
232デフォルトの名無しさん:2011/04/08(金) 11:43:56.09
フリーソフトでつくる音声認識システムすら難しいんだがフーリエ級数展開とか出来て当然なの?
233デフォルトの名無しさん:2011/04/08(金) 19:39:22.78
フーリエ級数程度でどうにかなるチョロい時代はとっくに終わった
234デフォルトの名無しさん:2011/04/08(金) 20:27:15.77
最低限大学数学ぐらい出来てもらわないと
235デフォルトの名無しさん:2011/04/08(金) 20:31:04.04
>>232
音声認識であればフーリエ級数は必要だと思うけど。
分野によって必要になる数学は違ってくるよ。
236デフォルトの名無しさん:2011/04/08(金) 22:37:48.90
フーリエ級数というより、周期を拡大したフーリエ変換ね
237デフォルトの名無しさん:2011/04/09(土) 01:59:14.96
フーリエ急須自体は高校数学レベルでも理解可能
238デフォルトの名無しさん:2011/04/09(土) 11:07:22.43
質問者ですがどうもありがとう。
わかりやすいパターン認識も立ち読みしてみたんですがとりあえず数学の勉強が必須みたいなので最低限どんな分野を勉強したら良いでしょうか?
微積と線形あたりは勉強し直そうかと思ってるんですが
239デフォルトの名無しさん:2011/04/09(土) 12:31:32.85
統計学は必須
240デフォルトの名無しさん:2011/04/09(土) 20:33:34.16
AIなら統計学じゃなくて確率論の方だと思う
241デフォルトの名無しさん:2011/04/09(土) 20:39:11.13
三次の非線形モデルだろう
242デフォルトの名無しさん:2011/04/10(日) 01:37:58.06
>>239-241
とりあえずフリーソフトでつくる音声認識システムの分からない所は読み飛ばしながら最後まで読んでみようと思います。
アドバイスありがとうございました。
243デフォルトの名無しさん:2011/04/13(水) 02:12:55.66
数式理解できないんじゃ仕方がない気もするが・・・まぁいいか
244デフォルトの名無しさん:2011/04/13(水) 02:19:50.00
数式だけじゃなくて「ε」などに配慮したアルゴリズムも知る必要があるぞ
だが、そうしたライブラリーも出回っているので、
それなりに勉強すれば、細かいところまで押さえなくても、なんとかなるかも?
245デフォルトの名無しさん:2011/04/13(水) 23:31:51.13
組み合わせ論
ベイズ理論(事前確率と事後確率の式の理解)
行列・ベクトル演算
指数関数・対数関数
英語

この辺が得意な人なら大抵の本は読めると思う
246デフォルトの名無しさん:2011/04/14(木) 05:38:16.49
あとは、
偏微分
テイラー展開
ぐらいなもんだね、楽チンだw
247デフォルトの名無しさん:2011/04/15(金) 12:24:12.12
ずいぶん敷居が高いのな
248デフォルトの名無しさん:2011/04/15(金) 12:53:55.30
集合知プログラミング買ったぜ〜
これから始めてみよう
249デフォルトの名無しさん:2011/04/15(金) 21:00:35.17
高3+程度と言うと、英検で言えば2級か
250デフォルトの名無しさん:2011/04/16(土) 11:11:05.84
ラグランジュ法ぐらいはあらかじめ理解してないとしんどいだろ
251デフォルトの名無しさん:2011/04/16(土) 18:38:58.94
確率統計のいい本ない?
東大出版の統計学入門読み終わったくらいのレベルなんだけど
252デフォルトの名無しさん:2011/04/16(土) 22:45:52.32
>>251
「図解でわかる」レベルの本を読み終えたら、そのまま機械学習の本に入ればいいよ
253デフォルトの名無しさん:2011/04/16(土) 22:59:52.49
「マンガでわかる」じゃダメですか?
254デフォルトの名無しさん:2011/04/17(日) 23:34:57.42
標本となるデータってどっから調達してるの?
255デフォルトの名無しさん:2011/04/17(日) 23:52:10.55
要するに機械学習で用いられるアルゴリズムの数式を理解出来るようになれば良いんだなお前ら。
256デフォルトの名無しさん:2011/04/18(月) 21:07:31.51
>>254
国際大会とか学会が金融や交通の架空のコンテスト用のデータを公開してる

あとはWEBサーバのログとか
257デフォルトの名無しさん:2011/04/18(月) 22:35:53.61
なるほど
いわゆる「お客様の声」とか、評判分析に使えるようなテキスト・データ無いかな?
自動車だと国交省のクレームシステムがあるけど、基本的にネガティブ系に偏ってるし。
件数として100万件オーダーであるとうれしい。2ちゃんのログは勘弁。
258デフォルトの名無しさん:2011/04/18(月) 22:51:02.80
>>257
架空のヤツしかない
実在のヤツが欲しければ、企業に就職するか、企業と共同研究してる大学の研究室に入るしかない
259デフォルトの名無しさん:2011/04/19(火) 19:20:45.54
企業の中の人ですが、
近頃はプライバシー保護がどうので、
なかなか思うように使わせてもらえません。

情報収集時にエンドユーザに見せる文言も
法務がやたらと保守的な文章にするし、
現場がよほど協力的じゃないと難しいっす。
260デフォルトの名無しさん:2011/04/19(火) 23:22:31.83
>>258-259
サンクス。やっぱ難しいみたいだね。自分も口コミ系サイト (kakaku.com等)、オンラインショップの
リコメンド (amazon等)、blog、facebook、twitter、2ch など探してみたけど、ゴミが多くて所望の情報を
選り分けるのが大変という印象。数100件程度ならともかく、それ以上は現実的じゃないと分かりました。

おっしゃるとおり企業に入るか、データを買ってくるしか、大量データをそろえるのは難しい感じですね。
261デフォルトの名無しさん:2011/04/20(水) 09:50:37.18
こんなのあるね
http://xtori.blogspot.com/2011/04/blog-post.html
お客様の声じゃないけど、データマイニングや機械学習はめっちゃ適用できそう
262デフォルトの名無しさん:2011/04/20(水) 23:02:53.27
論文書くときは、実在のデータを探すのが一番難しい
263デフォルトの名無しさん:2011/04/20(水) 23:23:46.00
WebAPIとかないの?
264デフォルトの名無しさん:2011/04/21(木) 19:20:29.88
>>262
そうか?
どうせ比較評価するために学術系公開データを使わざるを得ないから、
特に論文書くためのデータで困ったことはない。
265デフォルトの名無しさん:2011/04/21(木) 22:05:34.20
>>264
企業の中の人だが、実際のデータだと迫力が違ってくると思うよ。もっとも、扱いが制限されるので
結果が外に出ることはないのだけど、どうしても見たいとかならインターンシップとかで中に入ればOK。
266デフォルトの名無しさん:2011/04/21(木) 23:43:52.33
査読や追試されない論文もあるんだよ
267デフォルトの名無しさん:2011/04/21(木) 23:45:42.93
Googleとかインフラとかの社内統計データでの論文発表多いよね。
268デフォルトの名無しさん:2011/04/21(木) 23:47:09.78
データマイニングの基礎ってアルゴリズムの手法を詳しく解説してる見たいだけど
入門向けとしてはどう?
269デフォルトの名無しさん:2011/04/22(金) 04:26:07.85
>>267
まあ、それはググルだから聞いてもらえるわけだがなw
270デフォルトの名無しさん:2011/04/24(日) 21:21:50.60
ベキ分布でリスク管理のすすめ
http://f.blogos.livedoor.com/opinion/article/5513200/
271デフォルトの名無しさん:2011/04/25(月) 02:27:15.48
重み空間だとか重みベクトルは特徴ベクトル+1次元だとかマジ難しい
272デフォルトの名無しさん:2011/04/26(火) 13:27:29.85
データマイニングで効果や利益でるの?
273デフォルトの名無しさん:2011/04/26(火) 17:52:28.64
>>272
マイニング対象、入手可能データ、マイナーの技量、顧客の能力とやる気、そして運による。
274デフォルトの名無しさん:2011/04/26(火) 21:29:12.32
デジコンより在庫の回転率が上がる物販のが効いてくるのか?
275デフォルトの名無しさん:2011/04/30(土) 17:01:08.53
「はじめての機械学習」って本が出たね。
プログラム例がC言語で書かれてるらしいからちょっと興味ある。
276デフォルトの名無しさん:2011/04/30(土) 19:51:37.78
CかよせめてPythonにしてくれ・・・
277デフォルトの名無しさん:2011/04/30(土) 23:22:36.99
アラヤダ、ゴミ本でおなじみの小高知宏じゃない
こんなのポイよポイ
278デフォルトの名無しさん:2011/05/02(月) 11:22:22.60
>>276
実務家用向けの本というより手法指向の本で
書いてる人もこの分野に長けた人じゃないんで
アルゴリズムの勉強書籍として使ったらいいね。
だったら、確かにCの必要性はないんだけど、
Pythonを知っている人が多いかと言うと、
むずかしいね〜
279デフォルトの名無しさん:2011/05/04(水) 02:28:37.07
この分野の数学的知見を得ようと思うんだけどこれなら分かる最適化数学って本って
どうでしょう?
結構ビンゴな内容だと思うんだけど
280デフォルトの名無しさん:2011/05/04(水) 06:29:55.07
古典的な内容だと思う。
一通り知っていた方が良いけど、機械学習とは直接関係ない。
どうしてビンゴな内容だと思ったのか、わけがわからないよ。
281デフォルトの名無しさん:2011/05/04(水) 06:43:26.38
ラグランジュ法ぐらい、初学者になるための前提知識だろ…
282デフォルトの名無しさん:2011/05/04(水) 12:35:22.61
>>279
機械学習から得られた複数の結果から
(その中で)何かを最適化するという時には考えられるけど。
280が行っているように直接関係はない。
もともと最適化できるんなら、機械学習いらないし。
283デフォルトの名無しさん:2011/05/04(水) 14:56:02.13
ん?
MLなアルゴリズムには凸最適化を始めとする最適化問題に帰着できるものが多いのは事実だぞ。
284デフォルトの名無しさん:2011/05/04(水) 15:50:43.08
どっちにしろ局小値問題が出てくる
285デフォルトの名無しさん:2011/05/04(水) 16:00:35.03
カーネル関数なりラグランジュなり主成分分析なりはアルゴリズムを理解する上で必要だろ
286デフォルトの名無しさん:2011/05/04(水) 16:05:10.41
FOILでも局小問題が出てくる
287デフォルトの名無しさん:2011/05/04(水) 21:35:25.93
直接は関係なかったようで・・・
とりあえず一度立ち読みしてから判断しようと思います。
288デフォルトの名無しさん:2011/05/04(水) 22:10:12.63
ラグランジュ法すら知らないレベルなら買っても良いかもね
289デフォルトの名無しさん:2011/05/04(水) 22:45:12.40
>>287
そだね
応用で考えると、なんでも絡んでくるから。
本質を見失っちゃ意味ないし。
290「コンピューター監視法案」が閣議決定:2011/05/06(金) 02:55:07.75
『iPhoneが密かに蓄積する位置情報履歴の目的は? F-Secureが推測 』(下記URL)を参照してください。
http://internet.watch.impress.co.jp/docs/news/20110422_441708.html この内容に関連してです。
『データマイニング、マインドコントロールと電波首輪理論の関連性』(下記URL)
http://infowave.at.webry.info/200711/article_1.html
(以下引用)
『通例の携帯電話でも電源を入れている状態では定時的に基地局と通信を続けていることは明らかです。
この定時通信によって携帯電話所持者や基地局(携帯電話会社)は個人位置情報(非固定位置情報)を
把握する事になります。もちろん、データマイニングを使って個人位置情報のような非固定位置情報から
個人の住所などの固定位置情報を入手する事も可能です。さらに、データマイニングから得られた膨大な
データに基づくアルゴリズムがなかったとしても、非固定位置情報のうちの一つである「定期的に長時間
電波を発信している場所」がわかれば、調査員を使って個人の住所・勤め先などを特定する事は簡単なのです。』
(以上引用)
(ライフ)ログの60日保存によって個人の住所・勤め先等の固定位置情報を特定することは比較的容易です。
スマートフォン(PC)に地域情報などを入手するように設定している場合はなおさらのことです。「監視されるのは嫌
だが監視しないと気がすまない人」たちが個人情報保護に関するガイドライン26条を回避しながら入手しようとする魂胆
(こんたん)なのです。
参考: 『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』(下記URL)
http://infowave.at.webry.info/201001/article_1.html
291デフォルトの名無しさん:2011/05/06(金) 04:30:43.44
>>290
RFタグが流行ってたときからある話題だから今さらって感じ
292デフォルトの名無しさん:2011/05/07(土) 02:25:41.57
パーセプトロンの学習規則を用いた2クラス間での判別は分かったんだけど
3クラス以上になったらどうなるの?
g(x)=g1(x)-g2(x)=WX>0 || WX<0の判定が出来なくないですか?
多分とんちんかんなことを言ってると思いますが(^_^;)
293デフォルトの名無しさん:2011/05/07(土) 09:41:32.12
>>292
出力のセルを3つ(log_2 3以上の整数)にすればいいだけじゃね?
294デフォルトの名無しさん:2011/05/07(土) 18:13:30.94
>>293
まだ修行不足でした。
もうちょっと考えて見ます
295デフォルトの名無しさん:2011/05/07(土) 20:30:14.99
2値分類器を3つ用意するべし。
296デフォルトの名無しさん:2011/05/10(火) 02:00:19.96
フリーソフトでつくる音声認識システムとデータマイニングの基礎だとどっちが難しい?
297デフォルトの名無しさん:2011/05/10(火) 14:48:28.40
おまえがどの程度の基礎知識を持っているかによるんじゃない?
298デフォルトの名無しさん:2011/05/10(火) 19:32:43.28
どっちも対して変わらんけどどちらかといえば前者の方が平易に書かれている。
299デフォルトの名無しさん:2011/05/10(火) 19:41:18.06
なんと、書籍のタイトルだったのか。
300デフォルトの名無しさん:2011/05/10(火) 21:42:29.35
>>298
ありがとうございます。
データマイニングに興味があるのでデータマイニングの基礎買おうと思います
301とうとうばれた「美しくない国」日本・・・安倍元首相の嘘:2011/05/15(日) 11:44:58.59
『量子暗号化技術の進展と電波首輪理論「共謀罪と傍聴法・個人情報保護法の無力化」』
下記URLを参照おねがいします。http://infowave.at.webry.info/200609/article_1.html
量子暗号化技術が実用化されることによって、通信回路に介在して行う技術的な盗聴行為
は理論上不可能であると想定できます。通信回路上の盗聴可能性が皆無であるということは
位置情報を含めた通信情報を盗聴できないということです。一般的に、通信者に探知されず
に盗聴をすることは10年(2006年段階)のうちに不可能になるということが予測されて
いました。今後は「人的漏洩」の危険性が注目されていきます。実際に、警視庁でもテロ情報が
「人的漏洩」されています。下記『テロ情報流出経緯に関する考察』の参照おねがいします。
http://infowave.at.webry.info/201011/article_1.html 漏洩されたと考えられる情報の現状と
調査経緯に関してはコメント欄に記載されています。

302「コンピューター監視法案」内閣決議は菅内閣統合失調症の表れ:2011/05/15(日) 11:46:28.19
「人的情報漏洩」が問題なることは量子暗号化理論が今後実用化される
のがわかってきていたにもかかわらず、小泉元首相とともに「個人情報保護法案」
を可決し、小泉路線と言われた安倍元首相が日本を「美しい国」を主張しながら
「インテリジェンスという横文字を使った諜報能力の向上」を狙った時点で一般
庶民の私にもわかりました。つまり、安部元首相が「美しい国」発言をした時点で、
「人的漏洩」と「監視社会」がどんどん問題化する「美しくない国」になることを
証明することになっていたのです。今後も「人的情報漏洩」と「監視社会」、成文化
した情報保護を無視した「違法・越権調査」、「情報漏洩現象」の再現性がどんどん出
てきます。そのような「人的情報漏えい」を一種の『世間』と考えるならはじめから
「国民の情報を守ったふりの八百長」である個人情報保護法(場合によっては通信の秘密の法律も)
成文化しなければよかったののです。「成文化」するから調査がやりにくくなるのです。
いままで個人情報保護法違反で摘発された会社は「八百長法律」と自分の秘密情報も守らない、
冤罪も行いそうな「いかさま(警察??)調査隊の犠牲」になったといえます。 内閣府のHP
『個人情報保護法に関する疑問と回答』』(下記URL)
http://www.caa.go.jp/seikatsu/kojin/gimon-kaitou.html#1_2
などは完全に内閣府からの国民に対するガセ回答になってしまっていることになります。
また、国会で2回も否決された「コンピューター監視法案」の菅内閣における内閣決議は
内閣が過去の国会における重大事項との整合性を認めずに一方的に「監視法案」決めて
しまう「内閣統合失調症」の表れであると考えられます。

303デフォルトの名無しさん:2011/05/15(日) 19:51:14.64
企業と一般人との情報格差は開く一方だな。
304デフォルトの名無しさん:2011/05/21(土) 16:55:14.87
集合知プログラミングのナイーブベイズでフィルタリング作るやつ
特定の単語が含まれるドキュメント数/全ドキュメント数で確立求めるより
特定の単語数/全単語数のほうが感覚的にも正確にも出るんじゃなかろうか?
305デフォルトの名無しさん:2011/06/06(月) 01:34:48.23
スタッキングって別々の学習アルゴリズムに同じ訓練データを用いて分類器作った後に、それぞれの分類器に訓練データと違うテストデータを与えてその出力結果を属性とするデータをもう一つの分類器で出力するであってますか?
多分日本語でおkって言われそうなんですがググッても出なかったのでお願いします。
306デフォルトの名無しさん:2011/06/06(月) 09:56:14.94
機械学習の勉強のはじめ方
http://diary.overlasting.net/2011-06-01-1.html

機械学習 はじめよう
http://gihyo.jp/dev/serial/01/machine-learning

機械学習の勉強を始めるには
http://blog.broomie.net/index.cgi?id=41
307デフォルトの名無しさん:2011/06/06(月) 11:17:30.72
>>306
http://diary.overlasting.net/2011-06-01-1.html
よりもechizen_tmさん本人の解説を直接読む方が良いと思います。

機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜
http://d.hatena.ne.jp/echizen_tm/20110114/1295030258
これからはじめる人のための機械学習の教科書まとめ
http://d.hatena.ne.jp/echizen_tm/20110209/1297272686
308デフォルトの名無しさん:2011/06/06(月) 22:16:24.22
>>306-307
非常にありがたいです。願わくば、現場で行われているテキストマイニングによる
大量データの活用での場面のような、実践的な話題を紹介してくれるとうれしいです。

自分が読んだ範囲では那須川 哲哉 氏による「テキストマイニングを使う技術/作る技術」
が実践で培われたノウハウに富んでいて役立ちました。
309デフォルトの名無しさん:2011/06/10(金) 21:46:39.09
出会い系サイトで相性の良い相手を推薦するのはクラスタリング?
310デフォルトの名無しさん:2011/06/11(土) 23:39:07.95
回帰分析
311デフォルトの名無しさん:2011/06/12(日) 08:56:19.86
協調フィルタリング
312デフォルトの名無しさん:2011/06/12(日) 09:11:07.72
一様分布ベースの統計推論モデル
313デフォルトの名無しさん:2011/06/12(日) 10:28:10.02
色んな方法があるんだね
314デフォルトの名無しさん:2011/06/12(日) 10:39:19.69
みんな聞いたことある単語並べてるだけだぞ
315デフォルトの名無しさん:2011/06/13(月) 11:33:59.34
!(◎_◎;)
316312:2011/06/13(月) 18:17:39.50
誰もツッコんでくれない…
317デフォルトの名無しさん:2011/06/14(火) 04:40:20.97
この分野で読んでためになるOSSのコードありません?
318デフォルトの名無しさん:2011/06/14(火) 17:00:03.38
協調フィルタリングって最近傍法?
319デフォルトの名無しさん:2011/06/14(火) 17:24:27.96
kkベースのアルゴリズムもあれば、そうでないものもある。
320デフォルトの名無しさん:2011/06/16(木) 18:17:14.47
スタッキングとかカスケードとか解説してるサイトないかな
321デフォルトの名無しさん:2011/06/20(月) 00:03:44.47
サポートベクトルマシンとニューラルネットワークまじ難しい
322デフォルトの名無しさん:2011/06/22(水) 17:22:24.47
その数学が戦略を決めるって本面白いね
323デフォルトの名無しさん:2011/06/22(水) 17:22:57.88
教師は馬鹿って内容の本だったっけ?
324デフォルトの名無しさん:2011/06/22(水) 18:27:29.25
何かの専門家よりも絶対計算が常に勝るって本。
人間の予想は最低の回帰分析にすら劣る、みたいな感じ
325デフォルトの名無しさん:2011/06/22(水) 18:52:27.46
翻訳が山形浩生なので買うの躊躇してる。
326デフォルトの名無しさん:2011/06/22(水) 23:04:19.09
おまえら、どの言語でプログラム書くの?
状態遷移もつし、この分野はhaskellやocamlで書けんよね?
327デフォルトの名無しさん:2011/06/22(水) 23:14:39.23
行列がプリミティブな言語ならなんでもいいよ
328デフォルトの名無しさん:2011/06/22(水) 23:55:27.68
R,matlab,python,c++,java,ocamlあたりで
意見が分かれてくれたら面白そうなんだがなー
329デフォルトの名無しさん:2011/06/23(木) 00:25:53.87
もっと新しい選択肢もあります。

Incanter: Statistical Computing and Graphics Environment for Clojure
http://incanter.org/
ScalaLab: Matlab-like scientific computing in Scala
http://code.google.com/p/scalalab/
330デフォルトの名無しさん:2011/06/23(木) 00:49:40.00
>>329
速度は出るのかな?
この分野、cpuやメモリがまだまだ非力だと実感する場面が多いし。
331デフォルトの名無しさん:2011/06/23(木) 00:54:47.73
F#もなんかあったっけ?
332デフォルトの名無しさん:2011/06/23(木) 01:01:44.29
>>330
http://swik.net/scalalab
>The scripting code is extremely fast, close to Java,
>and about 20-40 times faster from equivalent Matlab .m scripts!

ScalaLab(ScalaSci) は、Javaと同等でMatlab mスクリプトより 20〜40倍速いそうです。
これはScalaがJavaと同等の速さだから当たり前ですね。

Incanterは動的型付言語のClojureで書かれているので
Rには勝てても静的型付言語には太刀打ちできないでしょう。
333デフォルトの名無しさん:2011/06/23(木) 01:58:33.82
この分野はPythonでしょ。
数理計算得意だし分かりやすい
334デフォルトの名無しさん:2011/06/23(木) 02:28:49.47
浮動小数点演算のバグやSTLとテンプレートのエラー、
ポインタ周りのバグ取りに疲れたので、
型推論してくれるocamlを試してみたいといった銀の弾丸を探しをしたい気分
pythonなんて、統計処理専門のRともoctaveともつかない
半端モノのグルー言語で、しかも遅いだろうから使ってみようという意欲がわかない
335デフォルトの名無しさん:2011/06/23(木) 12:29:46.78
「python 使ったことがない」まで読んだ
336デフォルトの名無しさん:2011/06/23(木) 12:37:55.97
銀の弾丸を探してるのもむべなるかな
337デフォルトの名無しさん:2011/06/23(木) 21:38:51.28
>>335
matplotlibやnumpyだったり、あれこれライブラリ入れないとダメで面倒だし
特別に速いわけでもなく行列演算に特化したリテラルがあるわけでもないし、
この領域がpythonの得意な分野だなんて、釣りにしか聞こえない
338デフォルトの名無しさん:2011/06/23(木) 21:42:03.61
おれはc#使うけどね。
339デフォルトの名無しさん:2011/06/23(木) 21:45:28.60
c#に統計処理とか機械学習周りのライブラリなんてあったっけ?
javaなら、まだwekaだとかcoltだとか、
数値計算周りのライブラリが充実してた気がするけど
340デフォルトの名無しさん:2011/06/23(木) 22:28:07.54
糞遅いJavaは論外です。
341デフォルトの名無しさん:2011/06/23(木) 22:29:23.34
R使ってる奴はいないのか〜
342デフォルトの名無しさん:2011/06/23(木) 23:33:20.80
343デフォルトの名無しさん:2011/06/24(金) 01:51:27.78
話が発散してきたぞ
344デフォルトの名無しさん:2011/06/24(金) 03:33:28.60
>>337
外国人研究者のPython好きは異常(俺の周りだけか?)
345デフォルトの名無しさん:2011/06/24(金) 09:20:25.85
ライブラリ入れないと云々なんてこまけーことを言っているようではな

windows なら pythonxyとかあるのにね
346デフォルトの名無しさん:2011/06/24(金) 09:28:05.64
c# + SQLServerが最強だろ。
347デフォルトの名無しさん:2011/06/24(金) 21:22:58.54
SQL Server 2008 - Analysis Services データ マイニング
http://msdn.microsoft.com/ja-jp/sqlserver/cc511476
348デフォルトの名無しさん:2011/06/24(金) 22:12:43.15
戦略的データマイニング
349デフォルトの名無しさん:2011/06/24(金) 22:19:46.93
Micro$oft製のツールはこの種の用途に向かないと思う。
理由はドキュメントが貧弱だし、技術サポート情報も手に入れづらく障害切り分けに難儀する。
基幹系に乗せるのにも苦労する。実験室ならいいかもしれんが。
350デフォルトの名無しさん:2011/06/24(金) 22:31:35.21
困ったらふつうにサポートに丸投げするだろ。
昔、PM8:00にメール投げても、AM2:00に回答メールが返ってきたぞ。
351デフォルトの名無しさん:2011/06/24(金) 22:39:32.32
MSのドキュメントが貧弱ってw
MS以上に技術ドキュメント公開してるところなんてないだろ。
352デフォルトの名無しさん:2011/06/24(金) 23:05:37.61
ソース以上のものはないので、
F#流の文化が浸透するのを待っている。
353デフォルトの名無しさん:2011/06/24(金) 23:24:17.06
MSがソース公開したらMSの製品を使うのは辞めるね。
質問したら犬板みたいにソース嫁って言われるのやだし。
354デフォルトの名無しさん:2011/06/24(金) 23:38:07.19
実際MSDNに書いてあることを質問すりゃ同じように扱われるだろ
355デフォルトの名無しさん:2011/06/24(金) 23:52:53.47
高い金払ってMSDNに書かれてる程度のことを質問する馬鹿はいないだろ。
MSDNに書かれてないことや、書かれてる仕様外の動きをしたときに質問するんだよ。
356デフォルトの名無しさん:2011/06/25(土) 09:09:21.13
MSのソフトウェアで困るのは、たとえば機能仕様が見当たらないとか、文書では説明できない問題
に突き当たって後にも先にも進めなくなる。 MSDN を利用すれば解決するのかな?

自分の経験の範囲でいえば Oracle の技術情報が一番マシだったと思う。興味があれば読んで
見て欲しい。

たとえば、機能仕様はリファレンスマニュアルとして無償で参照できるし、
開発者向けのライセンス制度を使えば製品と同じソフトウェアやマニュアルをダウンロードして、
実機で評価したりアプリケーション開発することもできる。
無償でこれだけできるのは個人ととしては助かる。

有償のサポート契約を前提になるが、技術ノウハウ、未解決のバグ情報、修正ソフト、バージョン
アップ版が参照できる。 インシデントは何件でもサポート契約内に含まれるのは開発者は助かる。

しかしOracleは高いのが難点。保守料金はライセンス料の一定額 (たとえば22%) が毎年かかる。
全てのパッチもバージョンアップもサポート依頼も有償でないと入手できない。 研修もかなり高額。
それでも金さえ払っていればメインストリームから落ちても最低限のサポート (=回避策) が
得られるのは企業としては助かる。

余談だが、Oracle製品については日本語の対応にばらつきがあるので十分に検証した方がいい。
主力のデータベース製品や、買収した会社に由来する製品はいいが、Oracle由来のソフトは
日本語の下ではタコなものもあるし、突然ターミネートしたりとリスキ−。
ドキュメントを日本語訳してくれることは評価するが、翻訳の品質のばらつきは大きい。
357デフォルトの名無しさん:2011/06/25(土) 09:34:45.17
oracleは対応が遅すぎ。バグや詳細書くと訴えられるし。話にならない。
358デフォルトの名無しさん:2011/06/26(日) 11:14:20.91
卒論のための良いアイデア教えてくれ
359デフォルトの名無しさん:2011/06/26(日) 11:27:46.40
>>358
2chのログでなんかやる
360デフォルトの名無しさん:2011/06/26(日) 15:54:38.84
名門大学に入るための独立変数の相関関係を見つけるとかどうよ
361デフォルトの名無しさん:2011/06/26(日) 15:56:50.73
親の収入だな
362デフォルトの名無しさん:2011/06/26(日) 16:02:04.19
何番煎じって感じだな
363デフォルトの名無しさん:2011/06/26(日) 23:03:03.89
>>362
機械学習は結論よりも方法論の方が重要だから、結論が分かってることから始めるべき
364デフォルトの名無しさん:2011/06/26(日) 23:49:42.90
>>358
非線形SVMを10倍速くする
365デフォルトの名無しさん:2011/06/27(月) 01:32:07.07
ロジスティック回帰で有名大学に入れる確率求めるとか楽しそうじゃん
366デフォルトの名無しさん:2011/06/27(月) 02:20:52.38
新しくパターン認識のためのサポートベクトルマシンって本が出てるぞお前ら
367デフォルトの名無しさん:2011/06/27(月) 23:35:43.41
質問です。
サポートベクターマシンは計算に時間がかかるとの話ですが、
確かに最初に訓練データを使って分類モデルを構築する際は、
計算時間がかかると思うのですが、
一度構築した分類モデルを使ってなにかを認識する際はそこまで
時間がかからない気がするのですが、、、
この認識って間違ってますか?
368デフォルトの名無しさん:2011/06/27(月) 23:49:09.29
あってる
369デフォルトの名無しさん:2011/06/28(火) 12:12:50.63
また、質問なのですが、
特徴量選択(SFS, SBS, SFFS)というのと主成分分析は、
どちらも特徴量を減らすことを目的にしているのですが、
2つの違い(メリット、デメリット)を
教えていただけないでしょうか?
370デフォルトの名無しさん:2011/06/29(水) 16:30:13.17
線形前提かどうか
371デフォルトの名無しさん:2011/06/30(木) 06:44:53.77
http://kamome.2ch.net/test/read.cgi/math/1297356696/235
>パターン認識の話になると思うのですが、
>特徴量選択でSFS、SBS、SFFSについてご存知の方いらっしゃらないでしょうか?
>これらのアルゴリズムについて簡単に説明してほしいのですが、、、

公知のアルゴリズムの説明は、検索した方が早いです。
「SFS、SBS、SFFS」でググるとこんなページが見つかりました。

『多クラスサポートベクターマシンにおける各SVMモジュールの独立特徴選択』
http://asnugroho.net/papers/nctrdec2005.pdf
「3.特徴選択」でSFSとSBSのアルゴリズムを簡単に説明、
SFFSとSFBSより計算量が少ないSBSを選択

『時間構造分割特徴量に基づく感情発声の自動分類』
http://www.slp.k.hosei.ac.jp/~itou/doc/2010/09t0012_2.pdf
「3 多クラスSVMによる分類器の構築」でSFFSのアルゴリズムを簡単に説明、
SFSとSBSより性能が優れているSFFSを選択

Feature Selection using Matlab
http://www.mathworks.de/matlabcentral/fileexchange/22970-feature-selection-using-matlab
>Code covered by the BSD License
>The DEMO includes 5 feature selection algorithms:
>  Sequential Forward Selection (SFS)
>  Sequential Floating Forward Selection (SFFS)
>  Sequential Backward Selection (SBS)
>  Sequential Floating Backward Selection (SFBS)
>  ReliefF
ForwSel_main.mがSFSとSFFSのコード、
BackSel_main.mがSBSとSFBSのコードです。
372デフォルトの名無しさん:2011/06/30(木) 22:49:58.74
下記の本が全部じゃないけどプレビューできる。7560円もする本だから事前に見られるのはいいね。

テキストマイニングハンドブック
著者: ローネンフェルドマン,ジェイムズサンガー
ttp://books.google.co.jp/books?id=niuu3xMClMYC&dq=%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0+%E3%83%97%E3%83%AC%E3%82%BC%E3%83%B3&source=gbs_navlinks_s
373デフォルトの名無しさん:2011/07/02(土) 01:23:28.59
色々やってみてどうしても分からないので質問させてください。
Wekaのニューラルネットワークって、複数の入力に対して複数のアウトプットを
設定することってできないんですか。
374天使 ◆uL5esZLBSE :2011/07/02(土) 11:48:30.59
>>368
気持ち悪い
375デフォルトの名無しさん:2011/07/02(土) 13:40:50.30
ニューラルネットワークの良書教えてください
376デフォルトの名無しさん:2011/07/02(土) 13:43:43.70
やだ
377大天使 ◆uL5esZLBSE :2011/07/05(火) 12:57:25.29
ゴミなんかに話しかけないほうがいいいよ

どうせ>>376 こういうゴミしかいないんだからさ
378デフォルトの名無しさん:2011/07/11(月) 12:42:13.24
実際のデータ集めるときにhtmlをパースしてデータセット作ってる人っている?
データセットいちいち手入力じゃ死んじゃうしかといって仮想データで予測しても仕方なくて困ってるんだよね、、
379デフォルトの名無しさん:2011/07/12(火) 10:42:05.14
ここム板なんだけど?
380デフォルトの名無しさん:2011/07/12(火) 12:11:45.20
コーヒーを?
381デフォルトの名無しさん:2011/07/12(火) 12:52:23.65
>>379
午後ティー買ってこい
382デフォルトの名無しさん:2011/07/12(火) 12:57:27.00
>>378
Webからデータを集める方法を知りたいのなら、
「スクレイピング」でググってください。
383デフォルトの名無しさん:2011/07/13(水) 04:02:29.33
ここム板なんだけど?
384デフォルトの名無しさん:2011/07/13(水) 06:12:07.34
そうなので?
385デフォルトの名無しさん:2011/07/13(水) 07:02:30.35
Webからデータ取得してDBに突っ込むプログラムを書くだけ。
こんな単純で定型的で基本的なプログラムは1日もかからないだろうに。
386デフォルトの名無しさん:2011/07/14(木) 20:40:17.51
>>385
実装はpythonとポスグレで1時間かからんだろ。
あとはどれだけ偏りなくクローリングさせるかが勝負。
387デフォルトの名無しさん:2011/07/17(日) 03:44:39.45
裁判所の判決データから罪状と判決、犯人の性別やら事件への反省、無罪の主張とかで判決予測したいんだけどやっぱりそんなに詳しくまとまったデータがないから困った。
みんな真似しないでね
388デフォルトの名無しさん:2011/07/17(日) 06:32:43.99
まとまったデータがほしいって、まとめるのがお前の仕事だろ。
389デフォルトの名無しさん:2011/07/21(木) 00:50:53.77
機械学習(特にNNやSVM)を社会現象の解析に用いようと考えているのですが、
複雑な交互作用を持つ現象をどう要素毎に分解して、更に説明変数に加工するか、
ということで途方に暮れています。

紀伊国屋みたいな大きな本屋へ行っても、機械学習絡みの本は原理を解説するか、
エンドユーザー向けにSPSSやRの操作を解説するような本ばかりで、実際に説明変数を
どう作るか、どう複雑な現象を解析するか、といった実践向けの本が見つかりません。

洋書でも良いので、良い本があればどなた様か教えていただけないでしょうか。
390デフォルトの名無しさん:2011/07/21(木) 04:47:33.16
>>389
Rで学ぶデータサイエンス
http://www.kyoritsu-pub.co.jp/series/arudemanabu.html
データ解析に関してはこのシリーズが詳しいです。

ところで「特にNNやSVM」というのが腑に落ちません。
機械学習を大別すると識別関数、識別モデル、生成モデルの3種類です。
説明変数への加工とはすなわち生成モデルの推定です。
NNやSVMなどの識別関数の学習結果を見ても説明変数はわかりません。
そこはナイーブベイズなどの生成モデルを用いるべきではないでしょうか。
上記シリーズなら「3.ベイズ統計データ解析」です。
391デフォルトの名無しさん:2011/07/21(木) 09:20:28.10
>>390
早速のご回答、感謝いたします。
特に分析手法までありがとうございます。
ご紹介いただいた本を調べてみますね。
丁寧な回答、重ねて感謝申し上げます。
392デフォルトの名無しさん:2011/07/21(木) 11:02:48.43
6.マシンラーニングと5.のパターン認識の
違いってどうなの?
393デフォルトの名無しさん:2011/07/31(日) 20:51:05.17
この分野の統計的手法なら多変量解析の勉強始めたら良い?
回帰分析なり判別分析なり
394デフォルトの名無しさん:2011/08/01(月) 11:44:09.42
すべて必須です。
395デフォルトの名無しさん:2011/08/02(火) 11:12:46.59
全てを統計解析を理解して、その中から最適な手法を選択する必要があります
目的や取得可能なサンプルデータ数、計算速度等いろいろな条件があるしな

適当な論文書くだけなら、一番新しそうな手法選んでちょっと変わったことやるだけで良いけども
396デフォルトの名無しさん:2011/08/02(火) 21:19:54.39
>>394-395
Thx!
ちゃんと勉強します
397デフォルトの名無しさん:2011/08/02(火) 23:08:49.32
この分野でももっとも尊敬される研究の一つは
データセットを整備することがある。
2ちゃんでも、AmazonやRakutenでの評判でもいいが
研究の素材として使えるだけの素性ををもっていればその
努力を買うよ。
398デフォルトの名無しさん:2011/08/05(金) 20:18:07.13
SVMの詳しい方法なんて知らなくても適用事例が分かれば良いよね・・・自分で実装するわけじゃないしさ
399デフォルトの名無しさん:2011/08/07(日) 07:50:24.28
カーネル選択とか前処理ぐらい出来んと話にならんな。
400デフォルトの名無しさん:2011/08/08(月) 02:44:27.28
今この分野の勉強をして途方にくれているのですが効率の良い勉強方法は無いですかね。。。
今はとりあえず勉強した手法をPythonでプログラミング化してみたりとしているのですがwekaなどのソフトがあり無駄なことをしている気がします。
学んだ手法を用いてサンプルデータを解析してみたり、ブログの分類などの応用事例に手を付けたほうが良いんでしょうか?
401デフォルトの名無しさん:2011/08/09(火) 00:49:42.45
自分と似たような研究論文を読んで、それを足がかりに掘り進めるのがいいんでない?
402デフォルトの名無しさん:2011/08/09(火) 09:40:34.79
初学者と実際に研究にコミットしている人間じゃ大違いじゃないか?
初学者が引用もされないレベルの研究論文を見つけてそれを参考にしたら
とんでもない遠回りをすることになる。
403デフォルトの名無しさん:2011/08/09(火) 18:13:56.97
>>400
アルゴリズム自体の研究をしたいのか、応用の研究をしたいのか、でしょ。
アルゴリズム自体の研究するなら自分で実装して一杯データ喰わせて体感したほうがいいし、
応用の研究したいなら筋がいいライブラリ使ったらいいんじゃね?

いずれにせよ、色んなデータ喰わせた経験積んでナンボの世界だわな。
404デフォルトの名無しさん:2011/08/09(火) 20:18:00.02
>>400
難のために勉強してるのか文面を読んでも分からないよ。まず自分の活動する目的を
ハッキリさせた方がいいと思う。
先生のもとについてるなら基礎研究なのか応用なのか相談しては?
405デフォルトの名無しさん:2011/08/09(火) 20:47:31.98
>>401-402
早速論文を漁ってみたのですが協調フィルタリングを使った観光地推薦などとても興味深くて自分のやりたいことが分かったような気がします。
なかなか難解な論文が多くて大変で学生の卒論レベルのものがちょっと見てみたかったり。。。

>>403-404
やりたいことは応用事例なので何らかの手法を用いた応用事例を考えて実装できるように頑張ります。
それで手法の勉強が必要だったら手法の勉強をする。
自分の中で目的が明確になってなかったのが問題だったと思いました。

皆さんありがとうございました!
406デフォルトの名無しさん:2011/08/09(火) 22:19:37.13
>>405
場合によるけど、学会に出ると、卒論レベルの発表に遭遇することがあるよ。
ポスターの説明員などをつかまえて、研究手法などを聞き込んだりすると良いかも。
407デフォルトの名無しさん:2011/08/10(水) 21:03:59.14
>>405
> やりたいことは応用事例なので何らかの手法を用いた応用事例を考えて実装できるように頑張ります。

ありがちな間違いだけど、
使いたい技術のために応用事例を考えるんじゃなくて、
現状困難な問題を解決するためにその技術がどう役に立つかを考えるんだ。
そうすると先行研究がわかり、君の研究の貢献を位置付けることができる。
408デフォルトの名無しさん:2011/08/11(木) 01:38:47.72
>>407
君、彼に何がいいたのかよくわかんないよ。
彼は、問題の解決のために、手法を模索してるんでしょ?
409デフォルトの名無しさん:2011/08/11(木) 05:40:04.48
>>408
>>406「応用事例を考えて」
410デフォルトの名無しさん:2011/08/11(木) 21:36:23.91
>>408
自分は >>405 氏はまだ、問題がまだ見えていないと思う。
411デフォルトの名無しさん:2011/08/12(金) 02:20:35.96
>>405ですがご指摘頂いたように勉強した手法から応用事例を考えるのではなくて問題解決のために手法を勉強することが大切で手段と目的が混同してしまっていますね。。
やりたい目的の為に手段を勉強していることを忘れないようにしたいです。
後一度学会に出てこの分野の研究者の話を聴いてみたいなと思いました。

重ね重ねになりますが皆さんありがとうございました!
412デフォルトの名無しさん:2011/08/12(金) 14:58:56.04
画像イメージファイルのカラーヒストグラムを作成して数値テキストデータに落として、クラスタリングかけたら類似画像検索システムができたよ。
413デフォルトの名無しさん:2011/08/12(金) 20:02:51.54
はあ。そうですか。
414デフォルトの名無しさん:2011/08/12(金) 20:14:49.97
>>410
そうみたいだったね。スマン
415デフォルトの名無しさん:2011/08/13(土) 21:03:56.83
>>412
良いアプローチ方法thx!
416デフォルトの名無しさん:2011/08/14(日) 01:16:05.28
本気なんだか。冷やかしなんだか。
417デフォルトの名無しさん:2011/08/15(月) 10:41:11.04
おまいらICMLの論文とか読めるん?
全くをもってイミフなんだが。
まだまだ勉強が足りんか・・・
418デフォルトの名無しさん:2011/08/16(火) 07:29:01.16
意味不明な研究も多いからなぁ
419デフォルトの名無しさん:2011/08/18(木) 01:28:40.03
アメリカ出張か、いいなーー。
報告は大変そうだけどw
420「位置ゲー」による個人情報の流出に気をつけよう:2011/08/19(金) 03:25:56.84
『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と
個人情報漏洩の流出について』(下記URL)の参照お願いします。
http://infowave.at.webry.info/201108/article_1.html

421デフォルトの名無しさん:2011/08/19(金) 11:19:39.75
おれも統計とか機械学習とかやろうかなって思って色々いじってみてわかったんだけど、
R、python, matlab, mathmatica ← こいつらプログラミング言語としてはゴミレベルww
なんとかしろよ。
422デフォルトの名無しさん:2011/08/19(金) 11:24:15.43
じゃMahoutかBoostでも使えばいいだろカス
423デフォルトの名無しさん:2011/08/19(金) 11:26:16.67
Boost=なまごみれべるwww
424デフォルトの名無しさん:2011/08/19(金) 11:35:40.03
じゃ、自分で書けば? がんばってねー(棒読み
425デフォルトの名無しさん:2011/08/19(金) 13:11:12.37
>>421が高速統計ライブラリを作ってくれるそうです
426片山博文MZ:2011/08/19(金) 14:24:07.53
NHKのサイエンスZEROで人工知能ワトソンの特集をやってたよぉ
427デフォルトの名無しさん:2011/08/19(金) 17:57:56.25
421じゃないが、確かに現状の統計処理とか科学計算系のプログラミング用の言語とかライブラリって
なんかセンスがないな。言語やライブラリとしては素人くさい。使ってて恥ずかしくなるレベル。
428デフォルトの名無しさん:2011/08/19(金) 18:02:59.62
馬鹿のドヤ発言か。
429デフォルトの名無しさん:2011/08/19(金) 18:03:13.42
使ってて恥ずかしくない言語は何?
430デフォルトの名無しさん:2011/08/19(金) 18:21:32.45
恥ずかしい発言>>428w
431デフォルトの名無しさん:2011/08/19(金) 18:23:38.02
そうだな。
使ってて恥ずかしい言語ってJavaとかだな。
あんな糞遅い言語を数値計算で使うとかあり得ないよ。
432デフォルトの名無しさん:2011/08/19(金) 18:27:03.93
恥ずかしくない言語
433デフォルトの名無しさん:2011/08/19(金) 18:27:11.49
科学技術計算ならfortranでいいんじゃね
434デフォルトの名無しさん:2011/08/19(金) 18:33:47.41
今時、演算子オーバーロードができない言語なんて読みにくい。
行列すら a = b +c って書けないんだろ?
435デフォルトの名無しさん:2011/08/19(金) 20:15:24.22
C++使ってろよ
436デフォルトの名無しさん:2011/08/19(金) 20:19:17.75
rubyじゃだめか。
437デフォルトの名無しさん:2011/08/19(金) 20:59:36.71
>>421
何と比べてどんな所がゴミと思ったのか具体的に書いてください。
実行速度?オブジェクト指向でないから?関数型でないから?
何が不満なのか書かないと他人には意味不明です。

>>431
数値計算の話だから、起動時間やGUIライブラリは関係ないですよね。
Javaはプログラミング言語を実行速度別に分類すると
トップグループに入るのですが、何と比べて糞遅いのですか?
438デフォルトの名無しさん:2011/08/19(金) 21:33:33.11
たまに伸びてると思ったら
439デフォルトの名無しさん:2011/08/19(金) 22:19:58.62
>Javaはプログラミング言語を実行速度別に分類すると
>トップグループに入るのですが、何と比べて糞遅いのですか?

ここ笑うところ?
440デフォルトの名無しさん:2011/08/19(金) 22:20:42.83
バカが必死で上げてるな
441デフォルトの名無しさん:2011/08/19(金) 22:34:01.05
うんこ
442デフォルトの名無しさん:2011/08/19(金) 22:43:56.02
Javaより遅い言語を探すほうが難しい。
443デフォルトの名無しさん:2011/08/19(金) 23:02:30.79
444デフォルトの名無しさん:2011/08/19(金) 23:02:41.46
>>442
スクリプト系は全部Javaより遅いんだが。
445デフォルトの名無しさん:2011/08/19(金) 23:34:29.26
IBMが人間の脳を模倣して知覚や認知を行う、
新世代のコンピュータチップを開発したことを発表しました。

高度なアルゴリズムとシリコン回路を使用して、
人間のように経験から学習し、相関関係を発見し、
仮設を立て、成果を記憶する「認知コンピュータ」をIBMは構想しているとのこと。今回の発表では、すでにそのプロトタイプのチップ2つが作成され、現在テストを受けていることが明らかにされています。
446デフォルトの名無しさん:2011/08/20(土) 01:58:40.55
そのゴミじゃない言語でライブラリを自作できない>>421
447デフォルトの名無しさん:2011/08/20(土) 05:54:46.96
>>444
ギャグで言ってるんですか?
448デフォルトの名無しさん:2011/08/20(土) 10:50:13.91
>>431=>>439=>>447ですよね?
レスがひとりよがりすぎて頭の悪い煽りにしか見えません。
どう間違っていると思うのか具体的に書いてください。
もしかしてJavaの起動時間より短い時間で実行できるような
数値計算しか考えていないのですか?
449デフォルトの名無しさん:2011/08/20(土) 11:04:34.56
バカを相手にしてるとバカになるぞ
450デフォルトの名無しさん:2011/08/20(土) 14:38:31.76
まあ、言語としてのレベルなら

R,Python,Matlab,Mathmatica, こいつ等が言語としてゴミレベルじゃないと思ってないやつなんていないだろ。
素人がドヤが押して発言してるのが目に浮かぶww ま、わらわせんなwwってとこだねww
451デフォルトの名無しさん:2011/08/20(土) 15:46:05.11
Java信者が馬鹿すぎて笑える。

遅すぎてあらゆる分野で使い物にならず、
サーバーサイドでしか使われてない現実を未だに受け入れられないとかw
452デフォルトの名無しさん:2011/08/20(土) 15:54:07.44
夏だなぁ
453デフォルトの名無しさん:2011/08/20(土) 16:13:16.81
しかたないよ。統計とかやってるひとに言語的なセンスを求めるのがそもそもあやまり。
454デフォルトの名無しさん:2011/08/20(土) 16:35:30.97
こまっちゃんのソース読んでから言えよw
455デフォルトの名無しさん:2011/08/20(土) 16:45:23.20
だれだよそいつ、頭悪そうなきもいやつだなww、こまっちゃんw^1000 わらわせんなw
456デフォルトの名無しさん:2011/08/20(土) 16:54:48.06
統計とか微分方程式とかその辺は(少なくともその初歩は)大学の理系なら誰でもやるからな…
一方、言語理論とかは一部の専門のやつ以外はまったくやらない
この非対称性がこういう問題を生じさせるのかもしれませんね。
457デフォルトの名無しさん:2011/08/20(土) 16:55:49.93
なんだ、モグリか。
精々、大学生活最後の夏休みを満喫してなw
458デフォルトの名無しさん:2011/08/20(土) 16:57:34.95
この分野で言語理論系でこまっちゃんといえば、あの人でしょ?
459デフォルトの名無しさん:2011/08/20(土) 16:59:19.51
言語理論って何? しらない? 統計やってきた人はそんなもんしらないでしょ。
460デフォルトの名無しさん:2011/08/20(土) 17:03:28.10
>>459
は?ノンパラベイズの応用研究の結構な割合が自然言語系だろw
さっさとゼミの予習でもしてろ
461デフォルトの名無しさん:2011/08/20(土) 17:06:13.25
>>456-460 まじでおまえら頭悪すぎwwww

言語理論と自然言語処理は違いますwwww 
まじでもぐりだわこいつらwww
462456:2011/08/20(土) 17:08:59.85
>>461 はぁ、だれも自然言語処理とか言ってないだろ。言語理論って形式文法とかのことだろ、馬鹿はお前。
463デフォルトの名無しさん:2011/08/20(土) 17:12:35.43
>>461
まじで学部レベルかよ…
464デフォルトの名無しさん:2011/08/20(土) 17:14:51.41
統計的統語論ぐらい理解した上で言ってるのか?
465デフォルトの名無しさん:2011/08/20(土) 17:16:51.27
はぁ形式文法なんて言語理論の前提だろ。さらに自然言語処理みたいな雑魚が出てくる場所じゃないんだよwww

統計処理系言語のごみっぷりを非難されて、この発狂振りww
わらわせんなwww
466デフォルトの名無しさん:2011/08/20(土) 17:24:27.88
>>465
で、統計的統語論は勉強した?
まだだったら、いまのうちに統計の復習してなw
467デフォルトの名無しさん:2011/08/20(土) 17:27:28.65
統計なんてうえでどっかのばかもいってたように誰でも学んでるwww
あとは形式的な統語論さえわかってれば誰でも理解できるだろ。
こんなところにわざわざドヤ顔してだしてきてんじゃねーよw

そもそも、自分らが使ってる統計処理言語のくそっぷりにどんだけむじかくなんだwww
俺は使い始めてからイラ付いてイラ付いてしょうがないねwww

こんなごみをつくってるやつは、まず、ゲーテルの完全性定理くらい理解してからにしてほしいねwww

わらわせんなwwwww
468デフォルトの名無しさん:2011/08/20(土) 17:34:01.55
ああ、やっぱり統計的統語論すら知らないレベルか。
高校生か学部生か知らんが、時間を大切になw
469デフォルトの名無しさん:2011/08/20(土) 17:37:15.49
ああー統語論もしらない院生(笑)かwwww

統計処理言語のゴミップリを指摘されて発狂して、統計的統語論なんていう恥ずかしい用語を持ち出して得意げになってる暇があれば
自分の勘違いをただしたほうがいいよwwww

まじでわらわれてるだけだからさwwww
470デフォルトの名無しさん:2011/08/20(土) 17:40:47.67
そろそろ晒しとこ
471デフォルトの名無しさん:2011/08/20(土) 18:40:06.06
痛々しすぎる
472デフォルトの名無しさん:2011/08/20(土) 19:27:24.76
統計云々機械学習云々いったところでプログラミングは素人だから仕方が無い
473デフォルトの名無しさん:2011/08/20(土) 19:34:18.22
いまんとこ晒されてるのがR,Python,Matlab,Mathmatica,そしてJavaか
でも、代りにどんな言語が良いか質問しても答え返ってこないよね
まあ、煽るのだけが目的の最底辺の低能だから
答えなんて持ってないだろうけどね
474デフォルトの名無しさん:2011/08/20(土) 19:38:30.85
もう良いだろこの話題
475デフォルトの名無しさん:2011/08/20(土) 19:46:03.32
R,Matlab,Mathmatica と python, java じゃちょっと区分が違うだろ?
ま、javaやpythonの数値解析系のライブラリはだめだめだとおもうけどね。
476デフォルトの名無しさん:2011/08/20(土) 19:47:27.64
Mathematicaだっての。。
同じ奴が自演してんのか?
477デフォルトの名無しさん:2011/08/20(土) 19:48:46.92
うえのをこぴったMath"e"maticaだね
478デフォルトの名無しさん:2011/08/20(土) 21:00:52.19
てか、草を生やす時点でまともじゃない
479デフォルトの名無しさん:2011/08/21(日) 02:59:52.16
具体例がなきゃただの水掛け論に終わるんだが。。
ここにいるのは、大学教養を過ぎた連中が多いと思うんだが、
もう少し精神年齢の高い書き込みしようぜ。
中身のあることについてだけ話して、あとはスルーでいいよ。
480デフォルトの名無しさん:2011/08/21(日) 03:04:04.28
ゆとりのガキかよ。
ここの住人は8ビット時代から機械語でバリバリコード書いてた奴ばかりだよ。
481デフォルトの名無しさん:2011/08/21(日) 08:03:11.66
いや、バカはフルボッコにしておいたほうがいいな。
482デフォルトの名無しさん:2011/08/21(日) 08:30:58.42
知能==スタイルシート
と仮定すればExcelが良い
483デフォルトの名無しさん:2011/08/21(日) 08:34:47.26
つか機械学習の話題でマセマテカは普通入れないよな。
やったことないのがバレバレ
484デフォルトの名無しさん:2011/08/21(日) 08:44:24.90
代数的な素質が無い馬鹿↑ 普通に使うよwww
485デフォルトの名無しさん:2011/08/21(日) 08:56:58.35
>>484
使うかどうかじゃなくて、典型的な言語として話題に挙げないよ普通は
486デフォルトの名無しさん:2011/08/21(日) 13:25:50.74
>>484
具体的にどんな学習アルゴリズムを実装したか言ってみろw
487デフォルトの名無しさん:2011/08/21(日) 20:12:18.16
なんで数式処理なんて回り道するんだ?
数式をしらない幼児が学習できないとでも思ってるのか
ああそうか、君がそうだったんだね

これは失礼
488デフォルトの名無しさん:2011/08/21(日) 20:14:24.99
自己紹介乙
489デフォルトの名無しさん:2011/08/21(日) 20:16:33.78
反論できない人間の典型的な反応だな
490デフォルトの名無しさん:2011/08/21(日) 21:08:18.22
どっちもな
491デフォルトの名無しさん:2011/08/21(日) 23:27:13.32
議論がなんかかみ合ってない気がする(ま、まともな議論じゃないけど)
私は言語設計やライブラリ設計のどこがいけてないのか素直に気になります。
もちろん統計解析とかやってる人は言語のプロではないので、だめな部分はあると思う、
そこがどこかが気になる。
492デフォルトの名無しさん:2011/08/21(日) 23:35:57.28
携帯用のCコンパイラ位なら普通に作ってるよ
493デフォルトの名無しさん:2011/08/21(日) 23:38:09.87
もちろんアセンブラを先に作るけどな
494デフォルトの名無しさん:2011/08/21(日) 23:40:26.78
中間言語をS式にするかRPN形式にするか、その他にするかは
ハードウェアの仕様で決めるけどな
495デフォルトの名無しさん:2011/08/21(日) 23:44:39.41
いや何、電力事情がどうか知らんが
コンパイルを電力食いのパソでするより携帯でやってしまうほうがイィ!
っていう要望があってなwww
496デフォルトの名無しさん:2011/08/21(日) 23:47:56.09
ごめん、もう10年も前に通った道なんだ・・・
497デフォルトの名無しさん:2011/08/22(月) 00:25:59.03
あれ〜俺の作ったCコンパイラ実行文の途中での変数宣言を受け付けてしまったぞw
まあスタックポインタずらすだけだし関係ないやw
498デフォルトの名無しさん:2011/08/22(月) 00:26:31.92
あまり恥ずかしいレスするなよ。
499デフォルトの名無しさん:2011/08/22(月) 00:33:03.68
名無しで恥ずかしいもクソもないだろ
500デフォルトの名無しさん:2011/08/22(月) 01:07:25.93
恥ずかしい言語使いながら、あまり得意げになるなよwwwwww
501デフォルトの名無しさん:2011/08/22(月) 01:15:46.80
言語は道具
自転車に乗ろうと自動車に乗ろうが、乗る人間が変わるものじゃない
そんなことで得意になったり恥ずかしがる理由があるものかね?

言語に振り回される程度のレベルか・・・
502デフォルトの名無しさん:2011/08/22(月) 01:19:07.45
大体、使っている言語が気に食わないのなら
自分で新しい言語を作ればすむ話だろ
503デフォルトの名無しさん:2011/08/22(月) 01:22:00.93
道具とか言い出したら、もうなんでも道具だよwwwwww
機械学習も道具、統計処理も道具、何でもかんでも道具wwww
でもその道具の良し悪しで、結局のところいろんなことが決まってくるんだよwwww
504デフォルトの名無しさん:2011/08/22(月) 01:22:23.66
いわゆる「俺言語コンパイラ」を作ったこともあるが
公開したところでオナニーにしかならないのでね・・・
505デフォルトの名無しさん:2011/08/22(月) 01:23:30.37
そんなひまねーからいってんだろwwwwわらわせんなwww
お前等みたいなニートとはちげーーーんだよwwww
まじでまともなのないの、使ってていらついてんだけどwwwwwww
506デフォルトの名無しさん:2011/08/22(月) 01:23:46.57
>>503
だから作れよ、道具を
507デフォルトの名無しさん:2011/08/22(月) 01:28:02.43
>>505
ここに書き込む時間を削れば多分作れると思うよ
508デフォルトの名無しさん:2011/08/22(月) 01:37:51.02
なぜ突然キレてファビョったのか・・・謎だ・・・
509デフォルトの名無しさん:2011/08/22(月) 01:39:59.73
自分もコキ使われるだけの道具だと気づいたのさ。
510デフォルトの名無しさん:2011/08/22(月) 01:43:08.05
>>421以降でたくさん草を生やしているレスは全部同一人物ですか?
R,Python,Matlab,Mathematicaがゴミだと思う理由を書いてください。
あなたが判断基準を一切書かない以上、
誰もあなたの基準でまともな物を紹介できません。
511デフォルトの名無しさん:2011/08/22(月) 01:45:48.33
ゴミじゃなくて道具
512デフォルトの名無しさん:2011/08/22(月) 01:46:54.32
無いものをいくらねだっても決して出ないよ。

それより、誰かPL/SQLでRPN系の言語系のパーサーを作ってくれ。
FORTHでもいい。
Oracle上にあるテキストデータの解析やマイニングの手続きを記述する。
513デフォルトの名無しさん:2011/08/22(月) 01:51:31.03
きれてないですよwwwwwwwwwwwwww
ってかふりーんだよwwwwふりそのものがさwwwww 

R使ってていらつかないのか???????????
Weka使ってていらつかないのか??????????
python,SciPy使ってていらつかないのか??????
Maxima使ってていらつかないのか?????????


どんだけ、どMなんだよwwwwwwwwwwwww
514デフォルトの名無しさん:2011/08/22(月) 02:01:53.81
>>513
返答ありがとうございます。やっと状況がつかめました。
つまりR,Python,Matlab,Mathematicaに固有の欠陥があるのではなく、
どのプログラミング言語もうまく使えなくていらついていただけなのですね。
515デフォルトの名無しさん:2011/08/22(月) 02:03:18.67
うまく道具をつかいこなせていないと
516デフォルトの名無しさん:2011/08/22(月) 02:09:20.57
はぁwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
あふぉかwwwwwwwwwwwwwwwwwwwwwwwwwwwww
てめぇwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
自分のどMっぷりを棚に上げてとんだ言い草だなwwwwwwwwwww

ワラワサセサンナwwwwwwwwwwwwwwwwwwwwwwwwwwww
517デフォルトの名無しさん:2011/08/22(月) 02:17:46.47
残念だけど君には向いていないと思うよ、心も体も壊す前に休んだほうがいいと思うな?
月曜の朝は近い


締め切りが・・・
518デフォルトの名無しさん:2011/08/22(月) 02:26:37.95
取りあえずRねwwwwwwwwwww
こいつは、行列の各要素に対しての操作が終わってる。まじ面倒。
というか、もうデータフレームというオブジェクトの設計がそもそもめちゃくちゃwwww
関数を適用すること以上のちょっと複雑なことを使用とするともう最悪wwwwwww
まじアセンブラレベルwwwwwww お前等いつの時代に生きてんだよwwわらわせんなwwってかんじww

519デフォルトの名無しさん:2011/08/22(月) 03:23:56.08
いい加減草生やすなよ痛いぞ
520デフォルトの名無しさん:2011/08/22(月) 03:39:34.87
よくわからんが、追い詰められて余裕がないんだろ
こんなときには人間の本性が表にでてくるんだろうな
自滅は時間の問題だが、餞別がわりにしばらく付き合ってやれよ。
521デフォルトの名無しさん:2011/08/22(月) 04:10:32.54
wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
これくらいで追い詰められてると思うお前の精神状態の方が心配だよwww
522デフォルトの名無しさん:2011/08/22(月) 06:04:13.78
キチガイうざ!
523デフォルトの名無しさん:2011/08/22(月) 06:45:42.56
うぜwwwwwwwwwwwwのはてめwwwwwwwwwwwww
524デフォルトの名無しさん:2011/08/22(月) 11:13:30.53
ゲーデルの完全性定理を「ゲーテルの完全性定理と言ったり
道具を満足に満足に使いこなせないことを道具のせいにしたり

これほど自分の無知と無能をドヤ顔して晒すヤツを、自分はuy以外には知らないな
525デフォルトの名無しさん:2011/08/22(月) 11:22:03.33
結論:高卒のuyには無理
526デフォルトの名無しさん:2011/08/22(月) 11:31:05.59
Σの使い方を教えてくだしあ;;
527デフォルトの名無しさん:2011/08/22(月) 21:33:28.48
>>524 よくいるんだよ、そういうどうでもいいとこ指摘してで鬼の兜とったような気になってる地頭空っぽの院生がさwwwww
どうしょうもねーよwwwwwwwwwwwwwww
528デフォルトの名無しさん:2011/08/22(月) 22:11:37.17
2chで誤植を指摘するって2ch素人だけだろ。
529デフォルトの名無しさん:2011/08/22(月) 23:57:16.54
当の言語の話をしてんのに間違えるってのは、口からでまかせ吹いてるからだよ。

つーか、ゴミクズはさっさとうせろよ。
530デフォルトの名無しさん:2011/08/23(火) 00:53:17.24
wを連射する奴に○○外が多いって法則は、
あながち外れてないな。
531デフォルトの名無しさん:2011/08/23(火) 01:16:05.91
uyっていろんなことに手を出すけど初心者レベルどまりの奴だろ
例えばOSとか
http://hibari.2ch.net/test/read.cgi/prog/1185848195/l50
532デフォルトの名無しさん:2011/08/23(火) 06:14:22.35
uyって何ですか?
533デフォルトの名無しさん:2011/08/23(火) 09:45:21.94
クソコテ
534デフォルトの名無しさん:2011/08/23(火) 12:37:59.67
識別モデルと生成モデルの違いを簡単に教えてください
535デフォルトの名無しさん:2011/08/23(火) 12:39:38.68
識別モデルは料理評論家
生成モデルは料理人
536デフォルトの名無しさん:2011/08/23(火) 13:11:42.82
全然分かりませぬ
537デフォルトの名無しさん:2011/08/23(火) 23:11:14.70
だれだよuyって馬鹿はwwwwいっしょにすんなwwww
誤植指摘して調子こいてるのは2ch素人だけじゃなくて院生にもゴミのようにいますwww
538デフォルトの名無しさん:2011/08/23(火) 23:21:19.30
>>537
邪魔
539デフォルトの名無しさん:2011/08/23(火) 23:22:39.06
何を今更w
540デフォルトの名無しさん:2011/08/23(火) 23:24:21.46
他人にフリワロスwww
541デフォルトの名無しさん:2011/08/23(火) 23:24:54.90
他人のフリワロスwww
542デフォルトの名無しさん:2011/08/23(火) 23:35:40.70
高卒のuyは学歴コンプレックスが酷くて院生を目の敵にしていたな

丁度>>537のように
543デフォルトの名無しさん:2011/08/23(火) 23:36:35.22
院生ずぼしwww
わらたwww
544デフォルトの名無しさん:2011/08/23(火) 23:40:40.34
uy名無しで乙
545デフォルトの名無しさん:2011/08/23(火) 23:41:10.64
精神病院生一匹発見。通報願います。
546デフォルトの名無しさん:2011/08/23(火) 23:42:57.98
てかおまえがuyとかいうやつだろwww
547デフォルトの名無しさん:2011/08/23(火) 23:44:02.46
wと一緒に悪臭放ちすぎなんで、保健所送りにしてもらえないですか。
548デフォルトの名無しさん:2011/08/23(火) 23:45:06.99
精神病の院生はおまえ。院生がかっこいいとでもおもってんのかw
俺はRについてかいてやっただろ、お前は何も書いてないw
ど素人だなw
549デフォルトの名無しさん:2011/08/23(火) 23:47:39.12
自宅警備員なんで強制連行は無理です
550デフォルトの名無しさん:2011/08/23(火) 23:51:55.36
どうやったら掲示板から臭いがすんだよwww
あ、そうか、普通に考えてそれはお前の臭いだろwwwおめーがくせーんだよww
自分が悪臭はなってるから臭うにきまってだっろ。

くせーーーーーーーーーーーーーーーーーーー
551デフォルトの名無しさん:2011/08/23(火) 23:56:02.69
今時、院にコンプとは恥ずかしすぎ、誰でも行けるだろ。
もちろん、正常な精神を持ち合わせてたら、の話だが。
552デフォルトの名無しさん:2011/08/23(火) 23:59:17.24
あれがまともに見えるか?
553デフォルトの名無しさん:2011/08/24(水) 00:01:00.73
誰でもいけるといっときながら、院にコンプを持ってると思ってるという発想が終わってるwww
それこそコンプの証拠wwwいったいお前をそこまで発狂させるのは何なんだよw

おれは、Rとかがゴミだなっていっただけだろwwww

554デフォルトの名無しさん:2011/08/24(水) 00:02:22.93
日本語は理解できるかな?
555デフォルトの名無しさん:2011/08/24(水) 00:05:07.44
人に言われたことをオウム返しにしか反発できない奴、小学校によくいたな。
ネガティブな感情をぶちまけることしかできない、知的水準の低い可哀想なやつだな。
556デフォルトの名無しさん:2011/08/24(水) 00:09:13.09
この板、IDつかないのかな。フィルターかけたいな。
557デフォルトの名無しさん:2011/08/24(水) 00:10:25.18
学習屋なら自然言語処理でフィルタリングすべき
558デフォルトの名無しさん:2011/08/24(水) 00:11:22.54
はぁ? 院なんてだれでもいけるんだよ、これはもうこれ異常ないくらいの事実w
にもかかわらず、院にコンプを持ってるって言う発言が出る時点で、
おまえ(図星で院生wwだった)は院が特別だと思ってんだよwwww
どんだけ低レベルなんだよwww
559デフォルトの名無しさん:2011/08/24(水) 00:11:58.82
名指ししていないのに、的確に反応してるなw
きちんと自己分析ができている。精神病院生とは失礼だぞ!
560デフォルトの名無しさん:2011/08/24(水) 00:17:11.75
草が三回生えた時点でアウトだね、フィルタさせてもらうわ。
561デフォルトの名無しさん:2011/08/24(水) 00:18:08.52
自然言語処理wwwwwwwwwwwwwアプリ乙
w=草っとか言ってる時点で同類だろwwwwwww
562デフォルトの名無しさん:2011/08/24(水) 00:21:51.24
>>558
唐突に誰でも行ける院生を叩いているから、
変な人じゃないかと思われてるんだろ
563デフォルトの名無しさん:2011/08/24(水) 00:24:59.68
院生はたたいていませんwww
誤植指摘して得意げになってる院生がリアルにも2chにもいたから指摘してあげただけです。
ゲーデルとゲーテルの違いくらいで得意げになるのは2chだけにしなさいよwwwww
564デフォルトの名無しさん:2011/08/24(水) 00:25:18.73
触るなよ草が生えるぞ
565デフォルトの名無しさん:2011/08/24(水) 00:29:25.25
誤植指摘されただけで、ここまでムキになるってのも。。
566デフォルトの名無しさん:2011/08/24(水) 00:31:13.11
大した研究成果もないから、誤植指摘でプライドズタズタなんだろ。
察してやれ。
567デフォルトの名無しさん:2011/08/24(水) 00:32:02.82
無理に背伸びして慣れない言葉使ってドヤ顔しようとして、失敗したのさ
568デフォルトの名無しさん:2011/08/24(水) 00:33:11.25
ゲーテルって書いてある本もあるよ。
今はゲーデルの方が圧倒的だろうけど。完全な誤植とは言い切れない。
それとも誤植と言うことでゲーデルに統一されたのかもしれない。
569デフォルトの名無しさん:2011/08/24(水) 00:34:32.16
自分で誤植って認めてるだろ、何を言ってるんだ
570デフォルトの名無しさん:2011/08/24(水) 00:36:23.99
むきになってなんかないけとwwww
Rがゴミって言われて、大発狂してるのはおまえだろwwwwwwwwwww

ゲーテルは普通に誤植だろw
571デフォルトの名無しさん:2011/08/24(水) 00:39:06.17
相手が弱みを見せてるときは煽るのも効果的だけど
自分が弱み(誤植した等)見せてるときに草生やして煽っても
相手は少しも悔しく無いんだぜw
572デフォルトの名無しさん:2011/08/24(水) 00:41:32.18
誤植をどこからどう見たらどこが弱みになんだよwwwwwwwwwwwww

ワラワセンナwwww

おまえもっと気持ちを強く持って生きたほうがいいよ。この先さw
573デフォルトの名無しさん:2011/08/24(水) 00:43:51.80
このスレもう終わったな
574デフォルトの名無しさん:2011/08/24(水) 00:45:46.18
精神に問題があり、Fラン万年助教に島流しにあったのか。
575デフォルトの名無しさん:2011/08/24(水) 00:49:42.50
レベル間違えてるから、そもそも大学いってないよコイツは
多分・・・
576デフォルトの名無しさん:2011/08/24(水) 00:51:34.33
今時の高卒は希少価値があってうらやましいなw
577デフォルトの名無しさん:2011/08/24(水) 00:52:51.28
Rがごみだって事実をいっただけでこれだけの大発狂っぷりにはわらわされますねwwwwww
578デフォルトの名無しさん:2011/08/24(水) 00:53:48.22
すみませんニューラルネットワークで入力層60, 中間層180で
線形伝達関数を sigmoid(s) = 1.0 / (1.0 + e^-1.0*s)で計算を行ったところ
sの値が30程度になってしまい常に値が1.0となってしまいます。
e^-1.0*sの値が小さすぎることからだと思うのですが解決策分かりましたらお願いします。
579デフォルトの名無しさん:2011/08/24(水) 00:56:54.47
大学行ってようが行ってなかろうが2chじゃ関係ないだろwwww
大学なんていまどきだれでもいけんだよwww
大学いってないっていうのがあおりになってると思ってる時点でOUTwww

そもそも大学も行ってないやつがこんなスレッドに書き込むかよ。本気で頭悪いなおまえ。
580デフォルトの名無しさん:2011/08/24(水) 00:56:55.16
真面目な書き込み、びっくりするなぁ、もおw
581デフォルトの名無しさん:2011/08/24(水) 01:01:36.07
>>579
ってことは、Fラン万年助教なの?
582デフォルトの名無しさん:2011/08/24(水) 01:03:49.56
>>578
ゲーテル閣下が、機知に富んだ回答をしてくださいます。
しばしお待ちを。
583デフォルトの名無しさん:2011/08/24(水) 01:06:46.46
>>579

>レベル間違えてるから、そもそも大学いってないよコイツは
>多分・・・

「コイツ」としかいってないのに、自分のことだと分かるということは・・・


白状乙(笑)

584デフォルトの名無しさん:2011/08/24(水) 01:14:04.02
難問に頭を抱えて逃走か!?
585デフォルトの名無しさん:2011/08/24(水) 01:15:19.41
はぁ、おまえが答えてやれよw専門なんだろこのあたりがwwww
俺は使う側だから、学習とか統計解析とか、だからRとかいじってんだろーが
お前Rなみにひでーな
586デフォルトの名無しさん:2011/08/24(水) 01:18:38.90
高卒の俺でも分かるのに難問?
精度上げるしかないだろ
256ビット浮動小数点ライブラリ使えよ
587デフォルトの名無しさん:2011/08/24(水) 01:20:09.58
閣下、ドヤ顔の言い訳、恥ずかしすぎます。
588デフォルトの名無しさん:2011/08/24(水) 01:21:14.45
高卒の俺も笑っていいですか
589デフォルトの名無しさん:2011/08/24(水) 01:22:20.28
哀れんでください。
590デフォルトの名無しさん:2011/08/24(水) 01:24:45.46
高卒と詐称してぎゃっぷつけたいのかよwwwwww
ほんとあたまわりーなwおまえwwwwwwwwww

しらないものにドヤ顔して答えるわけにはいかないだろ、ま、お前みたいな馬鹿は
どこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww

そんな態度は2chだけにしとけwww
591デフォルトの名無しさん:2011/08/24(水) 01:26:31.59
え?ゲーテルってドヤ顔したのは何処のどいつだったっけ?
592デフォルトの名無しさん:2011/08/24(水) 01:27:57.64
今日の金言

>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww

>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww

>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww

>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww

>>お前みたいな馬鹿はどこいっても、物知り顔で知ったかぶってるからそんな発言がでるんだろうけどwww
>>そんな態度は2chだけにしとけwww
593デフォルトの名無しさん:2011/08/24(水) 01:29:22.25
ゲーテルの誤植は必死に言い訳できても、これはいかんなあ。
594デフォルトの名無しさん:2011/08/24(水) 01:29:30.87
ドヤ顔はしてないよwwwww
述語論理の完全性定理くらい理解して言語設計しろとはいったけどwwww

ゲーテルってゲーデルのこと??その誤植にまだこだわってるのwwwww
詐称がばれてまた発狂かよwwwww
595デフォルトの名無しさん:2011/08/24(水) 01:31:44.20
見事な発狂っぷりだな
596デフォルトの名無しさん:2011/08/24(水) 01:33:16.46
>>586
精度を上げるしかないんですね
解答ありがとうございます。
597デフォルトの名無しさん:2011/08/24(水) 01:34:57.83
>>596
こんな状況で申し訳ない、次回から他スレで質問をお願いします
598デフォルトの名無しさん:2011/08/24(水) 01:35:42.72
今度は専門用語並べてドヤ顔か
簡単な数学ができてからにしようね
599デフォルトの名無しさん:2011/08/24(水) 01:37:59.88
かなり言語設計に問題がありそうな気がするが
600デフォルトの名無しさん:2011/08/24(水) 01:38:11.66
こんな状況wwwwwwwwwwwこれが状況と呼ばれるようなものなのかよwww
どんだけお前のせかいせまいんだよwww

さらに、専門用語wwwwww
まじで意味わからんwwwwどこのことを指しているのかまったく不明wwww
ニューラルネットワークは専門用語でなくて完全性定理(<--ここかな?)が専門用語?????
まじお前院生病だわwwwwww
601デフォルトの名無しさん:2011/08/24(水) 01:39:35.76
見事な発狂っぷりだな
602デフォルトの名無しさん:2011/08/24(水) 04:57:04.63
>>527
荒れるのは望みませんが、これだけは言わせてください。
「鬼の兜とった」は「鬼の首とった」が正しいです。
603デフォルトの名無しさん:2011/08/24(水) 05:54:45.99
機械学習の力でこいつを識別してNGにするフィルタを作れという天からの出題だろ
604デフォルトの名無しさん:2011/08/24(水) 10:47:46.38
草生やしてるからテキスト処理だけで十分
たとえ本人でなくとも草生えてるレスにはろくなものがないから
605デフォルトの名無しさん:2011/08/25(木) 00:09:26.01
すれが止まった。結局お前ら等機械学習よりあおりあいの方が好きなんだな。
606デフォルトの名無しさん:2011/08/25(木) 00:30:34.89
http://www.gazo.cc/up/53547.png
これが止まったというのか
推定の手順を示せ
607デフォルトの名無しさん:2011/08/25(木) 00:53:26.33
このグラフどうやって作ったの?面白いね!
608デフォルトの名無しさん:2011/08/25(木) 04:29:42.39
>>578ですがやっぱり上手くいきません...
中間層が180個もあるので一つの中間層の値が0.5として全ての重みを0.5としても180*0.5*0.5=45でこれをシグモイド関数で計算するとe^-1.0*45は限りなく0になるので値が1になってしまいます。
609デフォルトの名無しさん:2011/08/25(木) 06:43:34.78
>>608
教師データと合うように重みを変えていくわけだから
それができないってことは学習アルゴリズムがバグっているか
教師データが間違っているのでは。

>中間層の値が0.5として全ての重みを0.5として
0.5というのはどこから出てきたの?
610デフォルトの名無しさん:2011/08/25(木) 09:49:45.92
>>606
日付ごとのレス数を棒グラフにしたら止まったかどうかわかるんじゃないかな
611デフォルトの名無しさん:2011/08/25(木) 14:54:55.21
>>609
初期では重みをランダムで[0,1]の範囲で与えているので入力層:60、中間層:180とすると入力層で与える値が全て0.1だとして重みの平均は0.5なので一つの中間層の値はΣx•w = 0.1•0.5•60=3
sigmoid(3) = 0.99..となり
次の出力層の値はΣx•w = 0.99•0.5•180=90
sigmoid(90) = 1.0 になる始末です。
入力層、中間層の数を少なくすれば機能することは確認済みなのですがやはり数を多くすると上記の不具合が出てしまいます。
大人しくwekaでも使ったほうが良いですかね...
612デフォルトの名無しさん:2011/08/25(木) 23:29:38.67
>>611ですが自己解決しました。
ご迷惑おかけしました
613デフォルトの名無しさん:2011/08/26(金) 12:46:56.47
>>611
入力がなんだろうと重みを調節すれば出力値はどうにでもなる。
中間層の数が増えれば、各ユニットの重みが減るというだけで、
それができないというのは学習の処理がバグっているのでは。

解決したならいいけど。
614片山博文MZ:2011/08/26(金) 13:27:39.74
誰かIBMのワトソンみたいなの作って無料で公開してくれないか?
日本語で分かるやつ頼む。
615デフォルトの名無しさん:2011/08/26(金) 14:30:26.62
616デフォルトの名無しさん:2011/08/26(金) 16:02:32.90
.
617デフォルトの名無しさん:2011/08/26(金) 23:36:36.90
>>615
これはみた?

ttp://newsmap.jp/
618デフォルトの名無しさん:2011/08/27(土) 04:14:58.32
実際マイニングするより下準備のほうが大変だよね。
今いちいち手入力でデータセット打ち込んでるわ・・・
619デフォルトの名無しさん:2011/08/27(土) 06:35:53.93
データから作ると大変だよな。
620デフォルトの名無しさん:2011/08/27(土) 11:46:10.68
ここム板なんだけど?
621デフォルトの名無しさん:2011/08/28(日) 02:11:16.74
RもCもパイソンもゴミだった。
622デフォルトの名無しさん:2011/08/28(日) 06:54:08.13
>>621
なぜならお前がゴミだから。
623デフォルトの名無しさん:2011/08/28(日) 12:03:55.45
来年は北京だってさ
624デフォルトの名無しさん:2011/08/28(日) 13:29:06.48
>617
SMAP が新しくなった?
625デフォルトの名無しさん:2011/09/02(金) 08:52:25.06
卒論で競馬や野球といったスポーツの多変量解析をテーマにし、
将来の成績やタイムや順位を予測するモデルを考えているのですが、
分からないことがありますので、ご存知でしたらどなたか教えて下さい。

まず、競馬にしろ野球にしろ過去成績データを説明変数として重回帰分析等の
モデルを作ろうとした場合、どの期間をデータとして使用するか、手掛かりが
掴めないのです。
626625:2011/09/02(金) 08:57:46.26
安定性を考え、なるべく長い期間を取るべきとは思いますが、
具体的に どの位の期間を取れば良いか分かりません。

また長期間の成績データを使うと、最近調子が上がった馬や選手等の
直近の成績は活かせないし、長期間の過去データが存在しない新人や
新馬はどう予測するのか途方に暮れています。

野球なら新人を分析データから外せば良いかも知れませんが、競馬なら
新馬もレースに参加するので無視できないし、新馬の扱いが分かりません
627625:2011/09/02(金) 09:13:54.48
それにしても野球も競馬も背景の違いを扱いのが難しいですね。
野球の打率やら出塁率やらは、相手のレベルが違いますし、
競馬のタイムも走った場所や馬場の条件等が違います。

背景が違うものを比較するのに、多変量解析でファクター毎に
線形に分解して影響度を比較しようと考えています。
628625:2011/09/02(金) 09:19:51.56
たとえば、競馬のタイムなら競馬場、芝・ダート、馬場等のファクター
毎に分解して、他の条件が同じならダートの方が芝より○秒早い、
と言った感じで分析したいな、と思います。

これは例えば競馬場ごとのタイム差が有意かどうか検定を行い、
2元配置分散分析等で交互作用を分析し、ダミー変数や交互作用項を
利用して、重回帰分析の偏回帰係数をファクター毎の影響度と見なして、
分析するのが良いでしょうか。恐れ入りますがお知恵をお貸し下さい。
629625:2011/09/02(金) 09:26:24.63
野球にしても競馬にしても日本語で読める統計やデータマイニング
絡みの本が少ないですね。

Sabermetricsは「メジャーリーグの数理科学」他数冊しかなく、
「メジャーリーグの数理科学」は上巻が絶版で図書館には無いし、
競馬は「実践データマイニング―金融・競馬予測の科学」位しか
無いです。

英語が苦手でも、やはり洋書で高い専門書籍を買うしかないですかね。
630デフォルトの名無しさん:2011/09/02(金) 09:47:23.99
成長の確変を計算で予測出来たら世界が変わるぞ

野球の新人ならドラフトにかかるまでの成長曲線
競馬の新馬なら血統から求めれば良いかと

その後の成長なんて指導者や調教師や怪我次第だから、
重回帰でも主成分分析でも、あくまで肉体的な統計を取るくらいしか出来ん
631デフォルトの名無しさん:2011/09/02(金) 12:37:46.71
学習期間を最適化したら良いんじゃないの?
632デフォルトの名無しさん:2011/09/02(金) 15:24:39.73
つうか、やってみる前に人に訊く時点で
データマイニングに向いてないよね
633デフォルトの名無しさん:2011/09/02(金) 18:09:31.56
分かってることを解析しても意味ないからな
634デフォルトの名無しさん:2011/09/02(金) 18:31:35.72
ttp://www.hakodate-ct.ac.jp/~tokai/tokai/research/paper/takei.pdf
この論文の楽曲推薦システムってなかなか面白そうだけど
楽曲の特徴の抽出に何を用いるかってなかなか難しいよね。
データマイニングを行う場合は対象についても勉強しないといけないし大変。
635デフォルトの名無しさん:2011/09/02(金) 23:13:36.51
>>625
本よりも論文探したほうがいいよ
636デフォルトの名無しさん:2011/09/03(土) 16:38:14.15
>>634
むしろ研究の本筋は特徴量の方だろうね。機械学習自体は定番のライブラリそのまま使うのがおおいと思う。
637625:2011/09/03(土) 18:34:44.44
返信が遅く申し訳ありません。

>>630-631
>>635
アドバイス本当にありがとうございました!!色々と試してみます。

>>632-633
どうもごめんなさい。とても耳が痛いです…。
638デフォルトの名無しさん:2011/09/03(土) 19:05:02.31
今からFBIのプロファイリングの番組やるぞお前ら。
639デフォルトの名無しさん:2011/09/03(土) 19:16:36.27
録画&アップ頼む
640デフォルトの名無しさん:2011/09/05(月) 10:25:57.85
FBIと日本のプロファイリングの精度ってどのくらい違うの?
641デフォルトの名無しさん:2011/09/05(月) 10:28:41.73
日本は冤罪率が高いので比較できない。
642デフォルトの名無しさん:2011/09/05(月) 11:18:37.08
プロファイリングをモデルに置き換えるとしたら犯行内容ぽちぽち入力したら結果出てくる感じ?
643デフォルトの名無しさん:2011/09/05(月) 11:35:01.10
最強なのは現場の刑事の勘
644デフォルトの名無しさん:2011/09/05(月) 11:47:06.59
それが日本で冤罪が多い理由なんだよな。
645デフォルトの名無しさん:2011/09/05(月) 13:03:43.77
過去の凶悪事件で報道される、捜査中でのプロファイリングって大抵間違ってるよね
あれは犯人に安心感を与える為の罠なんだよっ(キリッ
646デフォルトの名無しさん:2011/09/05(月) 13:05:26.57
分類に不要な変数を見つけるのに決定木を用いる方法が良いかな?
多分最適化もできないと思うので
647デフォルトの名無しさん:2011/09/05(月) 16:22:40.59
決定木において、二分木と多分岐の
メリットとデメリットをそれぞれ教えて下さい!
648デフォルトの名無しさん:2011/09/05(月) 16:27:44.04
2分木は多分木の特殊な場合だろう
649デフォルトの名無しさん:2011/09/05(月) 17:02:16.56
>>648
多分木のほうが処理が速いとかいったメリットってないんですか?
650デフォルトの名無しさん:2011/09/05(月) 17:33:59.14
多分木は2分木の組み合わせで表現できるだろ。
651デフォルトの名無しさん:2011/09/06(火) 04:42:17.97
>>650
答えになってないな

>>649
2分木は林、多分木はジャングルと表現できる
652デフォルトの名無しさん:2011/09/06(火) 04:43:41.34
>>651
知らないならエラそう言わなきゃいいのにw
653デフォルトの名無しさん:2011/09/06(火) 05:00:15.52
そういえば野球選手と言えば例のその数学が戦略を決めるって本で選手の出塁率だか四球の数だかが重要な変量として有望な新人を見つけるみたいな話があったな。
後は映画の脚本で興行収入を予測したりとか
654デフォルトの名無しさん:2011/09/06(火) 08:00:30.13
655デフォルトの名無しさん:2011/09/06(火) 09:41:39.06
>>653
その辺りは選球眼や、いやらしい球をカットする技術を持っているかの指標だね
でも、長打力や肩や足は、生まれ持った素質でしか無いから、メジャーのトップクラスになるには両方大事
656デフォルトの名無しさん:2011/09/06(火) 09:59:21.24
そういう個別理論じゃなくて、統計の裏付けのあるデータにもとづいて戦略を
立てろという話なんだが。セイバーメトリクスでググれ。
657デフォルトの名無しさん:2011/09/06(火) 10:22:35.17
658デフォルトの名無しさん:2011/09/06(火) 11:52:03.24
>>656
ところで良い統計的決定をするには>>655みたいな
ビリーフモデルがあった方がいいんじゃないのか?
人間に解釈しやすい(事前確率を作りやすい)という意味でも
659デフォルトの名無しさん:2011/09/06(火) 16:32:49.10
>>629
株価予測のやり方の方は実践してみた?
あの天井と底を決めるやり方が書いてないんだよね
660デフォルトの名無しさん:2011/09/06(火) 17:48:52.09
半教師あり学習と転移学習の違いについて詳しく教えてください!
661デフォルトの名無しさん:2011/09/07(水) 09:31:35.31
やってることが違う
662デフォルトの名無しさん:2011/09/07(水) 21:15:59.46
iPhoneのAkinatorがやってることは決定木だよね。
なるべく最短で見つけるためのNP困難で工夫してるんだろうけど
663デフォルトの名無しさん:2011/09/10(土) 02:22:42.14
ブラック企業多そうな職種
664デフォルトの名無しさん:2011/09/12(月) 06:23:40.19
>>662
最短であることは要求されていない。
なんとなく、思ったより早く絞れればいい。
665デフォルトの名無しさん:2011/09/12(月) 16:18:36.85
間違えて入力した時どうやって遡るのかが分からない
666デフォルトの名無しさん:2011/09/15(木) 09:35:43.82
ベイジアンネットワークを実装しようと色々な本を読んでいますが、
変数にはガウシアンネットワークなどを除くと、基本的にカテゴリーデータ
しか使えないようですね。

そのため、数量データを等間隔に分割してカテゴリ化したり、
順序尺度に変換して分析しようとしていますが、カテゴリーデータに置き換える
客観的な指標や方法論などはございますでしょうか。

各種論文にはカテゴリーデータに置き換えるテクニックの記載がなかったもので。
それとも案外アナログに決めているんですかね?
667デフォルトの名無しさん:2011/09/15(木) 13:25:19.03
k-meansとかx-meansすれば?
668デフォルトの名無しさん:2011/09/15(木) 17:37:03.39
そういえば、x-meansを挙げるやつがたまにいるけど
クラスタを分割する条件が悪くて使い物にならないだろ
Wakeのx-meansも論文とは違う実装だし
669デフォルトの名無しさん:2011/09/15(木) 22:22:27.98
ワケ?
670デフォルトの名無しさん:2011/09/15(木) 22:47:31.66
キューティー・クラスタリングでぐぐれ
671デフォルトの名無しさん:2011/09/16(金) 00:09:41.28
>>667-670
有難う御座います!!とても助かりました…。
672デフォルトの名無しさん:2011/09/18(日) 16:12:52.80
pythonごみすぎてわろた
673デフォルトの名無しさん:2011/09/18(日) 16:37:14.20
来期は単位取れるといいね。
674デフォルトの名無しさん:2011/09/23(金) 22:20:46.96
知能のあるコンピュータウイルスって面白そうだね。
遺伝的プログラミングでコードを自己書き換えしてセキュリティに引っかからないようにするみたいな
675デフォルトの名無しさん:2011/09/23(金) 23:17:38.86
>>674
5年前くらいから存在してないっけ?
どこかのカンファレンスで、そういったウィルスの対応方法を聞いたことがある。
676デフォルトの名無しさん:2011/09/23(金) 23:28:52.85
ポリモーフィック型という奴だな
677デフォルトの名無しさん:2011/09/24(土) 01:05:55.36
もうあるのか〜
でもこれを研究するのも面白そうだね
ただ発表することは出来なさそうだけど
678デフォルトの名無しさん:2011/09/24(土) 01:59:39.63
パソコン1つで1個体だと相当数感染させないと
まともな子孫作る程度の人口が確保できないよな。
そういうやり方じゃないのかな?
679デフォルトの名無しさん:2011/09/24(土) 04:56:46.89
処理としての意味が変わらない範囲でコードを書き換えて
ウィルスのデータベースにヒットしないようにしてるだけだろ

680デフォルトの名無しさん:2011/09/24(土) 09:49:26.83
リアルウイルスも生き物1匹の体内で大量の個体が世代交代して
たまーに他の生き物のウイルス達と混ざるわけだよな。
なんかいかにもGAの並列計算で考えつきそうなネタだな
681デフォルトの名無しさん:2011/09/24(土) 10:44:36.40
まさに進化そのものだからな
機能そのものも変化できたら面白いのに
682デフォルトの名無しさん:2011/09/24(土) 11:50:12.75
進化の裏に淘汰があるわけで、かならずしも思うようにならないかと。
683デフォルトの名無しさん:2011/09/25(日) 13:07:44.18
淘汰があるから(平均的には)良くなる方向にいく
684デフォルトの名無しさん:2011/09/26(月) 00:13:29.35
モバイルエージェント )チラッ
685デフォルトの名無しさん:2011/09/26(月) 01:16:17.85
質問
集合K [ 2, 4, 5 ]
集合1 [ 3, 4, 5 ]
集合2 [ 1, 2, 4, 3 ]
集合3 [ 2, 4, 5, 1 ]

集合1〜3のうち集合Kを全て含む集合を
高速に特定するにはどうしたらいいだろうか。
現実には集合は大量に存在するのでビットマスクは避ける方向で。
何かいい方法はない?
686デフォルトの名無しさん:2011/09/26(月) 03:50:12.78
相関係数法を使った協調フィルタリングを実装するのに一番簡単な方法を教えてください
今のところPhp(Vogooライブラリ)+SQLを利用しようと考えています
687デフォルトの名無しさん:2011/09/26(月) 04:51:38.71
>>685
転置しろ
688デフォルトの名無しさん:2011/09/26(月) 09:44:17.56
某企業は、ある日いきなり韓国メーカーに呼び出され、

VIP待遇を受けて、韓国の粗悪なメカ工場視察イベントに招待された。

後、韓国はそのメーカーに対し、

「我々は貴様らに工場視察をさせてやったのだから、日本の工場を見せろ!」

と、言いがかりをつけてきて、日本の工場へずかずかと入り込んだ。

後、韓国の工場が日本の工場の技術を盗んで、そっくりな工場を作っていたことが発覚した。

日本の技術を賞賛し、工場を視察しに行くタイプの番組が増えているな。。。
689デフォルトの名無しさん:2011/10/01(土) 23:18:13.97
>>688
ずかずかと工場に入り込んだだけで技術を盗めるなんて韓国人ってすごいんですね
690デフォルトの名無しさん:2011/10/02(日) 01:11:00.75
キチガイのネトウヨのコピペに反応してどうする
691デフォルトの名無しさん:2011/10/02(日) 01:20:24.28
できないとおもうりゆうは。。
692デフォルトの名無しさん:2011/10/02(日) 22:18:06.85
韓国の工場の製造機器なんて日本製が大量に入ってる。
だから韓国製品は日本製と品質が大して変わらない。ネトウヨはアホすぎる。
693デフォルトの名無しさん:2011/10/02(日) 23:34:04.58
ターンキーで何でもできると考えるのはさすがに舐めすぎだけどな。
694デフォルトの名無しさん:2011/10/03(月) 05:46:07.19
日本の工場で実際に手を動かしてるのはブラジル人と中国人だけどな
695デフォルトの名無しさん:2011/10/04(火) 01:33:09.23
数量データを予測するのにSVMって使えるん?
696デフォルトの名無しさん:2011/10/04(火) 08:59:12.53
samui
697デフォルトの名無しさん:2011/10/04(火) 22:29:09.33
>>695
サポートベクトル回帰ならある
698デフォルトの名無しさん:2011/10/05(水) 17:04:01.24
パラメトリックとノンパラメトリックの長所と短所をそれぞれ教えてほしい
699デフォルトの名無しさん:2011/10/05(水) 17:29:28.93
>>698
データを生み出すモデルが想定できる → パラメトリック
モデルが想定できない → ノンパラメトリック
700デフォルトの名無しさん:2011/10/06(木) 01:12:16.13
質問文をよく読みましょう
701デフォルトの名無しさん:2011/10/21(金) 23:13:04.19
SPSS Modelerって何円?
702デフォルトの名無しさん:2011/10/22(土) 17:56:40.45
自分の顔写真をアップロードしたらどの有名人に似てるかっていうサービスあったよね。
703デフォルトの名無しさん:2011/10/23(日) 02:31:01.43
初心者にも分かりやすい統計分析の入門本のオススメってありますか?
巷ではRがいいと聞きましたが、そっち系の本買った方がいいのでしょうか?
704デフォルトの名無しさん:2011/10/23(日) 13:23:53.44
統計学もツールも同時に学びたいってこと?
俺はそれぞれ別に本を買う派
705デフォルトの名無しさん:2011/10/24(月) 01:56:17.50
それぞれのおオススメ本は?
706デフォルトの名無しさん:2011/10/24(月) 17:36:06.52
>>703
S もいいよ
707位置情報と検証令状(2):2011/10/24(月) 18:37:47.36
>>163-166に関連してです。

『位置情報に関わる個人情報保護法の問題と「検証令状」現状は?(第156回法務委員会第11号を参照して)』
http://infowave.at.webry.info/201110/article_1.htmlの参照おねがいします
708デフォルトの名無しさん:2011/10/25(火) 00:53:01.30
この分野って、octaveとRじゃ、どっちがよく使われるもんなの?
709デフォルトの名無しさん:2011/10/25(火) 09:16:43.87
フリーの統計ソフトウェアRのパッケージ"nnet"でニューラルネット、
パッケージ"e1071"でサポートベクターマシンを利用してマイニングしています。

-1から1の範囲で基準化した10の説明変数で判別と回帰を行いました。
説明変数の元データと-1から1で基準化したものを被説明変数として
学習し、学習データに回帰を行うと全くデタラメな数値が出力されます。

しかし、被説明変数を正の値と負の値の2値に変換したものを被説明変数と
して学習し、学習データに判別を行うと65%の精度で正しく判別できます。

なぜ回帰だとデタラメな数値が出力され、同じデータをバイナリ化したものに
判別をかけるとある程度正確な数値が出力されるのか、回帰と判別で結果が
全く異なることに首をかしげています。

こういう場合はどのような原因が考えられますでしょうか。
このスレッドは凄腕のデータマイナーがひしめいていると思いますので、
なにとぞお優しい方がいらっしゃいましたらご教示いただけないでしょうか。
710デフォルトの名無しさん:2011/10/25(火) 09:48:44.43
オーバーフィットしてるだけに見えるぞ
クロスバリデーションしてみろ
711709:2011/10/25(火) 22:34:49.48
>>710
有難うございます。"e1071"パッケージの「svm」の関数にて、
学習する際にクロスバリューデーションの回数を引数として
渡せるので、10回指定して学習させたのですが、うまく行きませんでした。
特に異常値と言えるほど大きな正・負値も無かったので、
外れ値の除去を行わなかったのですが、それがまずかったのでしょうか?
712デフォルトの名無しさん:2011/10/26(水) 01:26:25.70
>>710
学習データに対してうまくいっていないと言ってるし
オーバーフィッティングしてないと思うけど
>>709
回帰がニューラルネットワークで判別にSVMを使っているの?
全体的になに言っているか分かりにくいけど
データ数はどれくらいなの
ニューラルネットの中間層のユニット数とイテレーション数はどうなっているの
デタラメとはRMSEなどを計算してから言っているの
713709:2011/10/27(木) 22:49:35.06
>>712
返信が遅くなってもうわけございません。
WEKAを使用したらなぜか解決いたしました。
お騒がせして大変申し訳ございませんでした。
714デフォルトの名無しさん:2011/10/28(金) 09:47:57.82
Wekaを使用したら解決したって全く別物やんけ
データとやりたいことはあっててRの使い方が間違ってたんだろ
715 ◆HBmET4DqEk :2011/11/05(土) 16:47:50.31
てす
716デフォルトの名無しさん:2011/11/08(火) 01:07:43.22
会社やめたい
717デフォルトの名無しさん:2011/11/08(火) 01:12:30.32
718デフォルトの名無しさん:2011/11/08(火) 19:48:53.06
数十万円もするデータ処理ソフトTMstudioの試用版が
今ならタダでダウンロードできます。
http://www.msi.co.jp/tmstudio/TMStudioForPatent2011/tmstudio2011.zip
是非みなさんに使ってもらいたい。
史上最強のデータマイニング専用ソフトですから。
一部使用制限はありますが、本当にタダでいいの?ってなくらい凄い機能です。
719デフォルトの名無しさん:2011/11/08(火) 20:10:28.29
テキストマイニング専用ソフトかな?
720デフォルトの名無しさん:2011/11/08(火) 20:42:21.40

http://www.msi.co.jp/tmstudio/movies/TMStudioMovie1.wmv
というデモがあるそうですね。
721デフォルトの名無しさん:2011/11/09(水) 07:12:14.27
わざとらしい宣伝乙
722デフォルトの名無しさん:2011/11/09(水) 22:10:54.26
質問させてください。
遺伝的アルゴリズムで1〜5の範囲で並びの順番を表そうとしているのですが
染色体A:1 2 3 4 5
染色体B:5 4 3 2 1
を用意してこれを適当なところで一点交叉させると
染色体C:1 2 3 2 1となり順番の値が重複してしまい困っています。
質問の意図が分からないと思いますがエスパーの方いましたらお願いします。
723デフォルトの名無しさん:2011/11/09(水) 22:59:28.34
そもそもそれは塩基?遺伝子?
前者なら1-4の範囲の気がするから後者?
724デフォルトの名無しさん:2011/11/09(水) 23:35:47.47
>>722
TSPで皆がどうエンコードしてるか検索すれば解る
725デフォルトの名無しさん:2011/11/10(木) 20:57:33.46
>>722
構わずphenomeと1対1対応。基本。
726デフォルトの名無しさん:2011/11/10(木) 23:22:43.78
>>723-725
返信遅くなりましたが回答ありがとうございました。
特に>>724の方の巡回セールス問題に対する遺伝子の表現の仕方の工夫で上手くいくことが出来ました。

727デフォルトの名無しさん:2011/11/22(火) 10:04:30.68
卒論執筆のために、皆さんにご相談したいことがあります。

短距離や長距離などの陸上競技の選手間のタイムなどを説明変数、
順位を目的変数とし、重回帰分析を行おうと考えております。

そのために、タイムなどを集めたサンプル全体で標準化したのですが、
当然陸上競技は相対的に順位が決まります。

弱い選手と当たればブッチギリで勝てる選手も、猛者と闘えば、
ビリッケツになるかもしれません。

そのため、サンプル全体の標準化に加え、更に各レースごとのタイムなどで
標準化を行ない、両者を足した説明変数を使用しております。

しかしながら、データを各レースで標準化しただけの基準値だと、
平均からどの位飛び抜けているかという情報は分かりますが、
どれ位の順位にあるかという順位の情報が入っておりません。

もし、ご存知でしたら、基準値に代わる、バラつきや平均のみならず、
順位の情報を含む距離を図る尺度をご教示いただいても宜しいでしょうか。
(ユークリッド距離のような抽象的な空間内で距離を測る指標など)

また、ブラッドリー・テリーモデルについてですが、相撲やチェスなどの
直接対戦が豊富にあるゲームにしか適用は難しいですよね?

お忙しいところ、申し訳ございませんでした。
728デフォルトの名無しさん:2011/11/22(火) 10:59:21.99
タイム:絶対値
順位:相対値

この時点で相関出しにくいんだよね・・・
しかも短距離と長距離混ぜると、順位データとしては全くの別物になるし
理想はプロットにした時、短距離と長距離で集合が出来れば良いんだけども
729デフォルトの名無しさん:2011/11/22(火) 18:20:42.13
なんで結論ありきなの
730デフォルトの名無しさん:2011/11/23(水) 07:01:15.24
研究へのアプローチが間違ってる。
まずは既存のやり方をしらみつぶしに試せ。
731デフォルトの名無しさん:2011/11/23(水) 10:27:16.10
アンサンブル学習について詳しい本があったら紹介お願いします。
732デフォルトの名無しさん:2011/11/23(水) 17:54:05.69
今さらだけどワトソンって凄いね。
普通の質疑応答だったらもっと容易いだろうしどんなアルゴで動いてるんだろ
733デフォルトの名無しさん:2011/11/23(水) 18:03:17.71
% cat /usr/local/bin/watson
#!/bin/sh
wget http://www.google.com/?q=$1
734デフォルトの名無しさん:2011/11/23(水) 21:56:27.50
libSVM使ってみたんだけどdecision Valueってなんの値?
735デフォルトの名無しさん:2011/11/24(木) 03:35:13.81
順位相関があるだろうが

因みに説明変数は、筋神経パワー,無酸素運動容量,VO2MAX, LT-Power
この中には短距離スピードと負の相関のものがある
プロファイル形状とレベルが重要になる。てかそれで説明出来る
736デフォルトの名無しさん:2011/11/24(木) 13:20:36.89
>>734
誰も使ったことないのか?
俺も使ったことないけどsing(x)みたいな-1,1の値じゃないの
737727:2011/11/25(金) 09:24:08.37
>>728,730
返信が遅くなり申し訳ございません。
アドバイスをいただき、どうもありがとうございました。
738デフォルトの名無しさん:2011/11/25(金) 12:44:31.56
>>736
データによってもっと変わるかもだけど、-5から5くらいの実数値だった
予測ラベルと相関ありそうなんだけど、よくわからん
739デフォルトの名無しさん:2011/11/25(金) 20:06:44.54
おまえら、なにいってんだ?
740デフォルトの名無しさん:2011/11/25(金) 20:12:15.95
>>738
たぶん決定関数の値だと思うから
符号とって正か負かでラベルに属するか属さないか2値分類するものじゃないかな
libsvmはラベルと確率を返す関数があるようなので
そっち使ったほうがいいのでは
741デフォルトの名無しさん:2011/11/26(土) 00:16:04.15
>>740
そういうことか!
ありがと!
742デフォルトの名無しさん:2011/11/26(土) 10:22:55.71
オライリーから入門ソーシャルデータってデータマイニングの本が出てるね
743デフォルトの名無しさん:2011/11/26(土) 10:52:30.15
ぜひ買って感想をヨロ
744デフォルトの名無しさん:2011/11/26(土) 11:06:13.60
Google Buzz が閉鎖されたのでオワコン
745デフォルトの名無しさん:2011/11/26(土) 11:10:46.86
監訳者のブログ
7章の前半のGoogle Buzzは閉鎖されちゃって残念だけど、
実際には「入門 自然言語処理」で詳しく解説されている NLTK を、試しに使ってみよう、的な章になっているので、
ほとんど問題ないし、7章後半の Gmail に関する記事は内容に遜色は無いです。なので、「Google Buzz が閉鎖されたので本書はオワコン」は的な過剰な反応は無用だと思います。
746デフォルトの名無しさん:2011/11/26(土) 13:27:08.50
自分は Google Buzz は使ってないからインパクトなし
747デフォルトの名無しさん:2011/11/26(土) 15:20:30.10
おまえらに必要なのはそんな軽い本ではなく
線形代数と解析学、統計学の基礎だろ
748デフォルトの名無しさん:2011/11/26(土) 18:38:43.13
そんなのとっくに大学で習ってるだろ
あ、専卒さんでしたか?
749デフォルトの名無しさん:2011/11/27(日) 09:28:35.06
データマイニングで使われるトップ10アルゴリズムAdd Star
http://d.hatena.ne.jp/isseing333/20111123/1322053940
750デフォルトの名無しさん:2011/11/27(日) 12:25:58.37
自己組織マップはあまり使われないのかな
751デフォルトの名無しさん:2011/11/28(月) 20:24:29.44
入門ソーシャルデータがアマゾンから来てた
またpythonか、、、
752デフォルトの名無しさん:2011/11/28(月) 22:15:13.11
Python使ってる俺は嬉しい。
自然言語処理の本もPythonだし
753デフォルトの名無しさん:2011/12/03(土) 16:38:20.03
機械学習には教師あり学習、教師なし学習、強化学習があると思いますが、
ニューラルネットワークで強化学習と教師あり学習をMixしたようなモデルと作りたいと考えています。

各入力ノードの入力値に重みを付けて、中間層を介して、出力層より1か0を出力します。
通常の教師あり学習では、教師信号と出力の誤差を取り、誤差を最小にするように、
デルタ則を用いて最急降下法などで重みを決めると思います。

しかし、作りたいモデルでは教師信号が強化学習のように存在しませんが、
1を出力した場合に当たりなら報酬を貰い、外れたら-1の報酬ペナルティ、
0を出力した場合には報酬0となるようにし、学習データの報酬の総和が
最大になるように各入力ノードと中間層のノードの重みを決定したいのですが、
報酬の総和の関数を作り、数値微分で重みを決めようとしても、
恐らくやり方が悪く収束しません。

下手の考え休むに似たり、の諺の通り、アホの自分では上手く行きませんでした。
どなたか、そのようなニーズを満たすアルゴリズムやコード、ツールなどを
ご存知でしたらご教示願えませんでしょうか。
754デフォルトの名無しさん:2011/12/04(日) 00:36:38.70
755デフォルトの名無しさん:2011/12/08(木) 14:54:47.66
このスレってデータマイニングを使ってビジネス情報を分析している人の話題が多いけど

データマイニングや機械学習って他にも色々な分野と関連してるじゃん

パターン認識と合わせたWEBマイニングや自然言語処理と合わせたテキストマイニングや人工知能はスレ違い?
756デフォルトの名無しさん:2011/12/08(木) 20:20:22.60
>何でもいいので語れ
757デフォルトの名無しさん:2011/12/09(金) 03:38:35.79
Googleの検索候補って自分の過去の検索履歴だけじゃなくて
他人の過去の検索履歴も使ってるみたいだけど
自分のが出てくると恥ずかしいので
自分のだけは除外するようにするにはどうすればよいですか?
758デフォルトの名無しさん:2011/12/09(金) 07:16:29.35
IMEも同意語も翻訳も似たもの同士だよな
759デフォルトの名無しさん:2011/12/09(金) 22:38:10.95
>>757
恥ずかしいのぐらいがまんしたら?
それより、スレ違い
760デフォルトの名無しさん:2011/12/10(土) 02:29:57.22
オープンコンプリートならブラウザで止めればいいが
Googleが出しているならアカウントをログアウトするしかないんじゃね
761デフォルトの名無しさん:2011/12/10(土) 07:56:47.90
>>757
でもそんなに簡単に個人のモノがGoogleに反映されるものかな?
ブラウザ自身 (含む検索用のプラグイン) が記憶して、それを候補として挙げてるってことはない?

ページ上に最初から自分の検索語が堂々と表示されているか、それとも検索語を入力するための
テキスト枠に候補としてプルダウンメニューから出るかで大きく違うと思う。
前者はみんなが見られるし、後者はログインした個人毎にカスタマイズした内容。みな推測だけど。
762デフォルトの名無しさん:2011/12/12(月) 23:59:20.47
明らかに自分が入れたことのない単語が検索候補ワードに出て来ます
ってことは他人の環境でも自分の使った単語がそのひとのところに出てるかもしれない訳ですよね
763デフォルトの名無しさん:2011/12/13(火) 00:00:57.36
もちろんドロップダウンの話です
764デフォルトの名無しさん:2011/12/13(火) 01:14:34.81
統計とって上位しか使っていないだろうから
おまえと同じ検索ワードをたくさんの人が入力していないと出ないし
たくさんの人が入力しているワードなら出てもいいだろ
765デフォルトの名無しさん:2012/01/04(水) 02:02:19.73
質問よろしくお願いします。
今アソシエーション分析を行っているのですが、
条件部となるアイテム集合をAprioriアルゴを用いて抽出したのは良いのですが
その後のルール抽出作業において結論部となるアイテム集合のパターンが膨大で計算に時間が掛かってしまいます。
結論部に関しては全ての単語の組み合わせを計算しているのですが
Aprioriアルゴリズムのように良い解決方法はないでしょうか?
766デフォルトの名無しさん:2012/01/07(土) 11:19:46.24
>>572 わらた
767やらせ商売としての『2ちゃんねる』の煽動者ありか?:2012/01/10(火) 17:59:30.92
『2ちゃんねる』には「プロ固定」とよばれる集団がいるという意見があります。
下記URL:『第七章・2chの秘密工作員たち』を参照しました。
http://resistance333.web.fc2.com/newpage7.htm

さて、そのような煽動集団がいるかどうか検証することは可能なのでしょうか・・・。
最近ではカカクドットコムという会社が『食べログ』における「やらせ行為」で問題に
なりました。下記『日本経済新聞』の『「食べログ」にやらせ投稿コカクコムが法的措置も』URL↓
http://www.nikkei.com/news/headline/article/g=96958A9C93819695E2E6E2E19F8DE2E6E2E3E0E2E3E09180EAE2E2E2
を参照しました。『2ちゃんねる』における「やらせ行為」がある可能性もありますね。検証方法はあるのでしょうか。
どう思いますか。
768デフォルトの名無しさん:2012/01/10(火) 18:01:31.20
ネットで「プロ固定」とか騒いでるの、どう見ても「集団ストーカーが!」とか言ってる人の同類ばかりじゃないか。
769デフォルトの名無しさん:2012/01/10(火) 18:06:19.81
ゲハでやれ
770デフォルトの名無しさん:2012/01/13(金) 12:58:34.41
>>762
あれは、Googleが作った検索ワードの辞書にそって、ユーザーが入力したワードに近い辞書ワードを
検索上位のワードのウェイトを付けて表示している。

この辞書の2次派生物がGoogle JapanがリリースしたIME

だたし、フロント側の表示メカニズムはAjaxによるサーバークライアント型のアプリケーションで組んでるので
ブラウザのjavascriptの機能をoffにすると働かなくなる。

もっとも、Googleはユーザーが入力した検索ワードは全て記録しているので、機能をoffってもサーバーサイドでは
記録は残される。
771デフォルトの名無しさん:2012/01/13(金) 13:07:24.48
>>765
前、Amazonで表示される「この商品を買った人はこんな商品もかっています」というのと同じメカニズムを組み込もうとして
ログ解析をしたことがあるが、やはり、順列組み合わせでユーザーごとのページ遷移を全て追跡すると計算量が膨大に
なって処理ができなくなって辞めた。

前、Yahoo Jのなんかの記事で、YJではこの処理を組むため専用のクラスターコンピューターを購入したとかあって、
順当に処理をこなすには専用の処理系が必要かな、と思った。

専用の処理系が調達できない場合は、ヒューリスティックなルーチンを組み込んで不必要な枝を削除する必要がある。
これはチェスの処理系とかでやってる。
772デフォルトの名無しさん:2012/01/13(金) 18:30:49.39
ブラック企業多そう
773デフォルトの名無しさん:2012/01/16(月) 13:47:25.00
すでにある手法を学ぶ
納得したら使う

納得出来なかったら研究する
774デフォルトの名無しさん:2012/01/17(火) 07:59:53.86
>>771
そのクラスタってのはHadoopなんじゃないかな
最近はHadoopで何でも力技でやる傾向にあるみたい
775デフォルトの名無しさん:2012/01/19(木) 00:24:53.10
Weka使ってる人いる?
776デフォルトの名無しさん:2012/01/21(土) 18:07:44.11
質問させてください
配列(array)に入っているデータを比較するとします
array1 = [ 1,2,3 ]
array2 = [ 1,2,4 ]
array3 = [ 5,6,7 ]

この場合、array1とarray2の関係は、arrayとarray3よりも「近い」と判断したいです
機械学習的に解けるような問題なのでしょうか?そういうアルゴリズムがあれば教えて頂きたいです
777デフォルトの名無しさん:2012/01/21(土) 22:15:33.01
宿題は自分で解こうね。
778デフォルトの名無しさん:2012/01/22(日) 00:31:50.85
>>777
776じゃないが、そんなクソの役にも立たない意見ならレスすんなよ馬鹿か。
答えられないくせにレスするなら分からないのと同じだ。
779デフォルトの名無しさん:2012/01/22(日) 01:36:47.12
別に構わないのでは? 宿題スレならともかく、
質問への反応は回答でなければならないなんて決まってるわけじゃない。
そもそも近いの定義すら明らかにしない質問じゃあね……
780デフォルトの名無しさん:2012/01/22(日) 01:56:46.55
>>778
バカはだまってろ
781デフォルトの名無しさん:2012/01/22(日) 04:13:25.02
こんな過疎スレ質問ぐらい答えてやれやw
782デフォルトの名無しさん:2012/01/22(日) 05:37:21.75
だが断る
783デフォルトの名無しさん:2012/01/22(日) 06:20:54.22
>>776
分類する クラスタリング あたりで頑張ってください
784デフォルトの名無しさん:2012/01/22(日) 07:01:57.34
あと回帰分析な
785デフォルトの名無しさん:2012/01/22(日) 12:12:18.31
普通に最近傍法で良いのでは
786デフォルトの名無しさん:2012/01/22(日) 12:20:22.74
まあ方法はいっぱいあるよね
そこが機械学習の厄介な点であり面白い所でもある
787デフォルトの名無しさん:2012/01/22(日) 12:39:22.72
どれも統計学の上で踊ってるだけだがな
788デフォルトの名無しさん:2012/01/22(日) 13:55:53.23
分類・回帰じゃなくて類似度計算でしょ.距離を定義して解きゃええやん.機械学習必要なし
789デフォルトの名無しさん:2012/01/22(日) 14:07:12.00
回帰分析に距離指標定義は切っても切れない関係なわけだが
790デフォルトの名無しさん:2012/01/22(日) 16:05:25.53
>>776
単にユークリッド距離でいいのでは
その配列をx,y,z座標として点の近さをはかる
791デフォルトの名無しさん:2012/01/22(日) 16:15:34.57
ついにこのスレにもマジレスの波が……
792デフォルトの名無しさん:2012/01/22(日) 17:13:02.10
>>788
これが正解で他のレスは的外れだと思います。
機械学習とはデータから評価関数を逆算する処理であり、
距離定義が最初から決まっているなら機械学習は不要です。

>>790
質問者が示したデータは座標ではなく文字列で
1,3,4より1,2,9の方が1,2,3に近いのかもしれません。
793デフォルトの名無しさん:2012/01/22(日) 17:28:05.64
>>792
残念ながら、正解は>>783-784だ。理由はスレタイに書いてある。
794デフォルトの名無しさん:2012/01/22(日) 18:12:50.02
>>792
>array1とarray2の関係は、arrayとarray3よりも「近い」と判断したい
とかしか書いていないので、これが教師データだろ
妄想でデータ作って近いのかもしれないって馬鹿なの?
795デフォルトの名無しさん:2012/01/22(日) 19:49:40.14
いや質問者の意図自体が読み取り辛いのだからそこは仕方無いだろ
796デフォルトの名無しさん:2012/01/22(日) 19:56:38.02
>>793
>>776が評価関数の求め方を質問しているのならそうですね。

>>794
演習問題なら教師データさえ正しく判定できればOKですが、
実用なら「ユークリッド距離」が目的に合うとは限りません。
それを具体的な例で説明しただけです。
797デフォルトの名無しさん:2012/01/23(月) 00:13:51.39
質問者の意図が読み取りづらいのに正解だの間違いだの言ってるのが間違いで
まず質問者に質問の詳細を問うのが正解です
798デフォルトの名無しさん:2012/01/23(月) 11:17:17.98
お前らの脳も機械学習しろよ
799デフォルトの名無しさん:2012/01/23(月) 14:48:12.44
>>797
そこまで肩肘張らなくても
800デフォルトの名無しさん:2012/01/23(月) 21:52:43.20
この分野の優良企業ないかな?
社会人になっても研究とかしたいし
801デフォルトの名無しさん:2012/01/23(月) 22:20:20.59
>>800
極めたいならツールベンダーか、コンサル会社じゃないかな。両方兼ね備えてるところが多いけど。
あるいは立場をユーザー企業に向ければもちろん VOCとか、特許とか、様々な技術文書等の
本物のデータがあるよ。 ただ民間は決められた時間内で成果を出さないとならず、学術的な
仕事をするなら研究所をもってる所に行かないと厳しいだろうけどね。研究所とはいえ民間だから
成果の評価順は 製品への展開(技術移管)、特許活動、学会発表の順に低くなる。
802デフォルトの名無しさん:2012/01/23(月) 23:42:09.66
>>776
近似計算になるけどLSH.
803デフォルトの名無しさん:2012/01/24(火) 00:49:26.84
>>801
そっか〜やっぱり大学卒業すると厳しそうだね
アドバイスありがとう。
804デフォルトの名無しさん:2012/01/24(火) 11:32:02.18
>>801
会社の研究所は学校では無いからねぇ
金にならない特許なんて不良資産だし
805デフォルトの名無しさん:2012/01/26(木) 06:37:55.39
>>776自身が判断するなら、
大量のデータ用意して自分が学習するしかない。
「したい」ということは教師役も自分でやる。
806デフォルトの名無しさん:2012/02/03(金) 22:19:14.45
ナイーブベイズでテキストフィルタリングをしてるんですが辞書のデータの数が少ないほうに全て判定されてしまいます。
ちゃんと事前確率P(class)も掛け合わせて是正しているんですがP(class|words)の計算で既に差がつきすぎてるようで・・・
何か良い解決策はないでしょうか、よろしくお願いします
807デフォルトの名無しさん:2012/02/03(金) 22:41:28.32
>>806
P(class|word)じゃなくてP(word|class)だろ?
808デフォルトの名無しさん:2012/02/04(土) 01:19:37.36
>>807
そうです、訂正ありがとうございます
809デフォルトの名無しさん:2012/02/04(土) 02:35:21.47
>>806
補集合のやつ(Complement Nyve Bayes)使ってみたら?
2クラス分類なら意味ないけど.
810デフォルトの名無しさん:2012/02/04(土) 02:49:50.53
対数とってなくてオーバーフローしてるとかではないの

811デフォルトの名無しさん:2012/02/04(土) 06:04:33.97
add one smoothingって、時々そういうマイノリティ優遇に働くことがあるよな。
812デフォルトの名無しさん:2012/02/04(土) 06:06:47.89
>>810
それだと丸まって0.0になるから同点になるだけで、
小さなクラスが勝つことはないんじゃ?
813デフォルトの名無しさん:2012/02/04(土) 12:50:49.86
回答いただいた方ありがとうございます。
今回やっていることは文章から性別を判定させるという事で、
取り合えずデータの数を合わせると納得がいかない方法ですが一応偏った判定はしなくなりました。
>>809
2クラス分類なので使えなさそうですね・・・
でも一度読んでみますありがとう。
>>810
値も常に確認しているのでそれはないと思われます。
一応つたないコードですが間違いがありましたらご指摘いただくと嬉しいです。
http://codepad.org/BsdTrv9t
814デフォルトの名無しさん:2012/02/04(土) 21:31:49.62
>>813
add one smoothingで、+len(male) や +len(female)が小さいほうが有利になっている。
v = len(set(male.keys()+femail.keys()))
としておいて、+len(male)や+len(female)を+vに置き換えてみたら?
815デフォルトの名無しさん:2012/02/05(日) 14:04:54.80
>>814
修正しました、ありがとうございます。
一度データの数が少ない辞書を用意して確認してみます
816デフォルトの名無しさん:2012/02/06(月) 12:20:00.19
サンプルコードなんだろうけど
wordsでforを二回回してるのが気持ち悪い
817デフォルトの名無しさん:2012/02/11(土) 19:21:09.78
文系のプログラマなんですが質問です。
Excelファイルのデータクリーニングをしているのですが、名前の入力間違い(仲村と中村など)や入力形式が違う電話番号といったレコードが多く、データの紐づけに手間がかかっています。

機械学習を用いて解決できないでしょうか?

何か参考になるツールやサイトがあれば教えて頂けないでしょうか?
818デフォルトの名無しさん:2012/02/11(土) 20:14:34.38
いやです
819デフォルトの名無しさん:2012/02/11(土) 20:21:15.23
それは機械学習使うとこなんのか?
正規表現使う場面では?
820デフォルトの名無しさん:2012/02/11(土) 20:27:05.12
うんそれは機械学習を魔法の箱かなんかと勘違いしてる
泥臭く正規表現でやれるはず
821817:2012/02/11(土) 20:56:39.37
>>820
はい、勘違いしてました。ありがとうございます。
822デフォルトの名無しさん:2012/02/11(土) 21:02:52.10
機械学習でも正規表現でも無理。
仲村と中村の正解をどうやってするんだ?
本人の正しい漢字を知らなかったら無理。
紙のカードなどに書き出してデータにミスないか本人に確認して貰うとか手動が確実にいる。
すでに確認済の正しいデータがあればそれ使え。
823デフォルトの名無しさん:2012/02/11(土) 21:51:45.60
一方で電話番号はよっぽどのことがない限り置換(数字のみに)で済むと思う
824デフォルトの名無しさん:2012/02/11(土) 22:25:06.29
>>817
そういえば年金記録が損なわれたとき、修復は人手で行ったそうだし、
信頼性が必要ならそうするしかないのでは? 何したかを参考にするなら次のページ。

http://ja.wikipedia.org/wiki/%E5%B9%B4%E9%87%91%E8%A8%98%E9%8C%B2%E5%95%8F%E9%A1%8C
825デフォルトの名無しさん:2012/02/11(土) 22:55:22.70
03-0000-0000
03(0000-0000)
0300000000

これを同一判定したいなら泥臭く正規表現でいけるじゃないかな

中村まさお
仲村まさお

萬田次郎
万田次郎

これを同一判定するなら人手でhttp://ja.wikipedia.org/wiki/%E4%BA%BA%E5%90%8D%E7%94%A8%E6%BC%A2%E5%AD%97みたいな感じのデータを整備してマッピングするしかない
いずれにせよ「機械学習」に対して質問者が抱いているボンヤリとしたブラックボックスにデータを投げて解決する問題では無いと思います
826デフォルトの名無しさん:2012/02/12(日) 10:59:15.53
古典的な名寄せ処理
827817:2012/02/12(日) 11:08:48.17
皆さんありがとうございます。
的外れな質問だったのに、ありがとうございます。
828デフォルトの名無しさん:2012/02/12(日) 11:27:05.23
下げます。
829『2ちゃんねる』:海外からのデータマイニング?(2):2012/02/23(木) 19:50:19.59
>>36>>95に関連してです。

『Wikipedia』の「2ちゃんねる」を参照しました。
(以下一部引用)
『運営:2011年現在、主としてアメリカ合衆国カリフォルニア州
サンフランシスコ365 Main社運営のデータセンターにある、
Pacific Internet Exchange所有スペースにある約60台のサーバ群で運営されている。
OSにはFreeBSDを用い、数年にわたって改良が続けられてきた投稿を受け付ける掲示板システム群
(各ユーザはこれらの入っているサーバにアクセスする)と、各種ロギングや投稿チェック、
そして「実況」と呼ばれる最大で秒間数百以上にのぼる大量投稿を捌く…などの役割を与えられた
バックエンドシステムによって構成されている。』(以上引用)

>>95に関連して、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
http://infowave.at.webry.info/201010/article_2.html

盗聴法改正案が2011年に提出され、もし成立していれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

さて、ひろゆき氏がトラブル回避のために『2ちゃんねる』サーバーを手放したことは
日本国内『2ちゃんねる』ユーザーにとっていい影響がでているのか、それとも・・・?



830インターネットで個人情報の追跡ビジネスが急成長=WSJ調査:2012/02/24(金) 07:46:07.10
このような調査が掲載されていました。
『インターネットで個人情報の追跡ビジネスが急成長=WSJ調査』(下記)
http://headlines.yahoo.co.jp/hl?a=20100803-00000007-wsj-int
(以下引用)
「本紙が独自に調査を行った結果、インターネットで最も急速に成長している
ビジネスのひとつが、インターネット・ユーザーのスパイ事業であることが判明した。
(中略)
o消費者の追跡は一般に認識されているよりもはるかに広範囲かつ徹底的に行われている
ことが明らかになった。具体的には、以下の点が確認された。
o米国の上位50のウェブサイトが平均して64の追跡テクノロジーを、訪問者のコンピュータ
にインストールしている。ほとんどの場合、警告は行われていない。
追跡テクノロジーは、以前よりも高機能化し、深く入り込むようになっている。これまで
モニター行為には、ユーザーが訪問したウェブサイトを記録する「クッキー」ファイルが使用
されることがほとんどだった。本紙の調査によって、ウェブページ上でのユーザーの行動を
リアルタイムでスキャンし、アクセス場所、所得、買い物の嗜好(しこう)、さらには健康状態
までを即座に算定する新しいツールが使われていることが明らかになった。一部にはユーザーが
削除を試みても後で密かに復活するツールもある。
o これらの個人情報のプロファイルは、常に更新され、1年半ほど前に誕生した、株式市場の
ような取引所で売買されている。』(以上引用)

ライフログが売買されるようになると、個人情報保護法も無力化しますし、本来の目的も
失われます。下記参照してください。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

また、警察官や自衛官もプライバシーを無視してよいとは考えていないと判断してよいようです。
『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』
http://infowave.at.webry.info/201001/article_1.html

831デフォルトの名無しさん:2012/02/24(金) 08:07:14.52
うぜえ
832デフォルトの名無しさん:2012/02/25(土) 06:46:42.63
スレに常駐するキチガイさんです
833デフォルトの名無しさん:2012/02/25(土) 11:55:55.34
おすすめNGEX

TargetURL=0
TargetURLBody="2ch.net/test/read.cgi/tech/1286200810/"
Name=1
NameBody="デフォルトの名無しさん"
Mail=4
MailBody="^$"
Msg=0
MsgBody="http"
834【実証】つぶやきだけで個人の特定は可能:2012/03/21(水) 20:04:08.26
『つぶやきだけで個人の特定は可能?』URL↓
http://r25.yahoo.co.jp/fushigi/jikenbo_detail/?id=20120319-00023177-r25&vos=nr25nn0000001
(以下概要)
@お笑いサイトの「オモコロ」が、「つぶやきだけで個人を特定できるのか?」という企画に挑戦!!
                   ↓
A「渋谷なう」とつぶやいているアカウントを検索し、そのなかからさらに詳しい個人情報をつぶやいているユーザーを追跡。
                   ↓
B居場所、ファッション、持ち物などから「この人だ!」との確信を持ったら、「○○さん(アカウント名)ですよね?」と声をかける。
                   ↓
Cわずか1時間半で2人のツイッターユーザーを捕捉することに成功!!

835Twittwr Facebook Mixiと集団ストーカー:2012/03/21(水) 20:05:03.98
『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
http://infowave.at.webry.info/201108/article_1.htmlの参照おねがいします

※重要※ 「GPSを使った携帯を用いた場合」
携帯で撮った写真を携帯からMixiなどに投稿→写真に位置情報が記載されているので、自宅や職場から写真投稿すると
「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。

※重要※ 「GPSを使った携帯を用いた場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。

※重要※ 「TwittwerとFacebookやMixiを連携している場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)を流出させているだけで
なく、Facebookを通じてプロフィール等の情報も流出してしまう。
        ↓
        ↓
「集団ストーカー」の原因である個人のライフログ情報(プライバシー情報)流出の大きな
原因となってしまっている。

参考:『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
http://infowave.at.webry.info/201001/article_2.html

2011年9月20日にも同様の警告がされています。
『スマートフォンで自分の居場所がバレるサービス&アプリに気を付けろ!』
http://r25.yahoo.co.jp/fushigi/wxr_detail/?id=20110920-00021515-r25

個人的には現状Facebook Twittwer Mixiはしていません・・・。


836Facebookに内在する危険性が顕在化している:2012/03/21(水) 20:06:10.75
『フェイスブック、情報公開に注意…悪用の恐れ』読売新聞 2月25日(土)14時45分配信
http://headlines.yahoo.co.jp/hl?a=20120225-00000405-yom-sociを参照しました
(以下一部引用、個人名は****にしてあります。)
『「初期設定では、個人情報の公開範囲が『すべてのユーザー』となっている項目が多く、知らない間に自分の情報を
世界中にさらしてしまう人もいる」。日本IBMのシニア・セキュリティ・アナリスト****さん(38)はこう警鐘を鳴らす。
****さん自身も、昨年12月、過去の投稿や活動状況を簡単に時系列で閲覧できるサービス「タイムライン」を使い始めたところ、
これまで書き込みや写真投稿の際に登録した約500件の位置情報が地図上に一覧表示されてしまった。「いつ、どこで何をしたか簡単
にチェックできる。滞在回数の多さから自宅や勤務地域が予想できるので、ストーカーに悪用されかねない」海外ではフェイスブックの
情報が、就職前の学生の素行調査や、交際相手の浮気調査に使われたりしているという。「利用者は一度、自分のプライバシー設定を
見直した方がいい」と****さんは指摘する。「実名や所属、関心事などの様々な情報が入手できるため、特定の個人や組織を狙う標的型
のサイバー攻撃の『下調べ』に使われる恐れがある」と警戒するのは、情報処理推進機構・セキュリティセンターの****調査役だ。』
(以上引用)

『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
http://infowave.at.webry.info/201108/article_1.htmlの参照おねがいします

個人的には現状Twitter Facebook Mixiは使用していません。

837デフォルトの名無しさん:2012/03/22(木) 14:05:03.30
またかよ
838デフォルトの名無しさん:2012/03/23(金) 03:06:23.27
個人情報を情報量としてとらえれば、全員が互いの個人情報を晒していれば、
その情報が持つ価値なんて、すごく低いはずなんだけど
839デフォルトの名無しさん:2012/03/23(金) 08:54:14.38
TもFもmも情弱のツールだろ
840デフォルトの名無しさん:2012/03/23(金) 11:06:08.23
2chやってるやつが言うこっちゃないけどな
841デフォルトの名無しさん:2012/03/23(金) 11:26:16.42
漏れはVC6も現役
842デフォルトの名無しさん:2012/03/28(水) 21:27:37.97
shark machine learning libraryですが
ttp://sourceforge.net/projects/shark-project/files/Shark%20Core/Shark%202.3.4/
のwin32.exeをインストールしてvisual studio2010で
使用しようとしてもinternal errorが出ます.
shark.libはきちんと読み込めてるようなのですが.
なんのでしょう?
843デフォルトの名無しさん:2012/03/28(水) 23:20:12.53
ttp://shark-project.sourceforge.net/FAQ.html
ここをみるとVSでのtempファイルを削除しろとかサービスパック入れろとか書いてありますが
うまくいきません
844デフォルトの名無しさん:2012/03/28(水) 23:29:24.28
作者に聞けや
すごく今更なのですが>>776
http://wikiwiki.jp/cattail/?%CE%E0%BB%F7%C5%D9%A4%C8%B5%F7%CE%A5
のような形で解くものだと自己解決しました。
機械学習や自然言語処理に関する初歩的な質問をするのに適切な場所をご存知でしょうか。

一般的なプログラミングに関する質問なら「はてな人力検索」でかなり適切な回答を頂けるようですが、機械学習のような専門ジャンルとなると厳しい模様です。
実際機械学習に関する質問は10年でたったの4件のみで、しかも回答は「門外漢なのでよくわかりませんが〜」といった具合です。

全くの門外漢の文系卒社会人が機械学習を学ぶには独学でコツコツとテキストを読むしか無いのでしょうか。
ここじゃだめなのか?
>>846
大学に行くか独習できる程度に基礎を積むのがいいと思うけど
ヤフー知恵袋だったら答えてくれる人はいるかもね
849デフォルトの名無しさん:2012/04/13(金) 17:02:11.86
>>846
英語ができるならQuoraがいいんじゃない?
850デフォルトの名無しさん:2012/05/17(木) 23:08:13.94
webのような半構造データからの情報抽出(Information extract)に興味があります
該当する学術分野としては自然言語処理と機会学習という認識でよろしいでしょうか
また日本語の情報源があれば教えて頂きたいです
851デフォルトの名無しさん:2012/06/01(金) 20:13:28.00
始めまして。

サポートベクターマシンの、マージン最大化ってところで、分からないところがあるのですがどなたか分かりやすく教えていただけませんか?

マージンとは、分離平面をwx-b=0として、
min_i |wx_i -b| / ||w||
と定義するそうで、ここまではおkです。
本ではこの後、
「分離平面は全体を定数倍しても変わらないのでmin_i 1/ ||w||とできる」
とあります。
何でこんな式変形ができるのか分かりません。なんで全体を定数倍しても変わらなく、1になってしまうのでしょうか?
852デフォルトの名無しさん:2012/06/02(土) 02:17:04.04
>>851
> min_i |wx_i -b| / ||w||

のwと

>min_i 1/ ||w||

のwは定数倍された別物ね。
|wx_i -b| = 1
となるように、w , b を定数倍すると、
1/ ||w|| となる。
分かりにくかったらスマン

このページ見れば分かるかな
http://www.neuro.sfc.keio.ac.jp/~masato/study/SVM/SVM_2_2.htm

853hf:2012/06/06(水) 13:48:51.63
age
854デフォルトの名無しさん:2012/06/10(日) 17:07:47.96
855hf:2012/06/13(水) 17:24:05.82
大学は理系なんだけど情報系じゃなくて、機械系の卒業。今の仕事もIT系じゃない。
そんな自分が機械学習を速習するには、どういう方法がいいんだろうね?

ちなみに英語力はかなりあると自負してるので、Bishop本を読み始めた。だけど、すぐに
確率統計・行列演算の基本的なところでつまづいて、そっち方面の日本の大学の
教科書を読み始めた。機械系って、微積はかなりやるんだけど、確率統計・行列ベクトル
なんかは、あまりやらないんだよね。

なんか、お勧めの本とかあったら教えて。
ちなみに、興味の中心は、ウェブからの情報抽出と整理(aggregation)。
856デフォルトの名無しさん:2012/06/13(水) 18:00:07.84
板違い
857デフォルトの名無しさん:2012/06/13(水) 18:01:15.66
たぶん、いまさらやっても遅いよ。
確率統計や行列ベクトルの習得には時間が掛かりすぎる。
それらを完全にマスターし終えたころには10年くらいたっているだろうね。
だからすぐ分かるとかやさしいとか書いてある奴がいいと思うよ
858デフォルトの名無しさん:2012/06/13(水) 18:38:07.64
書籍読む->それを踏まえてプログラム組む
これのループでいいんじゃないかと。
859デフォルトの名無しさん:2012/06/13(水) 21:32:32.03
>>855
- これなら分かる応用数学教室
- これなら分かる最適化数学
- ニューメリカルレシピ・イン・シー
- はじめての統計学
- わかりやすいパターン認識
- 情報検索と言語処理
- 言語と計算 (4) 確率的言語モデル
- PRML
- 言語処理のための機械学習入門
- 日本語入力を支える技術
860デフォルトの名無しさん:2012/06/13(水) 23:35:01.91
機械学習って、学習によって何をしたいんだろう。。。
個々の手法や知識なんていきなり網羅しようとせずに必要に応じて逐次勉強すればいいのに。
861デフォルトの名無しさん:2012/06/14(木) 10:47:28.09
基礎として線形代数/解析学/数値計算/数理計画/統計学がないと
機械学習に入れないでしょ
862hf:2012/06/14(木) 11:26:51.58
>>859
ありがとうございます。「わかりやすいパターン認識」は買いましたよ。
読んだのは途中までですけど。

確かに数学の基礎は必要なんで、復習してます。いくら大学が機械系っていっても、
高校は理系だから、確率統計なら検定、行列なら逆行列や固有値の計算ぐらい
まではやりましたよ。もう殆ど忘れちゃったけど。
863デフォルトの名無しさん:2012/06/14(木) 13:37:26.72
機械学習を勉強するならそんな実用数学じゃだめだよ。
確率もルベーグ積分から理解しないといけないし、
線形代数も抽象代数の立場から理解しないといけない。
結論をいうとお前には無理
864デフォルトの名無しさん:2012/06/14(木) 14:19:41.24
大学でやらなかっただけで一生できないほど難しくはないだろ
一流研究者を目指すと言っているわけではないし
865デフォルトの名無しさん:2012/06/14(木) 14:25:12.61
>>863
君はそのどれも理解していないことはよくわかった。がんばれ。
866デフォルトの名無しさん:2012/06/14(木) 14:28:08.99
開始数ページでsigma-fieldとか出てくる
本気で殺りに来てる確率論の基礎本で勉強すべき
867デフォルトの名無しさん:2012/06/14(木) 14:40:43.48
へー、そんな基本的な事も分からない人がいるんだ。
868デフォルトの名無しさん:2012/06/14(木) 14:55:00.06
そう難しく考えなくても研究者になるわけでないならできるよ。
てか、あれこれ言ってるのってバカな連中。
869デフォルトの名無しさん:2012/06/14(木) 15:52:16.38
機械学習そのものを研究して論文通すのが目的じゃないんだから質問者の立場を考慮しようよ
無駄にハードル上げて「無理」連呼とかちょっと意味がわからん

>>855
半構造化データからの情報抽出に機械学習が必要だけど、あくまで要素技術の一つにしか過ぎない
情報系の学科卒じゃないのなら機械学習よりも情報検索(IR)系の基礎を先に学んだ方がいいかと
あと英語できるなら http://www.amazon.co.jp/dp/3642194591/ がお勧めですね
webからの情報抽出に特化した本で機械学習についても一通り触れられている
870デフォルトの名無しさん:2012/06/14(木) 21:03:45.08
機械学習そのものに数学は必要ない
効率や収束速度や他の機械学習との比較を議論するときに数学が必要になる
871デフォルトの名無しさん:2012/06/14(木) 23:04:34.11
>>870
それは言いすぎだろ

872デフォルトの名無しさん:2012/06/14(木) 23:20:17.86
機械学習を利用するだけなら数学は必要ないでしょ
適切な学習機が選択できれば十分
あとは素性をなめらかにするためにsqrtするとかlogとるとかそういうノウハウで十分
873デフォルトの名無しさん:2012/06/15(金) 01:44:06.89
「機械学習そのもの」を「機械学習を利用するだけ」と読めというのは無理があるだろ
874hf:2012/06/15(金) 14:26:47.53
>>869
>>半構造化データからの情報抽出に機械学習が必要だけど、あくまで要素技術の一つにしか過ぎない
確かにその通りで、一般的な機械学習の教科書に書いてある方法だけでは、半構造化データからの
情報抽出は、できないですよね。機械学習の上に、Information retrievalのひと工夫が必要と言うか。

初めは"information retrieval"とか"information extraction from semi-structured data"とかの
キーワードで、Google Scholarで論文検索して読んでました。ただ、こういうのを読んでても、
やっぱり機械学習とかパターン認識の話は出てくるんで、基礎の数学のところからやり直してます。

道のりは長いなあ…
875デフォルトの名無しさん:2012/06/15(金) 17:32:53.49
中身の原理はまずは置いておいて、とりあえず機械学習を浅く広く触ってみる。
どういうデータを投げるとどういう成果が出るのか、実際に機械学習ライブラリを使って遊んでみる。

そうするとHTMLのような半構造化データをそのまま機械学習に投げられないことに当然気がつく。
つまりどういう「前処理」をしなければならないかがボンヤリ見えてくる。
この前処理には色々な要素技術が絡んできて、機械学習を使う前の段階でかなりの労力が必要だと愕然とするはずです。
なのでビショップ本などで機械学習の本質の勉強を先にやるより、まず他にどういう技術が必要なのかという全体像を把握することをお勧めします。
その上で機械学習が重要だと思ったらそこを掘り下げるとか、自然言語処理をメインでやるとか、道が色々と開けてくるのではないでしょうか。
876デフォルトの名無しさん:2012/06/16(土) 13:37:45.88
FOILとかニューラルネットも作るだけなら数学は一切必要ない
おそらく最初に考えた人も手順だけ考えて数学は使ってなかったと思われる

数学がなければできない機械学習はベイズ分類機とサポートベクトルマシンとカーネルメソッドくらいではなかろうか
877デフォルトの名無しさん:2012/06/16(土) 13:40:24.11
普通のベイズもSVMも数学なんていらねーよ。
適用するだけでも本気で数学が要るのはノンパラベイズぐらいだ。
878デフォルトの名無しさん:2012/06/16(土) 14:08:51.87
最初の数学必須、しかも今からでは無理という論調からかなり変わってきたな。
最初のやつが研究と利用をごっちゃにして語っただけだったのだろうが。
879デフォルトの名無しさん:2012/06/16(土) 14:11:03.09
CGの絵を書くアーティストが幾何学とか分からなくてもいいって
同じ意味だろうな。
でもそれじゃあ本当の自分の描きたい絵は掛けないだろう。
880デフォルトの名無しさん:2012/06/16(土) 14:12:17.05
こんなところで「本当の」とか女子高生が使うような使い方に出会うとはな。
881デフォルトの名無しさん:2012/06/16(土) 14:21:11.69
本当のは普通のオッサンでも使うだろう。
882デフォルトの名無しさん:2012/06/16(土) 14:22:32.01
むしろ、数学が必須なのは研究よりも利用の方ではなかろうか
一番はじめに手続きを提案するだけなら、数学は必要ない
883デフォルトの名無しさん:2012/06/16(土) 14:52:52.59
本当のは誰でも使うだろう。
使い方は違うことがよくあるね。
884デフォルトの名無しさん:2012/06/16(土) 17:26:28.94
ではリーマン幾何がわからないとどんな絵が描けないのか、
>>879にキッチリ語ってもらおうかw
885デフォルトの名無しさん:2012/06/16(土) 17:34:59.43
幾何学がないと描けないじゃなくて、幾何学を使えば対称性という一面を解釈できる、というのが正解でしょう
886デフォルトの名無しさん:2012/06/16(土) 22:04:48.75
ニューラルネットでも勾配はいるし
微分積分が分かってないと無理だろ
887デフォルトの名無しさん:2012/06/17(日) 07:22:55.32
ニューラルネットを使うだけなら微積なんて関係ないよ。
888デフォルトの名無しさん:2012/06/17(日) 11:09:33.51
>>887
>>886 >>876
はどう見ても使うだけの話ではないが
まだ使うだけの話をしていたのか
889デフォルトの名無しさん:2012/06/17(日) 11:48:12.21
>>876は明らかに「使うだけのほうが数学が必要」という主旨なのが
理解できない程度の頭脳を持つ>>888がニューラルネットを理解でいているか
非常に疑問である。
890デフォルトの名無しさん:2012/06/17(日) 16:03:20.96
>>887
ベタなニューラルネットで数学が必須なのは、使う場合だけ

単に作るだけなら数学は必要ない
そもそもニューラルネットは脳をモデル化したモノなんだから

使う場合には、解空間の構造から次元の呪いまで理解してなければ解が出てこなくて、その理解には数学が必要
891デフォルトの名無しさん:2012/06/17(日) 16:08:10.58
次元の呪いなんて別に数学がなくても直感でも理解できる
アホ?
892デフォルトの名無しさん:2012/06/17(日) 16:48:19.29
ニューラルネットって何のこと言っているんだ?
多層パーセプトロンはBackpropagationに微分がいるし
自己組織化マップはベクトル空間上で距離が計算できないといけないだろ
どこまでが数学と言っているのか分からないが
893デフォルトの名無しさん:2012/06/17(日) 16:53:23.42
>>891
次元の呪いは、数学と直感がかなり異なる部分
実時間で使える解を求めようと思ったら絶対に数学が必要
894デフォルトの名無しさん:2012/06/17(日) 16:58:16.52
へー、次元の呪いって計算コストのことだったのかー(棒読み
895デフォルトの名無しさん:2012/06/17(日) 17:05:19.50
>>892
Backpropagationの微分は、極小値に効率よく落ちる方向を見つけるために使ってるだけだから、微分が必須というわけではない

自己組織化マップで必須なのは距離の計算ではなく、衝突判定
距離ε以下を衝突と定義したときに実用上有益なら距離の計算をする
男子便所で隙間をあけて便器を使うときに距離の計算をしているわけではない
距離を使わずに If-Then ルールだけでも自己組織化マップを構成できる
896デフォルトの名無しさん:2012/06/17(日) 17:10:42.25
>>894
次元の呪いが影響するのは、計算コスト(時間、空間)と収束性(必要なサンプル数)と解の形(解の頑強性)
897デフォルトの名無しさん:2012/06/17(日) 17:30:32.04
落ちるりんごが物理演算をしているわけではないと言うタイプの馬鹿か?
コンピュータで計算する場合に必要だろ
898デフォルトの名無しさん:2012/06/17(日) 17:43:23.50
リンゴが落ちるシミュレーションに数学が必要とか言うタイプのバカがいるねw
899デフォルトの名無しさん:2012/06/17(日) 17:43:28.91
>>897
代入以外の算術演算子が一切ないPrologのソースファイルをコンパイルしてそれを実行することを数学と呼ぶのなら、確かに数学は必要ですけど
900デフォルトの名無しさん:2012/06/17(日) 17:47:37.62
ニューラルネットに学習させるのに数学なんて必要ないよ。
むしろ学習対象の知識を使ってどうやって従属因子を減らすか
そっちのほうがずっと大事だ。
901デフォルトの名無しさん:2012/06/17(日) 18:04:18.42
>>899
ならそれを書いてうpしてみてよ
既に存在するならその情報でもいいよ
902デフォルトの名無しさん:2012/06/17(日) 18:24:33.01
自己組織化マップなら衝突判定するから、代入以外にも == か =/= が必要です
ニューラルネットなら、配列アクセスで次の要素にアクセスするために +1 が必要です

== や配列の次の要素を取り出すための +1 が必要なので機械学習には数学が必要です
903デフォルトの名無しさん:2012/06/17(日) 19:38:01.17
それ恐ろしくつまんない
904デフォルトの名無しさん:2012/06/17(日) 19:44:50.97
数学を使ったほうが効率的なら数学を使ったほうがいいだろ
905デフォルトの名無しさん:2012/06/17(日) 20:21:15.16
使うだけなら数学はいらない。
その方法が有効であることを説明したり、
よりよい方法が無いかを探るために数学的表現に直して解析する段で初めて数学が必要となる。
906デフォルトの名無しさん:2012/06/17(日) 22:08:39.23
おまいら喧嘩すんなよ
907デフォルトの名無しさん:2012/06/17(日) 22:56:07.75
>>905
「使うだけ」にどこまで含まれているの?
数学を使わずに機械学習を使う手順を具体的に示してみて
908デフォルトの名無しさん:2012/06/17(日) 23:03:52.52
ぐぐって、似たような問題を解いてるコードをコピペして修正する
909デフォルトの名無しさん:2012/06/17(日) 23:55:13.82
最初は、理系で工学部機械科卒業レベルの数学は持ち合わせているがそれ以上に勉強する必要を本人は感じた。
次に、機械学習ぐらいしか能のない馬鹿が数学は必須であり、今更上記人物は無理であると唱えた
その後使うだけなら対して数学の知識を必要としないとなった。
この時点で、数学の知識はどの程度は必要で、その場合どこまでできるとか議論ががないんだがな。
西暦何年卒の高校レベルならとか大学でこれこれこういう科目を理解してるのを前提とかさ。
910デフォルトの名無しさん:2012/06/18(月) 00:41:32.25
>>907
例えばlibsvmを使って分類する場合
・素性と教師データを用意します
・svm_trainで学習してモデルを作ります
・サンプルとモデルを使って分類します
おしまい

分類機の使い方を知っている必要があるけど
少なくとも数式を頭に浮かべる必要は全くない
これが「使うだけ」

よりよく使うなら素性を0〜1にスケーリングしたり
平坦になるようにlogをとったりするけど、数学と言うよりノウハウだな
数字を使ったものはすべて数学だというなら、まぁそうなんだろうなw
911デフォルトの名無しさん:2012/06/18(月) 02:59:30.53
>>910
「作るだけ」なら不要と言っている人と違うのか
912デフォルトの名無しさん:2012/06/18(月) 11:55:56.89
>>911
何が知りたいのかよくわからないけど

OSの知識がなくてもWindowsは使えるでしょ?
必要なのはWindowsの使い方だけ
数学の知識がなくても機械学習は使えるのよ
必要なのは機械学習の使い方だけ

同じだと思うよ
913デフォルトの名無しさん:2012/06/18(月) 13:22:11.02
いいかげん言葉遊びやめたら?
914デフォルトの名無しさん:2012/06/18(月) 13:42:46.21
キチガイは
>結局どんなものが出てきても文句言ってるっていう気がする。
だよな。
もう、自分や自分の会社で文句でないの作れだよな
915デフォルトの名無しさん:2012/06/18(月) 15:38:57.03
>>912
マウスがクリックできればどんなボタンも押せるよな
916デフォルトの名無しさん:2012/06/18(月) 16:44:31.51
だがマインスイーパは難しい。
どんなに機械学習させても運に頼る部分が出てくる。
機械学習しなくても確率は計算できるけど。
917デフォルトの名無しさん:2012/06/18(月) 17:23:29.59
麻雀と一緒だな
918デフォルトの名無しさん:2012/06/18(月) 19:02:07.24
いやいや麻雀こそ機械学習が有効な分野。
麻雀は心理の面が大きく、ラプラスの原理では計れない。
人間は状況によってリスクを過小評価したり、過大評価したりする。
統計を取れば必ず似たような心理的傾向が炙り出されるはず。
機械学習でアカギレベルまで相手の捨配が読めるかもしれない。
919デフォルトの名無しさん:2012/06/18(月) 19:54:05.35
作るだけなら数学は必要ない → 現実の学習モデルをモデルとして提示するときに数学は必要ない
使うだけなら数学は必要ない → 学習にかかる時間や解の妥当性をガン無視するなら、頭からっぽにしてググッて出てきたプログラムをサイコロ振って選んで使えばいい
920デフォルトの名無しさん:2012/06/18(月) 20:27:46.66
>>919
現実の学習モデルって何
921デフォルトの名無しさん:2012/06/18(月) 20:32:14.38
>>919
全然違うw
おまえ、MLド初心者だろ。

作るだけなら数学は必要ない:
性能評価せずに単にメモリベースに毛が生えた程度のオレオレ学習器を実装するだけなら数学は必要ない

使うだけなら数学は必要ない:
実績のあるライブラリを使って学習するだけなら、とりあえずの使い方と素性選択ができれば十分。
使い方を理解するのに数学は必要ないし、素性選択は学習対象に関する知識と試行錯誤のノウハウだけ。
922デフォルトの名無しさん:2012/06/18(月) 20:35:58.83
>>920

現実の学習モデル: 脳のパーセプトロンのネットワーク、  提示するモデル: ニューラルネット
923デフォルトの名無しさん:2012/06/18(月) 20:43:16.47
>>921
作るときには、性能評価もメモリベースのような実装も提示する必要はない
学習理論ではないが、これの一番極端な例がクイックソートを提案した論文

使うとはただ単に動かすということではなくて、解(汎関数)を求めるということだから、解の妥当性を検証するには学習対象に関する知識と試行錯誤のノウハウだけでは無理
924デフォルトの名無しさん:2012/06/18(月) 22:47:28.56
>>923
使用者の目的が満たされれば、それば十分使えていると言えると思う
万人が厳密に解の妥当性にこだわっているわけではない
感覚的にだいたい8割くらいあっていてくれれば十分という人だっているんだよ
たぶん研究者なんだろうけど、誰もが自分と同じものを求めているとは考えない方が無難かと
925デフォルトの名無しさん:2012/06/18(月) 23:38:37.78
ポインタとかスタックがわからない人でもプログラムが組めるようになった
数学わからないし学習器の仕組みもよくわからない人でもライブラリを使って機械学習使えるようになった

両者とも似た構図だと思うし、どちらも好ましいことだと思う
926デフォルトの名無しさん:2012/06/19(火) 00:38:07.12
>>922
脳は機械ではないし脳とニューラルネットワークの差は大きすぎだろ
工学モデルとしてのニューラルネットワークを提示する必要があると思うが
927デフォルトの名無しさん:2012/06/19(火) 01:39:09.05
そんなオカルトあり得ません!
928デフォルトの名無しさん:2012/06/19(火) 03:18:27.90
>>921
メモリベースでもベクトルの距離や類似度が必要だろ
929デフォルトの名無しさん:2012/06/19(火) 19:47:26.08
>>926
モデル=単純化して注目したい部分のみを抽象化して分かりやすくしたもの だから現実のモデルと実装とどんなに差が大きくても問題ない
930デフォルトの名無しさん:2012/06/19(火) 21:09:27.34
機械学習でホワイトカラーは削減するとか言ってたけど、具体的な道筋はあるんですかね?
931デフォルトの名無しさん:2012/06/19(火) 23:58:07.79
>>923
汎関数化が必要なのは研究屋かマイニング屋ぐらい。
機械学習の応用のうち極一部だよ。
ほとんどの応用では、およそそれっぽい推定ができれば十分。
932デフォルトの名無しさん:2012/06/19(火) 23:59:45.85
>>928
たかがベクトルの内積を求めるのに、>>861のうちどれだけが必要よ?
933デフォルトの名無しさん:2012/06/20(水) 13:44:36.89
>>929
なら全く関係ないものを提示してもいいのか
934デフォルトの名無しさん:2012/06/20(水) 21:41:31.58
>>931
機械学習の出力はほとんどすべてか汎関数
ルールベースシステムのif-thenルールも汎関数
935デフォルトの名無しさん:2012/06/21(木) 19:12:09.17
だからさあ、汎関数そのものを取り出す必要がある応用は少ないっての。
ほとんどの応用は推定した汎関数を評価できればいいの。アホ?
936デフォルトの名無しさん:2012/06/21(木) 21:13:58.54
>>935
逆に聞きたいけど、学習結果が汎関数じゃない機械学習って何があるの?
937デフォルトの名無しさん:2012/06/21(木) 22:12:00.43
よくわからんが、たとえばSVMの学習結果は分離超平面だけど、
これは汎関数とみなせるの?
938デフォルトの名無しさん:2012/06/21(木) 22:33:22.69
>>937
SVMの学習結果は、入力に対して出力(の集合、T or F)を出す関数、またはその関数を表現する関数だから、汎関数
939デフォルトの名無しさん:2012/06/21(木) 22:38:28.07
>>938
> >>937
> SVMの学習結果は、入力に対して出力(の集合、T or F)を出す関数
これはわかる。

> またはその関数を表現する関数だから、汎関数
これはよくわからない。
「関数を表現する関数」ってどういうこと?
「汎関数」は「関数を引数に取る関数」だけど、それと同じもの?
940デフォルトの名無しさん:2012/06/21(木) 22:53:29.28
>>939
「表現する」とは、何かを何かに対応(変換、写像、写像、射、ただの対応)させること
exp関数を定義域R値域{T,F}の関数に表現する対応は、exp関数を受け取り定義域R値域{T,F}の関数を出力する汎関数
941デフォルトの名無しさん:2012/06/21(木) 23:01:39.84
>>840
というか、関数はすべて汎関数
sin(x) = sin(id(x))
id(x)=1*x
942デフォルトの名無しさん:2012/06/21(木) 23:28:40.03
SVMの出力が定める分離超平面がx+y=cだったとして、これは具体的にどういう汎関数とみなせるのでしょう?
943デフォルトの名無しさん:2012/06/22(金) 00:57:51.21
単なる整数でもチャーチ数表現すれば汎関数になる。
あらゆるものは汎関数とみなせる。
944デフォルトの名無しさん:2012/06/22(金) 01:32:00.99
>>941
おいおい、焦るなよ。
俺じゃないだろ。
945デフォルトの名無しさん:2012/06/22(金) 22:10:04.91
>>942
F(y) = {T : y >= c, F : y < c}
y = -x+c
946デフォルトの名無しさん:2012/06/23(土) 17:23:53.61
結局、機械学習に数学は必須キリリリリッ!!!とか言ってたアホがど素人だったという結論か。
947デフォルトの名無しさん:2012/06/25(月) 12:41:52.46
僧も含めて尤度関数の最大値がなぜ尤もらしいのか説明してある
本は皆無だな。
そうゆうものなんですねで終わらせる人ばっかなんだろうな。
948デフォルトの名無しさん:2012/06/25(月) 13:23:04.09
>>947
尤度の定義から考えれば当たり前だからだろ
949デフォルトの名無しさん:2012/06/25(月) 21:21:22.93
>>947
その定義で尤もらしいと思わなければ、別の尤度を定義しろってことじゃないの?
950デフォルトの名無しさん:2012/06/25(月) 21:36:00.70
>>947
最尤推定の本読めば
951デフォルトの名無しさん:2012/06/26(火) 03:04:49.79
尤もらしさを数値化するための手段に対して目的が分からない?
952デフォルトの名無しさん:2012/06/28(木) 11:28:12.72
尤度が分からない人は角度とか温度とかも分からないんじゃね?
953デフォルトの名無しさん:2012/06/28(木) 17:40:04.95
まず読み方を教えてください。
954デフォルトの名無しさん:2012/06/28(木) 18:12:45.78
いぬど
955デフォルトの名無しさん:2012/06/28(木) 18:13:41.34
イヌっぽいど
956デフォルトの名無しさん:2012/06/28(木) 18:26:16.59
ナル度
957デフォルトの名無しさん:2012/06/28(木) 21:34:02.19
もっど
958デフォルトの名無しさん:2012/06/29(金) 09:46:38.44
ぬるぽ
959デフォルトの名無しさん:2012/06/29(金) 10:44:51.90
もうすぐ七月
960デフォルトの名無しさん:2012/06/29(金) 13:25:00.12
>>958
ガッ
961デフォルトの名無しさん:2012/07/01(日) 09:01:15.12
尤度関数を作るとは確率のモデルを作るのと同じ。
事前分布が一様ならそのモデルから生成されるサンプルで最も多いのが最尤推定値のもの
962デフォルトの名無しさん:2012/07/01(日) 14:17:38.64
>>961
サンプル数が最も多いとは限らない
まったく同じサンプルがいくつも入ってる場合を考えれば分かる
963デフォルトの名無しさん:2012/07/01(日) 22:55:06.08
>>962
じゃもっと分かりやすく説明してくれ
964デフォルトの名無しさん:2012/07/02(月) 02:33:56.77
>>962
だから、事前分布が一様って前提つけてるんでしょ
965デフォルトの名無しさん:2012/07/02(月) 12:12:23.82
そういうときは窓関数を使う
966デフォルトの名無しさん:2012/07/02(月) 17:34:19.90
デマのお勧めツールは、もちろんフリーで
967デフォルトの名無しさん:2012/07/06(金) 13:32:20.10
僧の一問目解けないと思って答え見たら
必要条件だったのね。
無駄な時間をすごした。
968デフォルトの名無しさん:2012/07/15(日) 01:29:58.65
皆さんプログラミング言語は何がお気に入り?
なんとなく周りみてるとPython/Javaが多い気がする
969デフォルトの名無しさん:2012/07/15(日) 12:37:40.93
RDBを使うときに一番ストレスがないのがJavaだから、仕方なくJavaを使ってる
970デフォルトの名無しさん:2012/07/15(日) 13:01:15.92
勉強会等で人と共有する機会が多いコードはPython。データマイニング用ライブラリとの
バインディングの豊富さも優れる。自分はメインはOracle RDBMS上での開発なので
そういう部分はネイティブなPL/SQL や 慣れているPerl を使う。
今後 Apache Hadoop の枠組みを使う方向なので Java を勉強したい。
971デフォルトの名無しさん:2012/07/15(日) 13:45:41.61
PythonやJavaはよいライブラリが揃ってるからな
俺はC/SIMD/OpenMPで書いてる
NumPyのRuby版があればRubyで書きたい
972デフォルトの名無しさん:2012/07/15(日) 22:59:00.20
計算速度のみを追求するよりは他の側面を重視した方が機械学習的にはいいですよね
計算科学専門の人からなんでPython?とかたまに言われてモヤモヤしてた
973デフォルトの名無しさん:2012/07/16(月) 08:40:39.90
そのひとはPython知らないだけかと
974デフォルトの名無しさん:2012/07/16(月) 22:21:11.23
>>973
一般向けの機械学習の本のサンプルコードがPythonばっかりだから、「なんでPython?」といつも思う
Pythonが機械学習に不向きという意味ではなく、「Python以外じゃダメだったの?」という意味
975デフォルトの名無しさん:2012/07/17(火) 00:14:46.76
pythonはグルー言語的な使い方なんじゃないかな。
当然、ライブラリ以外の部分もネイティブの方が速いけど
976デフォルトの名無しさん:2012/07/17(火) 07:57:19.82
Pyはアメリカの大学で「これが教育用の標準」と推す勢力があるし
ライブラリの充実でほぼ既成事実化してきたからなあ
977デフォルトの名無しさん:2012/07/17(火) 10:27:02.68
>>974
Matlabが多くない?
978デフォルトの名無しさん:2012/07/17(火) 12:55:55.03
画像系だとMATLABが多いな
NumPyもMATLABも行列計算などをよく最適化されたネイティブなライブラリで実装しているから
呼び出す側が遅くても全体的には遅くならない
ただMATLABは実験以外で使えないだろ
979デフォルトの名無しさん:2012/07/19(木) 19:18:47.14


           ゙'.    '.;`i  i、 ノ  .、″
             ゙'.     ,ト `i、  `i、    .、″
                |    .,.:/""  ゙‐,. `    /
             `  .,-''ヽ"`    ヽ,,,、   !
                、,、‐'゙l‐、      .丿 : ':、
               、/ヽヽ‐ヽ、;,,,,,,,,,-.ッ:''`  .,"-、
              ,r"ツぃ丶  ``````   ../  `i、
          ,.イ:、ヽ/ー`-、-ヽヽヽ、−´    .l゙`-、
         _,,l゙-:ヽ,;、、             、、丶  ゙i、,,、
        ,<_ l_ヽ冫`'`-、;,,,、、、、.............,,,,、.-`":    │ `i、
      、、::|、、、ヽ,、、.    ```: : : ```      、.、'`  .|丶、
     .l","ヽ、,"、,"'、ぃ、、,、、、、.、、、.、、、_、.,,.ヽ´    l゙  ゙).._
    ,、':゙l:、、`:ヽ、`:、  : `"```¬――'''"`゙^`     : ..、丶  .l゙ `ヽ
   ,i´.、ヽ".、".、"'ヽヽ;,:、........、           、、...,,,、−‘`   、‐   |゙゙:‐,
  ,.-l,i´.、".`ヽ,,,.".`   `゙゙'"`'-ー"``"``r-ー`'":      _.‐′  丿  ,!
 j".、'ヽ,".、".、"`''`ー、._、、、           、._,、..-‐:'''′   .、,:"  丿
 ゙l,"`"`''ヽヽ"`"`  ```゙'''"ヽ∠、、、、ぃ-`''''": `      、._./`  ._/`
  `'i`ヽヽヽ`''ーi、、、: :                   、.,-‐'`   、/`
   ``ヽン'`"`  : `~``―ヽ::,,,,,,,,,,.....................,,,,.ー'``^    ,、‐'"`
      `"'゙―-、,,,,..、、               : ..,、ー'"'`
           : `‘"`―---------‐ヽ``"''''''""
980デフォルトの名無しさん:2012/07/19(木) 21:38:33.88
RDBMSと日本語文字列の扱いが充実してるからJavaを使っている
pythonも充実してるならpythonを使いたい
981デフォルトの名無しさん:2012/07/19(木) 22:34:36.18
この分野すげー大事だと思う
大学文系なんてうんこだったなあて思う
理系いけばよかった
982デフォルトの名無しさん
----- ここまでscikit-learnの話題ゼロ -----