Data Mining (データマイニング) part 1

1 ：名無しさん＠３周年：04/11/24 20:47:23

ちょっくら語ってみろや

2 ：名無しさん＠３周年：04/11/24 21:03:16

おい、誰か2 ゲットしろよ!

3 ：名無しさん＠３周年：04/11/25 01:07:37

誰も書き込みしてくれないなんて。。。
　　　　　　　　　　　　/ヽ　　　　　　 /ヽ
　　　　　　　　　　　　/　ヽ　　　　　 /　ヽ
　　＿＿＿＿＿＿ /U　ヽ＿＿＿/　　ヽ
　　|　＿＿＿＿　／　　　U　　　　:::::::::::U:＼
　　| |?/// /Vヽ /／＿__　　　＼　　::::::::::::::|　　何このスレ…？
　　| |?ｌｌｌｌﾉﾉﾉ))〉|　　|　　 |　　　　　U :::::::::::::|
　　| |ヽｌ ´∀｀ﾉ|||U　|　　　|　　　　　　::::::U::::|
　　| ||/ヽ!ﾄv^　ﾘ?|　├―-┤　U.....:::::::::::::::::::/
　　| |＿＿＿＿　ヽ　　　　　.....:::::::::::::::::::::::<
　 └＿＿＿／￣￣　　　　　　:::::::::::::::::::::::::|
　　|＼?　　　|　　　　　　　　　　　:::::::::::::::::::::::|
　　?＼＼?　＼＿＿＿　　　　　?::::::::::::::::::::::::|

4 ：名無しさん＠３周年：04/12/20 01:09:12

あげ

5 ：名無しさん＠３周年：04/12/20 19:37:39

「part 1」の文字が寂しく輝いてますね。

6 ：名無しさん＠３周年：04/12/24 01:50:04

21世紀はデータマイニングの時代だ。
とかは思わないので、地味に重回帰分析と多変量解析の勉強だけします。

7 ：名無しさん＠３周年：05/01/12 20:42:35

http://japanese.chosun.com/site/data/html_dir/2005/01/12/20050112000001.html

米紙「韓国テレビスターが日本の寄付文化を変えた」

8 ：名無しさん＠３周年：05/01/15 13:58:26

実務の世界でデータマイニングとはただの集計技術を言います。
クロス表でいっぱいいっぱいです。馬鹿ばっかりですから。

9 ：名無しさん＠３周年：05/01/30 03:42:29

変数選択の極意とは？教えてくれや

10 ：べべ：05/02/01 00:45:56

やっぱニューロだろ。

貧乏人は、重回帰と赤池ＡＩＣの組合せでがまんしな。
数学音痴の文系はＳＯＭがいいかな。

11 ：名無しさん＠３周年：05/02/02 22:49:11

>>10
だってさ、レコードが100万くらいで、フィールドがさぁ、7千くらいかな。
ニューロなんかしたら、、、いつ終わるか、、。５千くらいでランダムで拾ってもさ、
意味があるのかなぁ。ふあんだぁ。

12 ：名無しさん＠３周年：05/02/04 23:52:13

決定木のboostingが最強！
>>10 “赤池AIC”じゃ“頭痛が痛い”にならないか？

13 ：名無しさん＠３周年：05/02/15 23:26:52

盛り上がってないな！

14 ：名無しさん＠３周年：05/02/17 02:58:39

データマイニングが研究できる大学で有名なところってどこですか？

15 ：名無しさん＠３周年：05/02/17 20:22:04

カーネギーメロン、ペンシルバニア大学とかだよ。でもさ、商業系のデータマイニングと
機械系とか分野がわかれるよ。

16 ：名無しさん＠３周年：05/02/18 00:42:18

すみません。今高校２年なのですが、本を読んでデータマイングに興味を
持ちました。商売に使う印象を受けたのですが、日本の大学で研究しているところはありますか。

17 ：ぼるじょあ ◆yBEncckFOU ：05/02/20 08:58:36

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　∧＿∧　 ∧＿∧　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
ﾋﾟｭ.ｰ　（　・３・） (　　＾＾）＜これからも僕たちを応援して下さいね（＾＾）。
　　＝〔~∪￣￣￣∪￣￣〕　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　＝ ◎――――――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉&ぼるじょあ
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

18 ：名無しさん＠３周年：05/02/20 19:53:26

>>16
学ぶより、WEKAで遊べ！
これが使いこなせれば、様々な応用分野における分析者として一人前になれるはず
その気になればJAVAのソースを読む事だってできるから、下手な講義を聴講するより
身につくはず
もしも、上記を試し学者としてデータサイエンス理論や分析手法を極める気があるなら、
最低でも博士過程（ｘｘ先端技術大とか統数研（？）あたり）に進む必要がある。
学問としては未だ二流扱いなので、やはりKDDで論文発表をするのが王道だ

19 ：山.崎渉：05/02/22 19:16:51

...これからも僕を応援して下さいね（＾＾）。　　　
　　
━―━―━―━―━―━―━―━―━[JR山崎駅（＾＾）]━―━―━―━―━―━―━―━―━―
　　　　　　　　　
　　　　∧＿∧
ﾋﾟｭ.ｰ　(　　＾＾）＜これからも僕を応援して下さいね（＾＾）。　　　　　　　　　　　　　　　　　　　　　　　　　
　　＝〔~∪￣￣〕　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　＝ ◎――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　__∧＿∧_　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　|（　　＾＾）|　＜寝るぽ（＾＾）　　　　　　
　|＼⌒⌒⌒＼　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　＼ |⌒⌒⌒~|　　　　　　　　　山崎渉　　　　　　　　　　　　　
　　 ~￣￣￣￣　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　 ∧＿∧　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　（　　＾＾）＜ぬるぽ（＾＾）　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　 (⌒V⌒)　　　　　　　　　　　　　　　　　　　　
　　　│ ＾＾ │＜これからも僕を応援して下さいね（＾＾）。　　　
　　⊂|　　　　|つ　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　（＿）（＿）　　　　　　　　　　　　　　　　　　　　　　山崎パン　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　∧＿∧　 ∧＿∧
ﾋﾟｭ.ｰ　（　・３・） (　　＾＾）＜これからも僕たちを応援して下さいね（＾＾）。
　　＝〔~∪￣￣￣∪￣￣〕　　　　　　　　　　　　　　　　　　　　　　　　　　
　　＝ ◎――――――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉&ぼるじょあ

20 ：名無しさん＠３周年：05/02/26 21:22:17

WEKAは確かによいソフトだし、アメリカでソースの説明が本ででてますな。

21 ：名無しさん＠３周年：2005/05/04(水) 21:24:47

話題求む

22 ：名無しさん＠３周年：2005/05/04(水) 21:30:26

WEKAが良いソフトぉ？
教育用の駄作としか思えない。
そもそもDMでJavaはきっついな。

23 ：名無しさん＠３周年：2005/05/10(火) 21:06:13

wekaの日本語の説明書ない？

24 ：名無しさん＠３周年：2005/05/15(日) 23:34:57

研究でデータマイニングをやりたいと思っています。
今考えているのはマルチメディア・マイニングです。
その中でも動画を扱って何かしらのマイニングをしたいと思っています。
なんかいいネタないですかね？
動画にこだわらなくてもいいんで、こうゆうことをデータマイニングしたら
面白いとか、そんなのがあったら教えていただきたいです。

25 ：名無しさん＠３周年：2005/05/21(土) 14:25:16

WEKAとTanagraぐらいかな、フリーで使えるのは。
てか、WEKA日本語化してくれ・・・

26 ：名無しさん＠３周年：2005/05/28(土) 13:05:06

wekaって決定木以外にどの手法があるの？

27 ：名無しさん＠３周年：2005/06/01(水) 14:09:31

sasとspssはどう違うの？

28 ：名無しさん＠３周年：2005/06/11(土) 14:33:45

>>25
MUSASHI

29 ：名無しさん＠３周年：2005/06/11(土) 14:53:24

MUSASHIはただのデータクレンジングソフトでしょ。
分析なんてできね

30 ：べべ：2005/06/12(日) 09:56:47

>>26
決定木以外で使えそうなclassifierは

SOMreg
　　　　　サポートベクターマシンを重回帰ライクに変身させたもの。
　　　　　多重共線性にめっちゃ強い重回帰って思い込めばいい。

LinearRegression
　　　　　重回帰分析だけれど二つ機能が強化されている。
　　　　　１．赤池ＡＩＣを使って意味の無い項を自動的に消してくれる。
　　　　　２．リッジ回帰　・・・　多重共線性を回避するためのくふう。

31 ：名無しさん＠３周年：2005/06/12(日) 10:56:58

予測に専念するならマルチコなんて気にすることないし、
同じく、予測に専念するなら意味のない項を消す必要もない。
リッジ回帰もなんかあれだし。

wekaは決定木だけだね。

32 ：べべ：2005/06/14(火) 02:18:10

>>31
マルチコが重要では無い分野もあるんですね。
この話を棚上げすれば、「WEKAは決定木」だけ
といわれるとほぼ否定はできない。

そうすると使えるのは、J48とDecisionStumpく
らいかな。

グラフ機能も気に入ってますが。
でもバグが。

33 ：名無しさん＠３周年：2005/06/14(火) 21:47:43

> マルチコが重要では無い分野もあるんですね。

狭義のデータマイニングではマルチコなんて一切問題にしないと思うんだけど？

34 ：名無しさん＠３周年：2005/06/15(水) 04:25:47

ニューラルネットはどうよ
但しオプションメニュでGUIを有効にしてから動かしてくれよ

35 ：名無しさん＠３周年：2005/06/15(水) 22:28:40

wekaのNNは何層でも可能？

36 ：名無しさん＠３周年：2005/06/16(木) 23:46:40

>>35
Hidden Layerの追加・削除はマウス操作でできる
ちなみに自動設定ではデフォルトで、
(入力変数の数＋出力のカテゴリ数）÷２　の数の
1層のHidden　Layerになる (Hidden Layerがaの場合）
入力変数の数＋出力のカテゴリ数　のHidden Layerにしたければ、
Hidden Layer設定にbを指定する
Hidden Layer設定に0を入れた場合は、Hidden Layer無しになる
GUIによる操作だけではなく、Hidden Layer設定でいろいろな設定が可能
だと思われる

37 ：名無しさん＠３周年：2005/06/18(土) 23:04:18

>>31
汎化能力あげるために、いらない特徴を消したり、
損失関数に正則化項加えたりってのは意味あるんじゃないの？

38 ：名無しさん＠３周年：2005/06/19(日) 09:25:14

>>37
実務ではない。

39 ：名無しさん＠３周年：2005/06/19(日) 10:52:06

>>38
オーバーフィッティングとかどうするの？
経験とカンでうまく特徴選択してるの？

40 ：名無しさん＠３周年：2005/06/19(日) 11:58:24

AIC!AIC!

41 ：名無しさん＠３周年：2005/06/19(日) 14:32:05

>>37
線形モデル限定の話題はそろそろヤメレ、視野狭すぎ
清く正しいマイナーは、検証データを使う

42 ：名無しさん＠３周年：2005/06/19(日) 15:23:57

まぁ純粋マイナーは数学的に検証するだけの数学力がないから。

43 ：37：2005/06/19(日) 15:36:30

>>42
ごめん。でも一応線形モデルに限った話をしてるつもりはなかったんだ。
特徴選択しないみたいにかいてあったから、ちょっと疑問に思っただけ。
結局、クロスバリデーションかなんかで色々試したりして特徴選んだり、
正則化項の係数とか決めるんでしょ？

44 ：37：2005/06/19(日) 15:39:14

間違えた >>41

45 ：名無しさん＠３周年：2005/06/19(日) 15:40:34

ツールはどれも高いよな。200万とか個人じゃだせない。

46 ：名無しさん＠３周年：2005/06/19(日) 23:19:03

>>45
個人使用なら、さんざん既出のWEKAだね。
使い勝手、動作の安定性はいまいちだが、主だったマイニング手法は
揃っているし、最近じゃ市販のツールが備えているプロセスフローを
アイコンと矢印によって図式化して実行する環境まで揃えている。
WEKAが決定木だけのツールだなんていうのは、どこぞの頭悪い工作員
の発言としか思えない。
市販ツールには200万円以上の価値があると認めている一人だが、
手法の数や機能の比較だけでその価値を語ることはできないのさ。

47 ：名無しさん＠３周年：2005/06/20(月) 22:23:30

WEKAはJave製ってだけでアウト

48 ：名無しさん＠３周年：2005/06/20(月) 23:00:04

アイコンのドラッグドロップは素人だけに必須の機能。

49 ：べべ：2005/06/27(月) 21:49:35

複数の目的変数があるときいっぺんにマイニングしてくれるソフトはありますか？
たとえば説明変数x1, x2, x3に値を与えたとき、目的変数y1, y2を一度に
出力してくれるソフトです。
y1, y2は量的尺度でも名義尺度でも。

50 ：名無しさん＠３周年：2005/07/02(土) 17:50:22

wekaってどらくらいの件数のデータ読み込めますか？
2000万件くらいのCSVデータ読ませてるんですが1時間してもロードが終わりません・・・

51 ：名無しさん＠３周年：2005/07/15(金) 00:02:47

>>50
2000万件はすごいですね。実務では普通ですか？
クレメンタインだったらどれくらいの時間で読み込んでくれるでしょうかね？
まあ、ＰＣの性能によるんでしょうね。

52 ：名無しさん＠３周年：2005/07/15(金) 21:42:15

age

53 ：べべ：2005/07/22(金) 00:42:05

WEKAのバージョンが　3-4-5 にアップしました。
3-4-4 で発生していた　visualize のバグが無くなってます。つまり、
プロットをクリックするとインスタンスの情報が表示されるようになり
ました。
　きちんとメンテをしていることがわかりましたので本格的に使ってみ
ます。

54 ：名無しさん＠３周年：2005/07/26(火) 21:59:09

>>47
言語はよく知らないのですが、JAVAってバグでも多いんですか？

55 ：名無しさん＠３周年：2005/08/07(日) 02:52:03

いまいち盛り上がらんね

56 ：名無しさん＠３周年：2005/08/16(火) 05:54:20

>>47
何製ならおまえは満足なんだ？

57 ：名無しさん＠３周年：2005/08/17(水) 00:10:25

C or C++が望ましい。

理由はjapaより速いのと、個人の好み。
japa

58 ：名無しさん＠３周年：2005/08/22(月) 19:18:45

>>31-33
教科書見たら「マルチコの回帰式は問答無用で破棄すること」とか書いてあって、
素直にそれを信じてたんだけど、実務だとマルチコになっても全然ＯＫってことなんですかね？
すごい・・・目から鱗です！

できればその辺詳しく教えていただきたいです。

59 ：名無しさん＠３周年：2005/08/23(火) 00:32:24

>>58
目的が予測（Prediction）か推定（Estimate）かということかと
一般的なデータマイニングはモデルの構造より予測精度が重要なのです。
線形回帰で精緻にモデル構造を同定するようなケースでは、
マルチコには気をつける必要がある
マルチコ発生状態ではモデルの予測値は安定していたとしても
パラメータ推定結果はふらついていて、たまたまモデルがそういう
構造になっただけかもしれないからね
リッジは荒っぽい言い方をすると、分母が０付近になる様なクリチカル
ポイント（Rank落ち）を意図的にちょいとずらしてパラメータ推定結果を
安定させるテク

60 ：58：2005/08/23(火) 19:34:48

>>59
THXです。
データマイニングの基本から分かってないもんで、勉強になりました。

61 ：べべ：2005/09/17(土) 08:44:25

>>60
製造現場でマイニングを使うならマルチコは常に注意
しないといけないね。　主因子を誤ってしまうと現場
から怒鳴られ、ＩＴなんか信用できねーとけちをつけ
られます。　　　（っておどかしたりして）
　実践を積みながらまたは例題を解きながら理論を勉
強されることをお勧めします。

62 ：名無しさん＠５周年：2005/09/17(土) 09:04:33

>>61
それはマイニングというか統計学だろ。

63 ：べべ：2005/09/17(土) 21:19:30

>>62
　ベイズ統計やニューロ、重回帰、決定木をすべて使ってますので、
この意味ではマイニングでしょうね。　それでどの手法もマルチコ
の影響は受けます。影響を受けやすいのと、受けずらいのとがあり
ます。

　それと統計学はマイニングの一部というか、必須科目と考えていま
す。　ベイズ統計は統計学ですが、情報を掘り起こすのにとても役
立ってますのでマイニングの一手法だと考えてます。

　重回帰以外の手法でマルチコの説明をしている文献って知りません
か？

64 ：ななし：2005/09/18(日) 10:07:15

製造の現場では信じられてないんだね

65 ：べべ：2005/09/22(木) 02:00:43

>>64
！

66 ：名無しさん＠５周年：2005/10/08(土) 22:59:19

現場で一番使われてる判別手法は何ですか？

67 ：名無しさん＠５周年：2005/10/08(土) 23:39:27

k-NN　…と予想してみる。

68 ：名無しさん＠５周年：2005/10/10(月) 16:03:37

６７は学生

現場では線形判別分析とロジスティック回帰が半々。
それが現実

69 ：名無しさん＠５周年：2005/10/29(土) 00:57:01

KDDってなんだ

70 ：名無しさん＠５周年：2005/10/29(土) 03:20:44

今はKDDIだよ。

71 ：名無しさん＠５周年：2005/10/29(土) 04:56:25

現実ってなんだ

72 ：名無しさん＠５周年：2005/10/30(日) 17:35:23

なんでＫＤＤとＫＤＤＩがデータマイニングと関係あるのですか?

73 ：名無しさん＠５周年：2005/11/01(火) 23:02:48

ナレッジ・・・なんだっけ？

74 ：名無しさん＠５周年：2005/11/03(木) 23:44:45

ことしはシカゴ、来年はフィラデルフィア

75 ：名無しさん＠５周年：2005/11/06(日) 08:16:11

ＪＡＶＡは理解できないよ結局はオブジェクト指向がわかんないんだね

76 ：名無しさん＠５周年：2005/11/06(日) 08:22:02

Ｃで十分だよ、数値計算だもん

77 ：名無しさん＠５周年：2005/11/07(月) 23:57:44

>>63
特異モデルの漸近的挙動解析なら東工大の渡辺澄夫チームなのでは。
ＩＢＩＳ２００５にも出してるみたいだが、今年のテーマもそれなのかは見てない。

78 ：名無しさん＠５周年：2005/11/10(木) 21:53:55

だれかＩＢＩＳいったか

79 ：名無しさん＠５周年：2005/12/15(木) 17:12:13

決定木のboostingのフリーソフトありますか？

80 ：マイニング素人：2006/01/02(月) 16:12:16

個人でデータマイニングを勉強しているが、なかなか進まないが苦戦している。
どうやって進めたらいいんだろうな？？
本気です！！！！！！

81 ：名無しさん＠５周年：2006/01/31(火) 03:41:43

>>80
漏れもリーマンで畑違いの文系大学中退野郎なので
下地の知識が全くないけど、参考図書とか日本語サイトとか
ぜひ教えていただきたいです！

実は最近になって、取り扱い商品（200万点以上！）の
新しい視点からの分類を業務でやらなくてはいけなくなり、
カテゴリー立てとそれぞれの商品を分類する作業を
自動化するためにデータマイニングを行う必要が出てきたわけです。

商品のスペックなどは既にデータベースに入ってるし
新規項目の追加作業や入力作業は外注で
サマーシーズン（6月）までに仕上がればいいのだけれど
肝心のカテゴライズなどを専門家や企画会社に外注する予算が
見積もりで専務段階で不許可になってしまったため
社内チームで知恵を絞って片付けてしまおうということに・・・。

せいぜい十数万くらいのソフトや参考書を購入する程度の
予算しかおりないはずなので、頭痛いです。

82 ：名無しさん＠５周年：2006/02/06(月) 21:28:23

その十数万でオレを雇え

83 ：名無しさん＠５周年：2006/02/07(火) 02:14:02

>>80
ttp://blogs.yahoo.co.jp/pironotakarabako/6583234.html

84 ：名無しさん＠５周年：2006/02/07(火) 03:44:19

>>83
どうもありがとう！
でも難しくてよく理解できませんでした。
SVMや決定木は知ってるけど上っ面しか知らなかったので。
・・・勉強必要ですね。

85 ：名無しさん＠５周年：2006/02/11(土) 21:12:43

Linux板
【金鉱脈】データマイニングのスレ【発見】
http://pc8.2ch.net/test/read.cgi/linux/1139645444/

86 ：名無しさん＠５周年：2006/03/23(木) 14:25:49

シンプルで使いやすそうだけど、精度がわからん。
http://www.datamation.jp

87 ：名無しさん＠５周年：2006/03/24(金) 03:56:44

http://www.nag-j.co.jp/DMC.htm

・アソシエーション (Association)
・k-meansクラスタリング
・階層的クラスタリング
・決定木（GINI、エントロピー）
・一般線形モデル
・Nearest neighborモデル
・ニューラルネットワーク（多層パーセプトロン(MLP)）
・回帰の木
・線形回帰
・ロジスティック回帰
・ラジアルベーシス関数 (Radial basis function - RBF)

サンプルコードあり

88 ：名無しさん＠５周年：2006/03/27(月) 07:21:39

NTTのカーネルつかった構造マッピング熱いな。ちんこ。

89 ：名無しさん＠５周年：2006/03/27(月) 08:22:21

ＳＯＭは無いのですか。
ＢＡＳＩＣなどで書いて実際に動かしてみると良く分かると思います。

90 ：名無しさん＠５周年：2006/04/17(月) 23:21:38

君達は本当にマイニング成果がでると思っているのか？度数分布と産婦図で目で見るのが一番早いマイニングだぞ。遺伝的アルゴリズムの結晶だからな。本当にそう思うよ。マルチ子もこそも、数字のお遊びか？

91 ：名無しさん＠５周年：2006/04/21(金) 22:09:10

>>90
素人は引っ込め

92 ：名無しさん＠５周年：2006/05/15(月) 05:16:35

Webマイニングとかもここでいいんですかね？？
いまいち分類が分からなくて。。。

93 ：名無しさん＠５周年：2006/06/24(土) 23:08:32

マイニングしてるやつは荒らしばかりだね。

94 ：名無しさん＠５周年：2006/08/10(木) 21:57:58

混合正規分布おＥＭアルゴリズムをＣ言語で書いたプログラム探しているんですけど、
どこかで公開してないですか？

95 ：名無しさん＠５周年：2006/08/22(火) 00:16:29

”データマイニングが従来の統計分析と一線を画して語られるのは、取り扱う情報が、
質と量の両面において異なるから”？
数式を使わないデータマイニング入門　岡嶋裕史　光文社　2006/05/17
http://d.hatena.ne.jp/starocker/20060521

96 ：名無しさん＠５周年：2006/08/29(火) 18:49:03

k nearest neighbor法を自分で実装したいんだが
なんか参考になりそうなサイトはないだろうか

97 ：名無しさん＠５周年：2006/08/30(水) 06:32:45

どっかのソースコードを読むのがオススメ。
オレは matlab で書くときに somtoolbox の knn を真似したら早くなった。
euclid 距離の計算が秀逸だった（確かそこは別ファンクションだったと思うが）。

98 ：名無しさん＠５周年：2006/08/30(水) 20:43:46

さんくす
matlabは使ったことないんだが
somtoolboxをDLしてknn.mを覗いてみた
やはり√は計算せずに
squared euclidean distanceだけ計算して遅延処理するんだな

計算が秀逸だってのはここの部分？
% Euclidean distance matrix between row vectors in X and Y
U=~isnan(Y); Y(~U)=0;
V=~isnan(X); X(~V)=0;
d=abs(X.^2*U'+V*Y'.^2-2*X*Y');

99 ：名無しさん＠５周年：2006/08/31(木) 10:21:13

>>98
そそ。おれなんかだと２重ループはしないまでも１重ループはしちゃってたから
全然速度が違った。ソースコードを読んでいなかったらそんな手法があるなんて知らずにずっと過ごしていたかもしれない。ガクブル

100 ：名無しさん＠５周年：2006/08/31(木) 10:24:14

>>98
あ、matlab を使ったことがないということなので一応。
matlab では for ループを使う処理をしないでできるだけ built-in 関数を使うようにするのが肝要なんです。早さが段違いに。

101 ：名無しさん＠５周年：2006/08/31(木) 19:42:41

>>100
ああ、最初暗号に見えてたんだが
これ因数分解した後に、多分転置行列を使って
ループ処理に相当するものを実行してるわけだよな、気づかなかった

C++でだけどsomtoolboxも一部参考にしながら
KNN法、何とか実装完了できますた
色々ありがとな！

102 ：名無しさん＠５周年：2006/09/24(日) 14:00:54

TRUE TELLERって、使えますか？
http://www.trueteller.net/

103 ：名無しさん＠５周年：2006/09/27(水) 18:29:35

ただのとおりすがりです。

昔、某企業でいろいろクライアントを抱えてデータマイニングやってました。
なかなかクライアントの要求するような精度・品質のモデルや分析ができることは少なく、実務をやっていた人間としてはつらい分野でした。
会社のバックアップ体制があまりよくありませんでした。短期間で成果を出す必要があったのです。
あのころのチームの人たちは離散して、多数が会社を辞めてしまいました。仕事の方向性もデータマイニングからみな離れてしまいました。私もです。
データマイニングを仕事にするならば、やはりちゃんとした長期的な自己研鑽、研究ができるような事業会社・大学などの機関のバックアップを得て、ちゃんと長期的にデータを見ていける立場でデータマイニングをする仕事を得られればよかったのかな、と思います。

104 ：名無しさん＠５周年：2006/09/29(金) 15:41:41

プロなら短期的に成果を出せなければウソでしょ。
長期的に研鑽しなければならない、ってことはプロとしての
技量がまだないうちにクライアントを持っちゃったってこと
ですよ。
いろいろなアルゴリズムを一通り勉強して、ケースバイケース
で使い分けて・・・ってなんて甘いこと言ってるとプロに
なれないんですよ。これ、一般的に信じられている
「データマイニングの常識」のウソなんですよ。
だって、１つ１つ研究すれば学術論文が書けるほど奥深いものです。
そんなものを全部やろうとしたらものにならなくて当然ですよ。
「いろいろできる」は、「何もできない」ってこと。
自社のアプローチをしっかり持っている、ってことがプロの要件です。
いろんなアルゴリズムが詰まった有名なデータマイニング・システム、
あれ危ないですねえ。ご愁傷さまです。

105 ：名無しさん＠５周年：2006/10/01(日) 02:14:08

重回帰分析法も、データマイニング手法に入るのか？
データマイニングの基礎編
http://www.nikkei-nbsonline.com/course/kouza_xav50501.html

106 ：名無しさん＠５周年：2006/10/01(日) 03:27:13

データマイニングソフト　CATDAP for Windows
統計数理研究所が開発した主なプログラム
http://www.ism.ac.jp/computer_system/software_j.html

107 ：名無しさん＠５周年：2006/10/02(月) 09:51:23

>105
タイチローさんですね。たくさん本出してるけど、正直、
データマイニング業界は迷惑してるよ。
統計はデータマイニングに含まれるけど、統計＝データマイニング
じゃないからね。「ニューメディア」とか「マルチメディア」とか
かつの流行語は、どれも便乗組がその言葉を多用することにより、
定義があいまいになり、最終的に死語になって行ったよね。
「データマイニング」も同じ経過を辿ったね。
出版社もちゃんとした見識を持って欲しいものだ。

108 ：名無しさん＠５周年：2006/10/09(月) 08:31:11

>>104
あなたはただの研究者で実務経験がなさそうだ。

109 ：名無しさん＠５周年：2006/10/10(火) 05:06:34

108に同意。研究者は実務能力に欠ける。なにせ、コミュニケーション能力ないから。大学の先生が会社で使えるのは稀。

110 ：名無しさん＠５周年：2006/10/13(金) 16:41:41

>108
>109
104で言っていることの意味が理解できてる？
コミュニケーション能力の達人さま。

111 ：名無しさん＠５周年：2006/10/13(金) 22:33:18

データマイニング関連のプロでベンチャー起業に興味ある人いる？

112 ：名無しさん＠５周年：2006/10/14(土) 05:45:11

>110
研究室でご苦労様。実社会では使われない研究ガンバだ。一度も実社会でやったことないのでは？

113 ：名無しさん＠５周年：2006/10/14(土) 10:46:39

>>110
108だけど、自分はコミュニケーション能力について言ってるわけではない。
104は実務の中でクライアントは数学的な細かい話なんて誰も興味がないって事が解ってなさそうだなと思っただけ。
数学的な精確さより、いかに巧くアウトプットを見せられるかが重要。

>>111
そういった会社も結構ある(あった)けどどこも芳しくなさそう。
理由は実務でデータマイニングに携わっている人間ならわかるでしょ？

114 ：111：2006/10/14(土) 14:01:52

いわゆるデータマイニングに携わってないが
情報の価値が低いか　市場の開拓からやらないといけないからかな
しかも米国の真似が基本で　自ら作った技術じゃないものな

115 ：名無しさん＠５周年：2006/10/14(土) 15:24:59

ま、すべてのクライアントがデータマイニングの
価値・必要性を正しく理解し、すべてのデータマイナーが
目的に合った正しい手法を正しく適用して、まともな
成果を上げる、ということは夢物語ですよ。
世の中の2/3ぐらい（いやそれ以上？）は間違いだらけ、
というのが現実。それでも、データマイニング技術の
すべてがウソだというわけではなく、ちゃんとした成果
の出る状況、方法、ツールは確かにあります。
結局、自分がヘボなグループに入るのか、まともな
グループに入るのか、ということですよ。
少なくとも総花的な解説書やツールは、手ごろな教材には
なっても、実用向けじゃないってことは肝に銘ずべきかと。

116 ：名無しさん＠５周年：2006/10/15(日) 03:53:02

まともにやってる会社あるんかな？

117 ：名無しさん＠５周年：2006/10/15(日) 09:27:33

少なくとも海外ではちゃんと機能してるよ。
それを日本に持ってくるとよってたかってヘボにしてしまう。
現在の日本でのデータマイニングは、戦前の品質管理のような
段階だね。欧米に決定的に差をつけられていることに気がつく
までは、真剣に取り組むことができない。
真剣に取り組むと、10年か15年ぐらいで追いつくことはできる
でしょ。そうすると、また「日本型」という思想が出てきて、
良い面もあれば、悪い面もあったりと。良い面は徹底して洗練
させるとこだが、悪い面は宗教みたいに、あるいはバカの一つ
覚えみたいになってしまうとこだな。
現段階ではまだ安直に「日本型」みたいな変形をすると、
骨抜きになってろくなことがない。

118 ：名無しさん＠５周年：2006/10/15(日) 15:18:26

ベンダーの説明自体が宗教的だ。この前、S○Sのデモ見させられた。某社では稼動してますと言ってた。しかし、その担当にきいたら何にも使ってない。マニュアルが全部英語でわからんと。英語はともかくさ、買えばできると思ってる。数千万ドブ。

119 ：名無しさん＠５周年：2006/10/15(日) 17:58:35

ほとんどの人は、統計ソフト・ベンダーとデータマイニング・
システム・ベンダー（BIプロバイダー）の区別がついてない。
良質で独創的なデータマイニング技術を持っている会社は、
残念ながらそんなに大きくない。アカデミックでは有名でも、
ビジネスの世界ではまったく無名。当然、日本には本格的な
営業基盤を持ってない。宣伝もしてなきゃ展示会にも出てない。
だから、フツーの会社には気づかれてもいない。残念。
日本語版まであっても、フツーの人は気がつかない。
蛇の道は蛇で、評価眼のある人間にしかピンと来ないように
なっている。質の悪いクライアントを持つと商売にならない
のでクライアントを選んでるのだ。したがって、けっして安く
はないが、有名ベンダーよりもずっと良質なサポートが可能。
ファーストフードと高級レストランの違いみたいなもんだな。

120 ：名無しさん＠５周年：2006/10/15(日) 23:00:29

強力な熱意とリーダーシップが必要だろうな。疲れ果てる。もうあきらめ。

121 ：名無しさん＠５周年：2006/10/16(月) 23:21:21

>>117=>119

はやく学部を卒業しような。

122 ：名無しさん＠５周年：2006/10/16(月) 23:33:48

>121
研究室のお子様は引っ込んでろ。

123 ：名無しさん＠５周年：2006/10/16(月) 23:39:25

結局、データマイニングやってるのはお子様ばかり。
それが根本的問題か。オモチャじゃないんだよ。

124 ：名無しさん＠５周年：2006/10/17(火) 00:13:33

そりゃー、大学の研究室では世間ズレしたことしてるよ。DBから分析データを
ブレークダウンして作ることから始まるわけなんだけど、先生も生徒も
それをどうするかも知らなかったわけ。OracleとかSQLの操作もあんまり
できないわけよ。国公立の大学だった。会社派遣で行かされて気を失った。
まあ、おままごとしてな。

125 ：111：2006/10/17(火) 03:19:08

意味あるのは　バイオと金融ぐらいか

126 ：名無しさん＠５周年：2006/10/19(木) 21:18:40

占いのほうが当たる。

127 ：名無しさん＠５周年：2006/10/20(金) 14:17:39

予測がマイニングのすべてじゃないぞ。
ベンダーにも責任の一端があるが安直な結果を期待するからダメなのよ。
たとえばCRMに使うのなら、本気で顧客を理解しようとしているかどうかだよ。
そうじゃない香具師が使うからオモチャにしかならないんだよ。ばーか。
お子様はさわるな。

128 ：名無しさん＠５周年：2006/10/20(金) 14:40:14

誰に向かってかいてんの？

129 ：名無しさん＠５周年：2006/10/23(月) 22:22:30

顧客の財布を理解したい

130 ：名無しさん＠５周年：2006/10/24(火) 12:17:01

データマイニングは人様が苦労して作業するほど価値のない仕事を自動化できる程度

131 ：名無しさん＠５周年：2006/10/24(火) 20:03:50

その指摘は当たってる。確かにそうだ。

132 ：名無しさん＠５周年：2006/10/24(火) 21:12:35

システム化ってのはそんなもんだ。馬鹿だなぁ･･･

133 ：名無しさん＠５周年：2006/10/25(水) 22:28:51

なんでブームみたいになってんの？教えて中のひと。

134 ：名無しさん＠５周年：2006/11/02(木) 08:23:45

遅刻

135 ：名無しさん＠５周年：2006/11/10(金) 00:07:19

somtoolboxのsom_bmusを使いたいのですが・・・
どうすれば使えるのでしょうか？
アドバイス、よろしくお願いします。

136 ：名無しさん＠５周年：2006/11/12(日) 05:30:47

SMなら教えよう

137 ：名無しさん＠５周年：2006/11/12(日) 10:44:03

マニュアルどおり使えばよいと思います。

138 ：名無しさん＠５周年：2006/11/13(月) 01:03:47

ローソクとムチ

139 ：名無しさん＠５周年：2006/11/14(火) 01:28:03

俺さ、google抜く検索エンジン作ったんだけどさ、
政治家東大理３卒医師や一流ブランド大企業の奴らには使わせたくないんだ。
どうやったら識別出来る？

あと、米系大手外資系証券米系戦コン正社員にも
使わせたくないんだ。どうやったら識別出来る？

140 ：名無しさん＠５周年：2006/11/14(火) 01:29:43

あとキー局の奴らも使えないようにしたいんだ。
どうやったら奴らからのアクセスを識別出来る？

141 ：名無しさん＠５周年：2006/11/14(火) 08:29:11

君、正常になりたまえ

142 ：名無しさん＠５周年：2006/11/14(火) 20:14:27

【SONY】PS3の裏の裏
http://etc4.2ch.net/test/read.cgi/motenai/1163269007/

143 ：名無しさん＠５周年：2006/11/15(水) 08:30:23

ケーキ、乳頭

144 ：名無しさん＠５周年：2006/11/27(月) 00:27:47

ぶら下がり社員

145 ：名無しさん＠５周年：2006/12/10(日) 10:00:27

ROC曲線とゲインチャートって別物ですよね？？

146 ：名無しさん＠５周年：2006/12/12(火) 00:54:44

よし、つっこめ

147 ：名無しさん＠５周年：2006/12/17(日) 11:59:44

SAS最高

148 ：名無しさん＠５周年：2006/12/17(日) 19:18:46

の価格

149 ：名無しさん＠５周年：2006/12/18(月) 00:36:19

天皇陛下に失礼

150 ：名無しさん＠５周年：2007/02/25(日) 01:23:29

カウンタープロパゲーションの実装で参考になるところ
ないでしょうか？ググッてもたいしたサイトが出てこず。。。（＞＜）

151 ：名無しさん＠５周年：2007/05/07(月) 02:44:24

SAS教入信

152 ：名無しさん＠５周年：2007/05/29(火) 05:15:30

パッケージベンダのDataMiningって、便利がゆえにアブナイと思う。
なぜなら、とりあえずでももっともらしい結果を出せてしまうから。
GIGO(GarbageIn,GarbageOut)をしていることに気が付いていない。

適当なModelingをしても、それが妥当かどうかを検討するだけのModelに対しての知識がある人が少ない。
専門でやっている人は研究者だし、研究者は実務しらないし、で実務の担当者はモデルを知らない。

お互いに、「専門バカ」、「理論すら知らない」と馬鹿にしあうだけで、その両穂を兼ね備えている人材が極めて少ない。
DataMiningの適切な応用がすすんでいない理由の一つである気がする。

153 ：名無しさん＠５周年：2007/05/29(火) 11:05:41

仕方ないオレがやるしかないな

154 ：名無しさん＠５周年：2007/06/04(月) 21:31:34

>>152
でも悲しい事にそんなに精度は変わらないよなｗ

155 ：名無しさん＠５周年：2007/06/16(土) 21:24:23

保守age

156 ：名無しさん＠５周年：2007/08/17(金) 19:26:42

SASのEMを放棄。ライセンス料高すぎ。

157 ：名無しさん＠５周年：2007/08/19(日) 11:25:38

>>156
んで、何処のを使うん？

158 ：名無しさん＠５周年：2007/08/20(月) 02:00:43

Excelだよ。

159 ：名無しさん＠５周年：2007/08/20(月) 20:21:32

本気で言ってるならデータマイニングを語れるほどの知識も経験もないな。
回帰しか頭に無いのだろうが、それすらバグだらけだぞ。

160 ：名無しさん＠５周年：2007/08/21(火) 02:06:07

Excelでもマルコフ連鎖やリッジ回帰、アドオンのベイジアンもできますが？

売上貢献できればバグOK。EMの借金払うんだよ。

161 ：名無しさん＠５周年：2007/08/26(日) 11:34:05

ま、俺の場合ならやろうとすればGCCだけでなんでもできるし。
頑張れよ。

162 ：名無しさん＠５周年：2007/08/30(木) 01:10:26

がんばればがんばるほど費用が増える。

163 ：名無しさん＠５周年：2007/12/18(火) 19:59:13

参加費無料らしいが、情報学研究所ってデータマイニング手法を
研究する機関なのか？
国立情報学研究所第７回市民講座
社会を探るデータマイニング　～データの山から新たな発見！～
日　時：　2008年1月16日（水）18：30～19：45
場　所：　(東京都千代田区) 学術総合センター　２階　中会議場
講　師：　市瀬龍太郎（国立情報学研究所准教授）
http://www.nii.ac.jp/shimin/index-j.shtml
http://events.nikkeibp.co.jp/seminar/detail/538806

164 ：名無しさん＠５周年：2007/12/19(水) 03:09:26

マジニートな俺がClementineを
ゴニョゴニョした訳だが
コレでニートレーダーにクラスチェンジ…

するにはDBの構築から始めんといけんのよなぁ
そしれ人手はともかく先立つものは無し。
嗚呼収益があがる日はくるのだらふか…

165 ：名無しさん＠５周年：2007/12/19(水) 08:44:22

けっきょくデータマイニングって、あれでしょ?

怪しいアンケートやらとにかくかきあつめてみた信頼性ってなにそれ?　ってゆう
ようなゴミみたいなネタにガマの油ふりかけてもっともらしいおまじない唱えて、
欲しい結論やクライアントの希望どおりの結論だすための、ま、いってみりゃ、様式美。

コンピューター占いの二番煎じってとこだよね。

166 ：名無しさん＠５周年：2007/12/19(水) 13:13:28

様式美ってのはどうか

167 ：名無しさん＠５周年：2007/12/21(金) 18:33:55

まぁ、当たらずとも遠からず

168 ：名無しさん＠５周年：2007/12/21(金) 21:55:50

>>152
実務者は難しすぎるって初めから投げてる場合が多いけど、研究者が歩み寄る姿勢の方が極端に無い

>>164
DB構築がどこまでを指してるかわからんが・・・
OracleもSQLServerもタダで使える時代
DB設計ツールもDBDesignerなどフリーな物がある
チューニングに関して言えばそれなりの知識が必要だけど、
チューニングツールもそれなりに付属してるからそれ使えば・・・

169 ：名無しさん＠５周年：2007/12/21(金) 22:29:50

低脳が笑える

170 ：名無しさん＠５周年：2007/12/21(金) 23:27:10

リアルで>>169みたいな対応するからお勉強しか出来ないのにって話になる。
調整する立場の身にもなれ

171 ：名無しさん＠５周年：2007/12/23(日) 14:47:57

>>168
Oracleって無料なんですか？

172 ：名無しさん＠５周年：2007/12/24(月) 00:08:54

>>171
トライアル版が使える。
期限付きって書いてあるけど期限きても使えなくなる事は無いよ

173 ：164：2007/12/24(月) 03:18:38

米国OTNならまんまDeveloper Editionがダウンロードできるんじゃ
なかったっけ？自分はDB2だが(こちらも無料版あり。

>168
データの取得・入力方法を気にしていた。
運用と書くべきだったかもしれん。
設計とチューニングはまぁマニュアルを熟読して"べからず"を避け、
使えるオプションを試す以外にないだろう

174 ：名無しさん＠５周年：2007/12/24(月) 03:50:53

>>173
>データの取得・入力方法を気にしていた。
見当違いだったらｽﾏﾝがデータベース、SQLノードで対応出来ない？

175 ：164：2007/12/25(火) 04:28:29

>174
もっとプリミティブな話でマイニングに使うデータを
どこから取得して(加工して)データベースに突っ込むか、
またその労力を日々のルーチンワークとして賄える位に
自動化・省力化できるか、という辺りです。

なにせ0からDBを作らなきゃならない。株価位はどこにでも
転がってるだろうけど、財務とか為替とか他のパラメーターを
取ってきて入力するとなると手間が馬鹿にならない事を危惧している訳です。
ニートだから時間はあるけどそれにかかり切りにはなれないし、
結局先立つものの為に働かなきゃならないし。

176 ：名無しさん＠５周年：2007/12/28(金) 00:53:37

WEKAのM5Pとは簡単に言うとどのようなロジックなのでしょうか？
ただ単に分散が最も大きくなるように分類を行い、回帰分析を行っているだけですか？
それともそれぞれの末端ノードでの回帰が最もフィットするように分類させているのでしょうか？
そうだとしたらどのようなロジックで・・・

177 ：名無しさん＠５周年：2007/12/28(金) 17:25:20

イケメンホスト VS グレイシー柔術黒帯　　もう少しでホストが勝ちそうになる映像
http://video.nifty.com/cs/catalog/video_metadata/catalog_071228051260_1.htm
秋葉系格闘家が名古屋大学相撲部で戦う映像
http://video.nifty.com/cs/catalog/video_metadata/catalog_071228051258_1.htm

178 ：名無しさん＠５周年：2007/12/28(金) 17:26:08

179 ：名無しさん＠５周年：2008/01/05(土) 18:02:00

WEKAのM5Pのロジックを語れる人はいませんか？

180 ：名無しさん＠５周年：2008/01/12(土) 20:22:16

>>176
ソース嫁

181 ：名無しさん＠５周年：2008/01/13(日) 10:55:58

嫁ない

182 ：名無しさん＠５周年：2008/01/13(日) 11:06:49

>>168
実務で使いたいと思うのなら実務担当者が歩み寄ればいいだけの話。
実務へ研究成果を広めたいと思うなら研究者が歩み寄ればいい。

それだけだよ。

実務担当者の言い分は筋が通っていない。研究成果を実務へ落とし
込みたいと思うだけで頭を使わない。
落とし込む為に頭を使って調整するのはアナタの仕事ですから！
残念！

183 ：名無しさん＠５周年：2008/01/13(日) 20:36:37

でもそんなのカンケーネー

184 ：名無しさん＠５周年：2008/01/13(日) 20:47:21

４年で183しか進んでないのに「part 1」っていらなくね・・・。
でもそんなのカンケーネー

185 ：名無しさん＠５周年：2008/01/14(月) 00:28:16

>>182
レスが付いたと思ったら・・・仕事してからいえよｗ

186 ：名無しさん＠５周年：2008/03/09(日) 21:26:40

wekaって開発終わってるの？

187 ：名無しさん＠５周年：2008/03/10(月) 01:39:11

>>186
http://www.cs.waikato.ac.nz/~ml/weka/index.html
見る限り終わってないんじゃね？

気になるならMLに登録して直接聞いてみればいい。

188 ：名無しさん＠５周年：2008/03/12(水) 23:56:01

WekaがC++で造られてたら相当ヒットしてたと思う

189 ：名無しさん＠５周年：2008/04/09(水) 00:35:20

Microsoftの「DM Add-ins」ってどう？
SQLサーバ買えば無料で付いてくるんだよね？
最強っぽいんだけど。

190 ：名無しさん＠５周年：2008/05/15(木) 20:41:57

SPSS主催の集会が、来月あるようだね。
SPSS Data Mining Day
日時：2008年6月17日(火) 受付開始 9：30～
会場：セルリアンタワー東急ホテルB2F セルリアンタワーボールルーム　
　　　東京都渋谷区桜ヶ丘26-1
参加費：無料（事前登録制）
主催：エス・ピー・エス・エス株式会社
http://www.spss.co.jp/dmd/index.html

191 ：名無しさん＠５周年：2008/06/08(日) 19:30:17

データマイニング人気ないの？

192 ：名無しさん＠５周年：2008/08/01(金) 10:53:30

データマイニングをうまく使えてる企業はどのくらい
あるんですか？

193 ：名無しさん＠５周年：2008/08/01(金) 12:40:14

うまくと言う意味をどのように理解したらいいか難しいが、
データマイニング毎日しているということは、少ないでしょうが、
マイニングの結果を日夜利用している企業は多いですよ。

その面から見ると、
必要不可欠として使用しているケースと
無ければないでどうにかなるが使用しているケース
に分かれるかと思います。後者の多くはマーケティング利用に
みられ、前者はリスク分析関連に見られます。
カードクレジットや個人融資などの顧客判別では、当たりまえに
なっています。

こんなところで良いですか。

194 ：名無しさん＠５周年：2008/08/14(木) 03:25:47

初学者向けにお勧め本とかないですか？

195 ：名無しさん＠５周年：2008/08/22(金) 17:41:28

ExcelVBAでプログラムしたいので
データマイニングアルゴリズムを知りたいのですが、お薦めの本、HPがあれば教えてください。

196 ：名無しさん＠５周年：2008/08/22(金) 18:57:18

どんなアルゴリズム？

197 ：名無しさん＠５周年：2008/08/22(金) 20:36:28

共分散構造分析、クラスター分析、決定木分析、等です。

198 ：名無しさん＠５周年：2008/08/22(金) 20:54:04

堅く言えば、
共分散構造分析はマイニングの範疇というより
代表的な統計アプローチ。
クラスターは、それぞれにある（扱うデータ量等の関係で）でも
ごっちゃになってる。

まあ、データ分析全体をマイニングと呼ぶなら、別にそれでいいが。

ところで本題。
オーム社の「データマイニングの基礎」あたりはどうでしょう。
Webにもたくさん転がっているので（特に海外）その辺も参考にして
みたらどう？

youtubeにも有るので、英語の勉強かねてってのもありかな

199 ：名無しさん＠５周年：2008/08/22(金) 20:57:12

忘れた。

共分散構造分析は、豊田先生あたりので出てないのかな？
誰か教えてあげてください。

200 ：194：2008/08/23(土) 12:21:25

>>198
紹介どうもです。基礎の本は入手しましたが、
なかなか道は険しそうです。
決定木ってなに？というレベルなのでw

統計力学は学生時代にやったからその延長で
対処できると思ったんですが orz

201 ：195：2008/08/25(月) 12:51:22

>>198
ありがとうございます。
一度探してみます。
豊田さんの共分散構造分析の書籍はあらかた購入しました。
youtubeで講義でも見れるのですか？

202 ：名無しさん＠５周年：2008/11/06(木) 23:04:17

MSのSQLサーバのデータマイニング使ったことあるやつレポートしてくれ！

203 ：名無しさん＠５周年：2008/11/25(火) 19:42:51

>>190
SPSSのデータマイニングソフトって、1500万円もするの？どんな有能なソフトなの？
SPSS　Clementine　
http://japan.zdnet.com/hikaku/story/0,3800078090,00000015p,00.htm

204 ：名無しさん＠５周年：2008/11/25(火) 22:41:01

間違いじゃない？
でもSASのエンタープライズマイナーだと、
レンタルの初年度でこのくらいとられる

205 ：名無しさん＠５周年：2008/12/01(月) 16:06:26

これからはもうソフトはR一本でいけるということで同意ですね。わかります。

206 ：名無しさん＠５周年：2008/12/01(月) 23:13:43

まあ、あまりに無理があるが
それで済む人はそれでいいだろう

207 ：名無しさん＠５周年：2008/12/02(火) 03:57:10

SASのセールス乙

208 ：名無しさん＠５周年：2008/12/20(土) 16:30:06

競馬予想のマイニングでいいんですか？

209 ：名無しさん＠５周年：2008/12/20(土) 16:52:08

掘る物が墓穴になるかもしれんがな

210 ：名無しさん＠５周年：2008/12/21(日) 16:29:12

テキストマイニングはこのスレでいいですか?

211 ：名無しさん＠５周年：2008/12/22(月) 12:33:38

日本語の処理への要望は、頻繁（はんざつ）に寄せられるが
基本は自然言語処理の延長で、技術的にもそれを踏襲（ふとう）している。
マーケティング分野の利用が多いが、応用のための分析手法はマイニングというより統計手法の利用が中心。
現在の景気のような、未曾有（みぞうゆう）の事態が発生している世の中では重宝されそうに感じるが
分析結果事態はぼや～っとしたイメージを出力している程度なので、結果を信じて怪我（かいが）しない
ように注意が必要。
＜麻生太郎（ましょうたろう）でした＞

ただし。インターネットデータの文言・文書検索の部分では、統計手法よりも
データマイニングの技術が利用されることが多い。
＜これは太郎君ではありません＞

212 ：名無しさん＠５周年：2008/12/22(月) 13:26:14

>>211
マイニングの厳しい定義はあるわけ？
統計は単なるツールでしょ？

分野によってはマイニングというと
因果関係のあいまいな相関ばかりみつけて
役に立たないと揶揄されているようだけど。

213 ：名無しさん＠５周年：2008/12/22(月) 16:34:02

狭義なものと広義なものがあるが、厳密なものはない。
あくまで応用の一つ。
時に統計の手法も利用される（利用できるものは何でもと言ったほうが
いいだろうか）。
基本は大容量データを対象としたところからのスタートなのだが
なんだ～かんだ～で、個人解釈で広がっちゃっているってな感じ。

テキストマイニングは、言葉として「マイニング」がつくので
データマイニングの仲間と思われがちだが、データマイニングの考えを
使うこともある。といったほうが良いかもしれない。
アンケートによくある少量のデータだと、統計手法に頼るしかないだろうしね。

>因果関係のあいまいな相関ばかりみつけて
>役に立たないと揶揄されているようだけど。
そのとおりだね。
でもマイニングが悪いというより、利用者と教える側の問題が大きいでしょう。
実務データなので、数理だけでなくデータそのものを分かって使わないとね～。

と勝手なこと言っちゃいました

214 ：名無しさん＠５周年：2008/12/23(火) 00:50:45

KDDとかICDMとかだと、クラスタリングや(半)教師あり学習なんかの一般的な手法、アルゴリズムから
それらを使った知識発見(因果関係、異常などの発見等)、テキストマイニングの内容も扱ってるし、結構何でもありな感じなのかな

215 ：名無しさん＠５周年：2008/12/23(火) 01:36:43

本来は大量データからの実務に使える（＜＝ここがポイントで人工知能
と袂を分けた）知識発見だけど、時間とともに特に日本では
教育研究分野の論文ネタ不足から、色々参入してきて
好き勝手なことを言い始めたというのが真実でしょう。
統計的データマイニングとかね。大学でのテキストマイニングのブームも同類
（形態素解析等々の基礎技術は別）。

大量データを回せないツールでも、マイニング出来ると言い張ったり（勿論
一部はできる）。
元々の発祥分野の人工知能の研究者も、こっちの水が甘いぞと
また入ってきたりで、何でも有りになったってところですね。
特殊な分野向けの手法はそれとして、適用範囲の広い手法は限られて
いるのが現状。
先ほどの、「因果関係のあいまいな相関ばかりみつけて」などは
本格的な実務応用ではそれ程使われているわけではない。広告的には
使われてますが。
まあ、まずはどの分析にもあるように、基本的なもの（クロス表なり
なんなりの分野に適したもので）で、しっかりとデータを眺めること
から始めるのが本来でしょう。

データの見方を自由に、ときに割り切った見方で。といのはマイニング的
といっても良いかもしれませんね。その面では、アプローチを好まない方も
いるでしょう。

216 ：名無しさん＠５周年：2008/12/24(水) 12:59:15

データマイニングではないが・・・
フィッシャーの線形判別分析の分離度って
負の値をとることがあるかな？

217 ：名無しさん＠５周年：2008/12/28(日) 16:50:36

学生に適当な課題で自由にレポート書かせてテキストマイニングツールに
ぶっこんでもっともらしい図を作って論文作れないかなー、と夢想している
私がいる。

218 ：名無しさん＠５周年：2008/12/28(日) 23:51:23

>>217
研究課題なんていくらでも転がってるんだから、学生に頼ろうとせず、
自分で見つければいいのに。

219 ：名無しさん＠５周年：2008/12/29(月) 05:26:10

データマイニングの研究って、どういうことやってるの？

この分野に興味があるんだけど、どこから勉強し始めていいのか
分からない。大学(院)レベルでどういうテキスト使って勉強
するのが良いのか知りたい。

教えてよ、すっごくエロいひと。

220 ：名無しさん＠５周年：2008/12/29(月) 13:57:49

やはり、グーグル先生が最凶でしょう。

221 ：名無しさん＠５周年：2008/12/29(月) 14:46:02

>>220
別に。あそこ落ち目だし。
次はwikipediaの時代だよ。

222 ：名無しさん＠５周年：2008/12/29(月) 14:46:39

そうだね、グーグルあれば大学いらないね。
大学教員はみんな解雇すべきだね。

223 ：名無しさん＠５周年：2008/12/29(月) 17:00:24

データマイニングの研究室入ったけど、機会学習やパターン認識のことばかりやってるよ

224 ：名無しさん＠５周年：2008/12/29(月) 17:41:46

>>223
そりゃそうさ。あと自然言語処理ね。機械学習とNLPがメインだよ。

225 ：名無しさん＠５周年：2008/12/29(月) 18:19:55

ぶっちゃけデータマイニングに数学的素養というのは役に立つ？
統計とか論理的思考は勿論だろうけど、例えば微積分だとか複素数とか
そういうの知ってると役に立つ？

226 ：名無しさん＠５周年：2008/12/29(月) 18:38:24

>>225
> 例えば微積分だとか複素数とか
> そういうの知ってると役に立つ？

微積分は画像処理には使う。幾つかの機械学習アルゴリズムにも使う。
複素数はいらない。

227 ：名無しさん＠５周年：2008/12/29(月) 18:48:38

多変量解析や最適化理論は使うから、少なくとも微積や線形代数は役に立つ
あと、ベクトル埋め込みだの次元削減だのってことを真面目にやろうとすると、最近は多様体とか使うから、微分幾何学も役に立つかも
この辺は、データマイニングと言うより機会学習の話っぽいけど

228 ：名無しさん＠５周年：2008/12/29(月) 18:54:33

あとは、画像や時系列データなんかを対象にすると、場合によってはフーリエ変換やウェーブレットも使う

229 ：名無しさん＠５周年：2008/12/29(月) 20:59:05

でも別に満遍なくできなければいけないわけではないんでしょう？
何を専門に研究するかで必要なテクニックはかなり限られると思うんだけど。

230 ：名無しさん＠５周年：2008/12/29(月) 21:06:45

誰かまんべんなくできなきゃいけないなんて言ったか？

231 ：名無しさん＠５周年：2009/01/02(金) 12:16:24

データマイニングというのは
コンピューターサイエンスに属するのか？
それとも情報？

232 ：名無しさん＠５周年：2009/01/03(土) 23:54:46

最近、Rでのマイニング本増えてるがRじゃ大量処理無理じゃ
？どうしてるのかな？

233 ：名無しさん＠５周年：2009/01/04(日) 05:36:53

>>232
なんでムリなの？

234 ：名無しさん＠５周年：2009/01/04(日) 10:22:03

ETLみたいな加工できないんじゃ？？
100GBのテキスト読ませてるけど終わんない。どうしよ。

235 ：名無しさん＠５周年：2009/01/04(日) 13:50:45

>>232
１Gも読めないよ。そもそもメモリを１００G積んでいるわけないんでしょ？
Rはオンメモリで分析データを全てメモリに配置します。

Rはまだ学生と研究者の為のツール。

これが現実なんだよね。

236 ：名無しさん＠５周年：2009/01/04(日) 14:17:59

パッチ当てりゃいいじゃん

237 ：名無しさん＠５周年：2009/01/04(日) 15:08:45

>>234は100MBの間違いじゃないかな。
実際に100G扱うような人なら対処方法もわかるはず。
Rを捨てSASで処理とか。

100MBでも正直きついよね。
よく落ちる。

>>236
パッチ当てると100G扱えるのですか？

238 ：名無しさん＠５周年：2009/01/04(日) 16:30:37

>>232
そういうRでデータマイニングみたいな本は、「大量のデータから知識発見」ってことより「統計、機械学習的手法によるデータの解析」について書かれてるんじゃないか？

239 ：名無しさん＠５周年：2009/01/04(日) 16:33:04

データマイニングだったら python 使うでしょ普通。
それと、「~の規制がかけられてる」んだったら自分でソース
とってきてそれを修正してビルドするべき。
C、C++を知らないなら、自分で学べ。
いちいち人にやってもらおうなんて思うなよ。

240 ：名無しさん＠５周年：2009/01/04(日) 16:34:39

>>237
100MBって、圧縮しないで？それはひどい。

241 ：名無しさん＠５周年：2009/01/04(日) 16:35:37

>>239
おいらPython大好きなんだけど、データマイニングに適してるの？
SciPyとかNumPyを使うってこと？

242 ：名無しさん＠５周年：2009/01/04(日) 16:59:06

>>241
探せばなんでもあるよ。機械学習のパッケージも沢山ある。
Googleリサーチも全体的にPythonを使用して研究してるのは有名。

243 ：名無しさん＠５周年：2009/01/04(日) 18:28:12

おいおい、馬鹿が紛れ込んでるな。

244 ：名無しさん＠５周年：2009/01/04(日) 18:42:30

234だけど、みんなレスサンクス。sasは元々使ってるけど、
興味本位で同じことできるか試しただけです。
2GBの壁はでかい。Rの本がたくさんでてるから、試そうと。
アプリを処理ごとに分けてたら仕事が終わらない。
会社としては一個のアプリで大半をやれればありがたや。無理
だけど。
DBからの切り出しからスコア付けまで複数のアプリでまたがると
面倒なんです。

245 ：名無しさん＠５周年：2009/01/04(日) 18:42:55

>>243
お前の事？

246 ：名無しさん＠５周年：2009/01/04(日) 18:44:22

>>245
自虐的だなお前。

247 ：名無しさん＠５周年：2009/01/04(日) 19:20:07

てかこのスレは殆ど自作自演なわけで

248 ：名無しさん＠５周年：2009/01/04(日) 20:44:57

今この板で最も熱いスレ

249 ：名無しさん＠５周年：2009/01/04(日) 21:36:11

２Gの壁って言っても、さらにRは値渡しだから・・・

データマイニングなんて言えるレベルではないのよね。

250 ：名無しさん＠５周年：2009/01/04(日) 21:59:18

>>238 そんな感じだね

インタプリタだし、実務で本来のデータマイニング利用は
ちょっと（大変に）無理

251 ：名無しさん＠５周年：2009/01/04(日) 22:20:27

すみません232です。間違いでした。正月明けに会社で
試す前にどうかなと。やはりSASで加工します。
焦ってました。正月明けにSASでデータをTRANSPOSEします。

252 ：名無しさん＠５周年：2009/01/04(日) 22:31:29

なんだかSASの営業が沸いてるな

253 ：名無しさん＠５周年：2009/01/04(日) 22:33:38

>>251
がむばって

>>252 こういうやついるよな

254 ：名無しさん＠５周年：2009/01/04(日) 23:40:00

251です。ＳＡＳの営業ではないです。今年もまた少人数のチームで
procでぐりぐりやるのは嫌なので新しいアプリとか覚えようかと思って
大晦日から正月にかけて自前サーバでがんばしてました。

255 ：名無しさん＠５周年：2009/01/04(日) 23:51:53

>>254
気にすんな

DATAステップを中心に作った方がいいよ。
市販の本では紹介されてない機能で相当なものがある。
必要なら、他言語とインタフェイスもとりやすい。

256 ：名無しさん＠５周年：2009/01/05(月) 00:25:20

サザンは解散したよ

257 ：名無しさん＠５周年：2009/01/05(月) 02:02:49

他言語とのインタフェイスは取り難い。

258 ：名無しさん＠５周年：2009/01/05(月) 07:38:31

それは昔のイメージ。
.NETやJava等々とインタラクティブにやり取り
できるよ。オプション無しでね。

259 ：名無しさん＠５周年：2009/01/05(月) 08:42:17

>>258
本格的な営業活動だな。

260 ：名無しさん＠５周年：2009/01/05(月) 20:15:53

インタラクティブにやり取りできるサンプルソースを載せて

261 ：名無しさん＠５周年：2009/01/06(火) 22:45:23

Rはデフォルトでメモリーに読み込むようですが、テンポラリに書き込む
設定とかありますか?調べても出てこなくて。

262 ：名無しさん＠５周年：2009/01/06(火) 22:47:13

>>261
Python

263 ：名無しさん＠５周年：2009/01/08(木) 12:27:31

Pythonとか言ってるやつ馬鹿じゃね？
まあ学生なんだろうけど頑張ってエクセルのデータでも集計してなよ。

264 ：名無しさん＠５周年：2009/01/08(木) 13:46:35

CとPythonを極める者は世界を制する。

265 ：名無しさん＠５周年：2009/01/08(木) 14:32:45

Pythonとエクセルの関係が分からん
エクセルなんて使う奴学生にもいねーよ

266 ：名無しさん＠５周年：2009/01/08(木) 14:35:52

>>265
仕方ないよ、>>263は "あれ" だから。スルーするに限るよ。

267 ：名無しさん＠５周年：2009/01/08(木) 15:04:07

>>264
確かにPythonでWeaveからCを使って
簡単に最適化出来るのは神だな。
湾岸戦争の頃のサダム・フセインに匹敵する神だな。

でもガチでCエクステンション書くのは結構面倒くさくね？

268 ：名無しさん＠５周年：2009/01/08(木) 15:22:56

>>267
そうだね、慣れるまではちょっと面倒に感じるかもね。
それでもまだ心地良い程度だよ。

269 ：名無しさん＠５周年：2009/01/08(木) 19:27:38

最適化だけならglpkも早いですよ。たまに会社で活躍してます。

270 ：名無しさん＠５周年：2009/01/08(木) 20:40:34

仮に数年後にまだデータマイニングに関わっていたら、自分の書き込みの恥ずかしさに気付くんだろうな。

271 ：名無しさん＠５周年：2009/01/08(木) 21:12:15

データマイニングに関わったが最後
他にはどこにも行けなくなるんだがなw

272 ：名無しさん＠５周年：2009/01/08(木) 22:35:22

>>271
おまえはな。低脳。

273 ：名無しさん＠５周年：2009/01/09(金) 01:51:31

データマイニングから違う仕事行けた、あるいは逝きたい
人いる？

274 ：名無しさん＠５周年：2009/01/09(金) 06:21:52

データマイニングやってる奴なんて誰も欲しがらんよ
持ってるスキルとか知識が全部中途半端

275 ：名無しさん＠５周年：2009/01/09(金) 06:56:40

大学で機械学習専門ってのはわかるが、
データマイニングは自分で学ぶものだろ？
あれは学問的な知識うんぬんよりも、経験の方が大事なんだから。

276 ：名無しさん＠５周年：2009/01/09(金) 08:29:57

確かに中途半端だと思う。自覚症状あるよ。
一方、組織を動かすスキルがかなり大事かな。

277 ：名無しさん＠５周年：2009/01/10(土) 10:24:16

自作自演がすごいな。ってのもデータマイニングでわかる。
恥ずかしいから止めときなｗ

278 ：名無しさん＠５周年：2009/01/10(土) 12:23:35

役に立つ業界ってなーに？
小売とかなんかな

279 ：名無しさん＠５周年：2009/01/10(土) 12:35:14

>>277
じゃ、どのレス番号が自演か当ててみなよ

280 ：名無しさん＠５周年：2009/01/10(土) 13:08:39

>>279
自演厨はほっとけ。自分の低能加減を晒してるだけなんだか。
こんな過疎スレで自演するメリットもないのにな。

281 ：名無しさん＠５周年：2009/01/10(土) 14:13:12

機械学習とかデータマイニングとか初心者です。
基本をちょっと勉強したいのだけど、門外漢なので
どのテキストから始めるのがいい感じか判断出来ません。

関係書とかネットを見た感じでは、プログラミングと数学的にはついていけます。

適当にAmazonとかネットで評判が良さそうなテキストのリストを作って見ました。
Wittenのテキストの第一版だけは図書館にあったので、読んでますが、もう少し
レベルが高くてもいいかなという感じです。

このリストの中か他で、お薦めのテキストあったら教えてくれると嬉しいです。

Principles of Data Mining (Adaptive Computation and Machine Learning)
by David J. Hand (Author), et al.

Introduction to Data Mining
by Pang-Ning Tan (Author), et al.

Data Mining: Practical Machine Learning Tools and Techniques, Second Edition
by Ian H. Witten (Author), Eibe Frank (Author)

Data Mining: Concepts and Techniques
by Jiawei Han (Author), Micheline Kamber (Author)

Pattern Recognition and Machine Learning (Information Science and Statistics)
by Christopher M. Bishop (Author)

282 ：名無しさん＠５周年：2009/01/10(土) 16:24:24

このスレには全部読んだやついないんじゃね？w

283 ：名無しさん＠５周年：2009/01/10(土) 19:26:30

馬鹿学生丸出しだな。

284 ：名無しさん＠５周年：2009/01/10(土) 19:29:45

俺天才だし全部読んだ今はDMの専門家

285 ：名無しさん＠５周年：2009/01/10(土) 21:00:28

初心者向けの同内容の本を５冊読んで専門家になりましたと。ｗ
こいつ本当に馬鹿だな。

286 ：名無しさん＠５周年：2009/01/11(日) 05:48:33

DMって何？ドM？

287 ：名無しさん＠５周年：2009/01/11(日) 16:11:06

ダイレクトーメルに決まってんだろ

288 ：名無しさん＠５周年：2009/01/11(日) 16:54:08

ダイレクトーメルはDirek TormelだからDTじゃなかった？

289 ：名無しさん＠５周年：2009/01/11(日) 18:51:58

そりゃ
ドイツマルクにきまってんだろ

290 ：名無しさん＠５周年：2009/01/11(日) 19:02:16

Python辺りからガキが紛れ込んだな。

291 ：名無しさん＠５周年：2009/01/11(日) 19:59:48

>>290
んなこと言ってんなら
少しは役に立つことカキコしてみろや
おんどりゃぁ

292 ：名無しさん＠５周年：2009/01/11(日) 22:58:11

なんかマイニングの人はどこか荒れてるね。

293 ：名無しさん＠５周年：2009/01/12(月) 06:48:05

必要から出てきたものが
作ったもの（あるいは学んだもの）を適用することが目的と
なっちゃて来てるのが問題になってんだ。
流通で効果があったとか・・・元々集計すらできていなかった
世界で何かやれば効果があるのは当たり前。
それが夢と思われただけ。

294 ：名無しさん＠５周年：2009/01/12(月) 15:05:16

集計に関してはちゃんとできてる会社は少ないよ。

295 ：名無しさん＠５周年：2009/01/12(月) 15:12:32

このスレは実務系と学問系どっちの住人が多いんだ？

296 ：名無しさん＠５周年：2009/01/12(月) 15:25:20

俺、完全に趣味系(正規で受けた学問は物理)

297 ：名無しさん＠５周年：2009/01/12(月) 16:10:16

>>296
おおー、俺も物理なんだけどデータマイニングとかで
仕事ないか探してる所なんだよ。

298 ：名無しさん＠５周年：2009/01/12(月) 16:44:06

>>296
それが普通だよ。

data mining は趣味でやるもんだって前々から言ってるだろ。

299 ：Tea and Coffee Time：2009/01/12(月) 18:19:17

２ちゃんねるの存在自体がひとつのデータマイニングではないでしょうか。

『データマイニング、マインドコントロールと電波首輪理論の関連性』に関して
は下記参照してください。
http://infowave.at.webry.info/200711/article_1.html

300 ：名無しさん＠５周年：2009/01/15(木) 18:25:13

>>293
データマイニングとテキストマイニングの違いは、奈変ですか？

301 ：名無しさん＠５周年：2009/01/15(木) 21:43:43

>>300
少し前も読んでみよう

302 ：名無しさん＠５周年：2009/01/16(金) 10:56:58

おまいらもっといっぱい書けよ。このスレテキストマイナーにぶっこんで
論文でっちあげんだからよ、レス300くらいじゃまだ足りねーんだよ。

303 ：名無しさん＠５周年：2009/01/16(金) 11:57:47

書、角、核、各、画、殻、
郭、閣・・・・まだたんない？

304 ：名無しさん＠５周年：2009/01/16(金) 14:57:19

>>302
文系の方ですか？

305 ：Tea and Coffee Time：2009/01/18(日) 11:24:33

>>299に関して。
掲示板における匿名性がどれだけ高いかと、情報漏洩ルートがあるかどうかは重要な視点である
と考えられます。下記参照してください。
http://infowave.at.webry.info/200804/article_1.html
上記に情報漏洩ルートがあるかどうかの確認法の一例を提示しています。確認法
はほかにも考えられると思います。

再度言いますが、２ちゃんねるの存在自体がひとつのデータマイニングではないでしょうか。

『データマイニング、マインドコントロールと電波首輪理論の関連性』に関して
は下記参照してください。
http://infowave.at.webry.info/200711/article_1.html

306 ：Tea and Coffee Time：2009/01/21(水) 19:19:13

今後は通信に関しては量子暗号化が進展して盗聴ができなくなってきます。
しかし、一方では情報保護・セキュリティ強化を推進しながら、一方では
人的情報漏洩ルートを作ろうとする動きが東京・大阪などを中心として
出てくる可能性があります。

『量子暗号化技術の進展と電波首輪理論「共謀罪と傍聴法・個人情報保護
法の無力化」』に関しては下記参照してください。
http://infowave.at.webry.info/200609/article_1.html

307 ：Tea and Coffee Time：2009/01/21(水) 19:28:33

携帯電話の電波機能を利用して人の生活のアルゴリズムを観察する「リアリティーマイニング」
という実験がアメリカのMIT（マサチューセッツ工科大学）で既になされています。
（日本語訳解説については下記参照）。
http://hotwired.goo.ne.jp/news/20050802302.html
http://hotwired.goo.ne.jp/news/technology/story/20050803307.html

　日本では個人を常時リニアタイムに監視する行為は法律で禁じられています。
このような行為はU.S.Aでさえ問題になっています。（下記参照）
http://hotwired.goo.ne.jp/news/20051101203.html、

しかし、「リニアタイムに監視」でさえも可能にしそうな動きがあります。
「諜報機関の設置」です。諜報機関の設置によって個人情報保護法が軽視・無視
されるようになると、個人にたいする調査、場合によっては「嫌がらせ」・「ほのめかし」
等が携帯電話の電波首輪機能を使って可能になりそうです。
諜報機関の設置、「電波首輪理論」に関しては下記参照してください。ニュースに
なっている部分もあります。
http://infowave.at.webry.info/
http://ime.nu/infowave.at.webry.info/200609/article_1.html

特定個人・集団に対する監視・嫌がらせ等を含めて、集団思考をマインドコントロールしようとする
行為はすでに始まっている可能性が高いようです。通例、ターゲットと呼ばれる被調査者（被害者）
が気づいたときには「嫌がらせ」・「ほのめかし」・「悪評流し」などを使った特定個人・集団の
周囲のマインドコントロールがなされているという意見もあります。マインドコントロールシステムの一部として
このような「嫌がらせ」・「ほのめかし」・「悪評流し」システムが含まれていることが多いのではないのでしょうか。
また、携帯を使った「リニアタイム監視」ができなくとも、個人の監視・調査は「電波首輪理論」で可能です。
個人情報保護法が無力化している事が大きな原因と考えられます。現段階は電波首輪理論を用いたマインドコントロール
システムを確実に構築するための時期になっています。

308 ：Tea and Coffee Time：2009/01/21(水) 19:31:34

直接は関係しませんが・・・。

Nシステムが合法と解釈されるならば、携帯電話の位置情報盗聴も「防犯上」
合法と解釈される可能性があります。携帯電話の電波首輪機能が調査に使われるのです。
（下記参照）
http://infowave.at.webry.info/200812/article_1.html

309 ：名無しさん＠５周年：2009/01/22(木) 13:03:53

質問です。
マハラビノス・タグチ・メソッドやタグチ・シュミット法とMLPやガウシアンプロセスなどでは、どのように用途に違いがあるのでしょうか？
すいませんが教えてください。

310 ：名無しさん＠５周年：2009/01/22(木) 17:00:43

百鬼夜行抄 1~5　石田彰、井上和彦
http://www.orange-mikan.com/index.php?topic=2761.0

311 ：名無しさん＠５周年：2009/01/23(金) 20:14:00

ラマーズ砲

312 ：名無しさん＠５周年：2009/01/24(土) 00:43:56

ちがうだろ、
荻野メソッドだよ

313 ：名無しさん＠５周年：2009/01/26(月) 19:13:51

パイソンの何がいいの？

314 ：Tea and Coffee Time：2009/01/31(土) 15:08:32

>>305 >>306 >>307 >>307 >>308に関連して

『平成２０年中の通信傍受の実施状況等に関する公表』（下記参照）
http://www.moj.go.jp/PRESS/080130-1.html
に詳細が載っています。令状が出て逮捕者がない番号２と番号５の２件は
「無関係盗聴」として今後議論対象になる可能性が高いです。無関係盗聴
は２００６年までに８６パーセントになっていると指摘されています。
（下記参照しました。）
http://archive.mag2.com/0000207996/20080224221332000.html

今後、さらに問題となる可能性が高いです。

315 ：名無しさん＠５周年：2009/01/31(土) 16:17:59

>>314
日本は遅れているので、こういったものを使いなさい
http://www.secunet.com/index.php?ln=2

316 ：名無しさん＠５周年：2009/02/15(日) 04:27:48

盛り上がりに欠けるな。

317 ：名無しさん＠５周年：2009/02/15(日) 14:30:18

>>309
http://glossary.cdaj.co.jp/01000050/s01000/000619.html
ガウシアンプロセスとは，パターンマッチングの手法の一つで，
modeFRONTIERに搭載されている応答曲面生成手法の一つです．
ガウス分布を重ね合わせ，サンプリング点をなめらかに通る曲面を生成しますが，
その際，ガウス分布の重ね合わせ係数(これをHyperprameterと呼ぶ)を求める必要があります．
この係数を求める部分にニューラルネットを用いており，
その学習にベイズアプローチを用いてオーバーフィッティングを防止しています．
このガウシアンプロセスは強力な回帰モデルであり，非線形性の強い応答の近似に適しています．
また，作成した応答曲面をプログラムソース(C,Fortran,Java)として外部に出力することができます．

318 ：名無しさん＠５周年：2009/02/16(月) 01:41:13

女の勘のほうがオーバーフィットのない、強力なモデリング
なんだが。

319 ：名無しさん＠５周年：2009/02/17(火) 01:23:19

Knowledge Discavery of DatabaseでKDDなんだ。
てっきり電話会社のことかと思ったぞ。

320 ：名無しさん＠５周年：2009/02/17(火) 03:51:06

>>318
だったら、「女の勘」をモデリングするんだ。
scienceやnatureにも出せるぞｗ

321 ：名無しさん＠５周年：2009/02/17(火) 04:23:15

of Database => in Databases

322 ：名無しさん＠５周年：2009/02/17(火) 04:25:21

ついでにスペルミス
Discavery => Discovery

323 ：名無しさん＠５周年：2009/02/17(火) 10:11:30

Wiley - Applied Data Mining-Statistical Methods For Business And Industry
Wiley - Making Sense Of Data
Advanced Data Mining Technologies in Bioinformatics
Agent Intelligence through Data Mining
AMACOM Distributed Data Warehousing Using Web Technology
BrainySoftware.Dimensional.Data.Warehousing.with.MySQL.A.Tutorial.Apr.2007
Building.a.Data.Warehouse.With.Examples.in.SQL.Server
Data Mining Opportunities and challenges
Data Mining A Knowledge Discovery Approach
Data Mining In Time-Series Databases - World Scientific Press
Research and trends Data Mining Technologies and applications
Data Mining with Computational Intelligence
Data Mining with Ontologies
Data Mining-A heuristic approach
Data modeling techniques for data mining IBM
Data Modeling
Data Warehouses and OLAP
Data warehousing and data mining for telecommunication
Data Mining with Neural Networks

324 ：名無しさん＠５周年：2009/02/17(火) 10:12:22

Fundamental Data Compression
Evolutionary Computing in Data Mining
Foundations and Advances in Data Mining
Intelligent Data Mining
Data Mining and Knowledge Discovery Technologies
Handbook of Database Security Applications and Trends
High performance Data Mining scaling algorithms applications and systems
IGI Publishing Data Mining Patterns New Methods and Applications
Introduction to Data Mining and its Applications
Kimball & Ross - The Data Warehouse Toolkit 2nd Ed
Knobbe A.J. Multi-Relational Data Mining
LargeScale_Parallel_Data_Mining
Lawrence.Erlbaum.Assoc.The.Handbook.Of.Data.Mining.eBook-LiB
Lecture notes in Data Mining
Lecture Notes In AI - Data Mining Theory, Methodology, Techniques
Mathematical methods for knowledge discovery in data mining
Mit_Press_-_Principles_Of_Data_Mining
Morgan.Kaufmann.Data.Mining.Practical.Machine.Learning.Tools.and.Techniques.Second.Edition
Pattern Recognition Algorithm for Datamining
Privacy Preserving Datamining
Quality measures in Data Mining
S.A.Becker - Effective Databases For Text And Document Management
Sequence Data Mining
Swarm Intelligence in Data Mining
Data.Mining.Using.SAS.Enterprise.Miner
Data Mining Concepts and Techniques 2nd Ed

この中でお奨めなのは、どれ？

325 ：名無しさん＠５周年：2009/02/17(火) 17:45:10

読む前にやる！
だろうな。
学問じゃないから。

326 ：名無しさん＠５周年：2009/02/17(火) 18:15:28

↓これがいいらしい

Perfumeフォトブック『Perfume Portfolio(パフュームポートフォリオ)』
ttp://www.amazon.co.jp/Perfume%E3%83%95%E3%82%A9%E3%83%88%E3%83%96%E3%83%83%E3%82%AF%E3%80%8EPerfume-Portfolio-%E3%83%91%E3%83%95%E3%83%A5%E3%83%BC%E3%83%A0-%E3%83%9D%E3%83%BC%E3%83%88%E3%83%95%E3%82%A9%E3%83%AA%E3%82%AA-%E3%80%8F/dp/4847018168

327 ：名無しさん＠５周年：2009/02/18(水) 00:49:37

ぶすだなぁ

328 ：名無しさん＠５周年：2009/02/19(木) 01:16:53

読んでできるようになるなら読むよ。データメイク関連の
文献少ないね。

329 ：名無しさん＠５周年：2009/02/24(火) 17:53:49

「データマイニングの企業です！」ってベンチャー増えたなぁ
…でも怪しいのも多いなぁ

日本だと業務としてやってる大きな企業ってないのかね

330 ：名無しさん＠５周年：2009/02/25(水) 02:04:25

ツールがよくても、探し方の仮説を立てられない人が多いと意味ないかと。
SPSSと同じでは？

331 ：名無しさん＠５周年：2009/02/25(水) 18:39:33

そんな会社ばかりだよ。

332 ：名無しさん＠５周年：2009/02/25(水) 21:14:47

どういう社員がマイニングしてるんだろ
ちゃんと解析とかの素養があるんだろうか

333 ：名無しさん＠５周年：2009/02/26(木) 00:40:38

あるわけないよ。Σ記号すらわかってない。
道具は立派なもの持ってるところ多いよ。

334 ：名無しさん＠５周年：2009/02/27(金) 06:19:12

>>329
日本IBM・日立・東芝かな
それぞれ昔からソフト作ってたはず

＞「データマイニングの企業です！」
って企業は大体コンサルの道具としてしか使ってないよね
ちゃんと研究開発も手をつけてる企業ならいいけどそんなの全然見かけないし

335 ：名無しさん＠５周年：2009/02/27(金) 19:36:24

毎度毎度人材募集かけてるところは注意。

336 ：名無しさん＠５周年：2009/02/27(金) 20:30:10

>>334
職種に「研究・開発」とあってもやってることは全然別（または予算的な意味で全然研究になってない）
というパターンがあるから気をつけるべきだな

・実際にデータマイニングのソフトウェア作ってて
・そのソフトが一番使える
という基準で企業を選ぶのはどうだろう
少なくともコンサル寄りではなく開発寄りだと思う

337 ：名無しさん＠５周年：2009/02/28(土) 02:32:18

ツールを使いこなせる人がエンドにいるかどうかもだよ。

338 ：名無しさん＠５周年：2009/02/28(土) 04:08:58

ベイズ推定によるスパムメールの分類とか文書分類って、データマイニングのうちに入るんだよね？
マーケティングリサーチじゃなくて、そういうマイニングの需要っていうのはないの？

339 ：名無しさん＠５周年：2009/02/28(土) 04:56:19

データマイニングでの優良企業って
どこですか

340 ：名無しさん＠５周年：2009/02/28(土) 08:29:52

>>338
普通にやってることだよ

341 ：名無しさん＠５周年：2009/02/28(土) 09:53:12

ごめん言葉不足、スパムは普通（もっといろいろね）だけど

文章分類は普通ではないが行われている
結構多くの人が考えつくことなので、一度はトライすることかな
考えることは、すでに結構やってるものだよ

それと、全般的に言って単一手法では限界があるので、
もっと先に行ってる

342 ：名無しさん＠５周年：2009/02/28(土) 10:12:06

>普通にやってる

普通にやってるの主語は何？
研究者？　企業？

質問の意図は、文書分類などのマイニングを開発依頼する企業はあるの？ということだった。
「需要」があるか？と聞いているわけで。

343 ：名無しさん＠５周年：2009/02/28(土) 12:51:48

企業

344 ：名無しさん＠５周年：2009/02/28(土) 17:06:52

THX

345 ：名無しさん＠５周年：2009/02/28(土) 18:17:53

つーか日本はだめだろ、DMにかぎらず
ツールをまともに使いこなしてるって聞いたことないよ。

科学的にやっても結局文系の横槍で塵芥戦術取るだろ。

346 ：名無しさん＠５周年：2009/03/01(日) 02:38:03

345が正解。企業でマイニングなんて無理。組織の問題。
企業の宣伝文句にしか役に立ってないね。誇大広告。

347 ：名無しさん＠５周年：2009/03/01(日) 06:39:58

>>345,346
実際に企業に居る奴のカキコ？
それとも象牙の塔の人？

348 ：名無しさん＠５周年：2009/03/01(日) 10:14:01

象牙の塔は差別用語だと思うよ。
普通に企業か大学かと言えばよかろうに。
荒らしたいなら話は別だが。
議論するなら、
大学は企業を馬鹿にせず、
企業は大学を馬鹿にせずやってくださいな。

349 ：名無しさん＠５周年：2009/03/01(日) 12:37:20

会社で
長い目で見てくださいって
言えないよな

暇つぶしてるように
見られがちだ

350 ：名無しさん＠５周年：2009/03/01(日) 12:41:27

DM=暇つぶしとみられるんだ？
それはきつい。
そんな会社やめちまえｗ

351 ：名無しさん＠５周年：2009/03/01(日) 13:07:13

>>347
企業にいるよ。
研究所があったり有能なCTOがいる企業なら
活用できるのか？DM

352 ：名無しさん＠５周年：2009/03/01(日) 15:31:08

企業でDMやるために雇われてるひとは
どういう職種になるのか？
SE？プログラマ？アナリスト？

353 ：名無しさん＠５周年：2009/03/01(日) 15:35:54

お茶汲みじゃね？

354 ：名無しさん＠５周年：2009/03/01(日) 16:06:21

大抵は一般職だよ

355 ：名無しさん＠５周年：2009/03/01(日) 16:15:03

346だが、院卒会社員。
今は管理職だが、大抵はＤＭは一般職担当だよ。
みんなやめるがな。実際の企業データを触れるのはよいがな。

356 ：名無しさん＠５周年：2009/03/01(日) 17:42:30

一般職ってなんだ？

357 ：名無しさん＠５周年：2009/03/01(日) 21:52:49

事務のオバチャンのことだよ

358 ：名無しさん＠５周年：2009/03/01(日) 22:15:15

専門職との対比としての一般職でしょ。
馬鹿だね。

359 ：名無しさん＠５周年：2009/03/01(日) 22:18:40

総合職に対比して一般職だね

360 ：名無しさん＠５周年：2009/03/02(月) 00:51:30

上司が黒といったら黒の結果をマイニングでださないと
ならないわけよ。仮説はあらじめ決まってる。マイニングでは
ないな。役職ごとに言うこと違うし。日本では無理。めちゃくちゃさ。

361 ：名無しさん＠５周年：2009/03/02(月) 01:01:58

まあ、あなたの会社ではね。
けっこうそうでもないところ多いよ。

でも、それはそれで、あなたの為だから。ためだから。
西山茉希みたいなもんかな。

362 ：名無しさん＠５周年：2009/03/02(月) 01:57:31

一般職でできるわけないよね。
ちゃんと使ってる業界ってどこ？

戦略的な部署が研究開発系の部署に作らせて、
運用は情報システム部署がやるとかだと正しそうだが、

一般職だとExcelでグラフ作るのと同じレベルになるw
終ってるぞ

363 ：名無しさん＠５周年：2009/03/02(月) 08:30:56

日本の総研やコンサルでは使わないのかねDM
ここに載ってるようなところでも

コンサルの基礎知識 from 2chコンサルスレ
http://www34.atwiki.jp/consulting/

364 ：名無しさん＠５周年：2009/03/02(月) 10:45:55

セミナーでマイニングしてますと宣伝してる会社は
でたらめにやってるよ。会社名晒したいね。

365 ：名無しさん＠５周年：2009/03/02(月) 15:20:07

総研や今猿は下請けに出してる。

366 ：名無しさん＠５周年：2009/03/02(月) 15:45:25

なかなかサムイ状態のようですな　日本のDM

367 ：名無しさん＠５周年：2009/03/02(月) 19:47:10

>>364
是非晒してほしいなあ
大きい所も小さい所も

368 ：名無しさん＠５周年：2009/03/02(月) 20:21:37

つーか、コンサルが一番だめだろうね。
「エイや！」でやっちまうから。ステップワイズを動かして
適当にＯＬＳをやるのさ。変数が数百ぐらいあるＯＬＳ（爆）

総研も総研で理系はマーケやＣＲＭを嫌ってるというか肌が合わないから。
まあ、入社して経験してみ。

>>367
俺のいる会社だ（自爆）ふつーに宣伝してるよ。恥ずかしいくらい。

369 ：名無しさん＠５周年：2009/03/02(月) 22:11:33

DMで一番スキルがつくのはリテールのリスク管理。これ秘密な。

370 ：名無しさん＠５周年：2009/03/03(火) 00:42:18

暗い話ばかりだな。
明るい話題ないの？

371 ：名無しさん＠５周年：2009/03/04(水) 00:27:36

>>368
聞きにくいこと聞くけど、
「エイや！」でやるのと数学的に精緻にやるので精度に差が出る？
あと変数が数百ぐらいあるOLSやって何が問題なの？

さあ、答えられるかな？

372 ：名無しさん＠５周年：2009/03/04(水) 01:04:32

精度というより、実施の際にいらん顧客データを引っ張る。
無駄打ちアプローチが増えるんでは？利益を考えればだ。

373 ：名無しさん＠５周年：2009/03/04(水) 22:49:16

何言ってるのかわからん。０点。

374 ：名無しさん＠５周年：2009/03/04(水) 23:54:36

>>368が胡散臭い
（爆）だってさ

375 ：名無しさん＠５周年：2009/03/05(木) 02:18:04

（爆）w（自爆）www

376 ：名無しさん＠５周年：2009/03/05(木) 21:57:13

数百の変数でどう解釈するの？教えてくれ。

377 ：名無しさん＠５周年：2009/03/06(金) 00:59:44

＞変数が数百ぐらいあるOLSで「エイや！」
本当にDMがわかってる？
それよりなにより、本当に仕事就いてんの？

378 ：名無しさん＠５周年：2009/03/08(日) 19:33:21

そもそも2chで「○○に勤めてるけど～」「俺の会社～」みたいな文を信用するほうがおかしい
ただのニートが入ったこともないのに総研について騙ってるのかも知れないぞ？

まあそうすると俺のレスも信用できるものじゃないけどな

379 ：名無しさん＠５周年：2009/03/09(月) 17:03:59

Office of the Director of National Intelligence
Data Mining Report

http://www.dni.gov/electronic_reading_room/ODNI_Data_Mining_Report_09.pdf
(8pp, 518KB)[Released 6 March 2009]UNCLASSIFIED

380 ：名無しさん＠５周年：2009/03/09(月) 19:43:42

Knowledge Discovery and Dissemination(KDD)

381 ：名無しさん＠５周年：2009/03/21(土) 17:13:36

ウエブ適当に巡回して適当にdata集めてきてマイニングしてくれてかんたんに
論文作れるソフト教えてください。できれば論文も自動で書いてくれるのがいいです。

382 ：名無しさん＠５周年：2009/03/22(日) 07:31:49

　　　　　　ｒ'｡∧｡ｙ.
　　　　　　　　　ゝ∨ノ　　　　　　　>>381がクソ投稿　　　　　　　,,,ｨf...,,,__
　　　　　　　　　）~~（　　　　　　　　出している間に　　　_,,.∠/ﾞ`'''t-nヾ￣"'''=ー-.....,,,
　　　　　　　　　,i　　 i, 　　　　　　　　　　　　　　　　　　,z'"　　　￣￣　／nﾞﾞ''''ー--...　　
　　　　　　　　 ,ｉ>　　 <ｉ　　文明はどんどん発達し　　 r"^ヽ　　　　　く:::::|::|:::〔〕〔〕
　　　　　　　　ｉ>　　　<ｉ. 　　ていく・・・・・・。　　　　　　入_,..ﾉ ℃ 　　　　￣U￣＿二ﾆ＝
`=.,,ｰ- ...,,,__　 |,ｒ'''"7ヽ､|　 __,,,... -ｰ,,.=' 　　　　　　　　>ーｚ-,,,...--,‐,‐;;:'''""~ 　　　　
　　~''':x.,,　 ~"|{ G ゝG }|"~　 ,,z:''" 　　　　　　　　　　　＿＿＿　
　　　　　 ~"'=| ゝ､.3 _ノ |=''"~ 　　　＜ー＜> 　　　　　　　　／　　l￣￣＼
　　　　　　　 .|）) 　　　(（| 　　　　　　/￣￣ﾞｉ;:､　　　　　「￣￣￣￣|￣|￣￣￣＼
　　　　　　　　　　　　　))| 　　　ｒ'´￣「中]￣｀ヾv､　　　`-◎──────◎一'
　　　　　　　　　　　　　　　　　　├―┤＝├―┤　|li:,
　　　　　　　　　　　　　　　　　　　|「￣ |ｉ￣ｉ|「.//||「ｌn|:;
　　　　　　　　　　　　　　　　　　　||//__|Ｌ_」||＿_.||ｌ」u|:;
　　　　　　　　　　　　　　　　　　　|ニ⊃|　　|⊂ニ| || ,|/
　　　　　　　　　　　　　　　　　　　|＿. └ｰ┘ .＿| ||/
　　　　　　　　　　　　　　　　　　　ﾍ　「￣￣￣|　/

つ SCIgen - An Automatic CS Paper Generator
- http://pdos.csail.mit.edu/scigen/

383 ：名無しさん＠５周年：2009/03/28(土) 18:24:15

SimpleWordって、使えますか？
SimpleWord　V1.63は簡易テキストマイニングツール
http://www.i-juse.co.jp/cgi-bin/suuri/amc2.pl?MNO=140&CNO=458&DBID=PU&UID=PU-16852&URLID=293

384 ：名無しさん＠５周年：2009/03/28(土) 19:02:30

このスレッドはデータマイニングだよ
統計スレッドで聞いたらどうだろう

「マイニング」がついてるからきちゃったかな？

385 ：名無しさん＠５周年：2009/03/28(土) 22:52:22

なんでこんなスレがあるの？
シミュレートと直接関係ないじゃん

数学板いくべきじゃね？

386 ：名無しさん＠５周年：2009/03/28(土) 22:56:42

ん！？

それは的はずれ
シミュレーションとは（ものにより）関連性がある

387 ：名無しさん＠５周年：2009/03/28(土) 23:07:20

>>386
よく嫁
直接関係ないだろ

実際俺はデータマイニングした結果をベースに
シミュレーションを行ってモデルのパラメータ制御をおこなってる

でもデータマイニングはシミュレーションではないぉ

388 ：名無しさん＠５周年：2009/03/28(土) 23:17:02

なにしろタイトルは単に「シミュレーション」だからな
しかたないんじゃない。

389 ：名無しさん＠５周年：2009/03/29(日) 03:01:45

この板のシミュレートってのは本質的にはなんの意味なんだ？

広義なら信長の野望とかもシミュレートだろう？

390 ：名無しさん＠５周年：2009/03/29(日) 12:32:49

SVMとかニューラルネットのスレもあるし、ここでいいんでない？

391 ：名無しさん＠５周年：2009/03/29(日) 14:01:50

このスレで一番早いのは、天津飯とクリリンはどっちが強いか？
スレなんだぜ。
まあ難しく考えるなってゆうこっちゃ

392 ：名無しさん＠５周年：2009/03/29(日) 14:03:01

>>391
○板
×スレ

393 ：Tea and Coffee Time：2009/04/05(日) 08:25:36

先に「データマイニング」を使ってか、「（間接的）情報漏洩」を使ってか
に関連してです。

『＜連載＞求人票に見る警視庁天下りの実態（11回）「通信・ＩＴ」』
http://news.livedoor.com/article/detail/3695494/
（以下引用）
ＮＴＴ各社。ＮＴＴと警察といえば、癒着すれば難なく可能なのが盗聴や
通話記録の入手。最近の誘拐事件などでは、携帯電話の発する電波から被
害者や犯人の居場所特定がよく報道されますね。
「東日本電信電話（ＮＴＴ東日本）は取材拒否でした。ですが、ご指摘の
通り、同社で警察ＯＢが何をしているのかは非常に重大な問題です。過去、
私が取材した事件でも、ＮＴＴの警察ＯＢが関与し、違法な盗聴が行われて
いました。』（以上引用）

個人情報保護法を無力化する人的情報漏えいルートがあるかどうかは今後
問題になりそうです。

394 ：Tea and Coffee Time：2009/04/05(日) 08:31:28

先に「データマイニング」を使ってか、「（間接的）情報漏洩」を使ってか
に関連してです。

『キーマン・大賀の背後に警察ＯＢズラリ (ゲンダイネット)』
http://news.www.infoseek.co.jp/society/story/16gendainet02040188/

(以下引用）
『「個人情報を警察から入手していた大手消費者金融が、『情報は警察だけ
でなく、日本シークレット・サービスからも得ていた』と認めたのです。
個人情報が民間企業に筒抜け、という大変な問題です。』

（以上引用）

人的情報漏洩ルートがあるようですと、個人情報保護法も無力化し、
電波首輪理論が成立します。電波首輪理論に関しては下記参照してください。
特に固定位置情報の漏えいがされているかどうかはになります。
http://infowave.at.webry.info/200609/article_1.html
http://infowave.at.webry.info/200507/article_1.html

あからさまに個人情報保護法無視をしている可能性も高いですね。

間接的な情報漏洩の可能性に関しては下記参照してください。
http://infowave.at.webry.info/200711/article_1.html

395 ：Tea and Coffee Time：2009/04/05(日) 08:34:49

先に「データマイニング」を使ってか、「（間接的）情報漏洩」を使ってか
に関連してです。(>>393 >>395に関して)

極端な意見になるかもしれませんが、個人情報保護法を制定したのは
「個人情報を守っているふり」をする、あるいは「権力者が都合の良い
時に個人情報をまもるため」であると考えられないでしょうか。

一方では「個人情報保護法」をつくっておき、一方では「人的情報漏洩ルート」
をつくっているのはなぜでしょうか。興味深いことに、この法律とは別の（集団の）
人を通じた情報伝達ルートを一種の「世間」であると主張をする人がいいます。
つまり、情報は（間接的に）漏洩されて伝わるのが当然であり、個人情報が保護
されていると考えている人が「世間知らず」であると主張するわけです。

ただし、「個人情報保護法」をつくったのも、実はある意味の世間を使って
「人的情報漏洩」を促しているのも同じ政党であるという実態調査結果がでない
という保証がないのが怖いところです。

どうなのでしょうか。

396 ：Tea and Coffee Time：2009/04/05(日) 08:42:46

>>393 >>394 >>395に関して

データマイニングを通じて、プライバシーや個人情報保護法を尊重して
調査をする場合よりも、間接的情報漏洩を通じて個人を特定し、あとから、
データマイニングを含む後付け調査（調査したふり）をして調査費用（予算）
にするという手法がとられていないかは重要な観点になります。

あからさまに個人情報保護法無視をしている可能性も高いですね。

間接的な情報漏洩の可能性に関しては下記参照してください。
http://infowave.at.webry.info/200711/article_1.html

397 ：名無しさん＠５周年：2009/04/15(水) 21:28:17

日本の道路交通法は、全ての車両に左側通行を義務づけている。
しかし、右側を通行する自転車の何と多いことか(無論、違法行為である)。
時には法律を守るべき警察官までもが、制服で警察の自転車で右側を通行している。
これは何故か？
実はこれには陰謀が関係している。
自転車で右側通行をしている連中は、他国の工作員なのである。
その証拠は、米中韓の3国が右側通行であることだ。
もともと、日本は長らく米の占領下にあり、現在でも属国の風合いが強い。
近年においても、米は属国化を推進するため、工作員を送り込んでいる。
中は、竹島を始め、本土までも自国の領土にしようと目論んでいる。
また、韓もドラマなどを送り込むことに飽きたらず、工作員を派遣し、
日本に右側通行を根付かせようと躍起だ。
やがて、右側通行が既成事実化し、日本の道路交通法が改正されるのも、そう遠いことでは無かろう。
そのときこそ、奴らの思うつぼである。
つまり、自転車で右側通行している連中は、工作員、非国民、売国奴なのである。
忠実なる日本の国民は、奴ら国賊の陰謀には手を貸さず、阻止することに全力で協力して貰いたい。

398 ：名無しさん＠５周年：2009/04/15(水) 23:58:23

太陽が東から昇るのも陰謀かな？

399 ：名無しさん＠５周年：2009/04/16(木) 00:12:10

そうだな

そしておまえの母さんもきっと偽物だぜ

400 ：名無しさん＠５周年：2009/04/18(土) 13:06:59

>>399
なんせお前の父ちゃんはインポだからな

401 ：名無しさん＠５周年：2009/04/19(日) 14:34:11

>>400
お前いつも399の父ちゃんの股間見てるな。

402 ：名無しさん＠５周年：2009/04/21(火) 19:05:23

>>401
そらそうよ。
父ちゃんの息子自身だかんな

403 ：名無しさん＠５周年：2009/05/04(月) 15:52:27

404 ：名無しさん＠５周年：2009/05/14(木) 16:42:28

かなりアタマに来る椰子だな

405 ：名無しさん＠５周年：2009/05/16(土) 02:01:17

浮かれバカ女

406 ：名無しさん＠５周年：2009/05/17(日) 02:09:09

新橋の風俗嬢は元気か?

407 ：名無しさん＠５周年：2009/05/19(火) 00:10:47

荒れてるな

408 ：名無しさん＠５周年：2009/05/19(火) 02:50:27

データまいっちんぐで日本中の女のなかから僕に合った人みつけられますか

409 ：名無しさん＠５周年：2009/05/20(水) 18:04:25

結婚相手ってことか？無理だな。
結婚予定の予定は全て潰す。

410 ：名無しさん＠５周年：2009/05/22(金) 10:13:46

マシンラーニングの時代

411 ：名無しさん＠５周年：2009/06/07(日) 17:11:41

協調フィルタリングを説明しているお勧めの書籍ってあります？

412 ：名無しさん＠５周年：2009/06/07(日) 17:24:09

ここ数ヶ月で雨後の竹の子のごとくでてきた集合知本各種でいいんじゃない？

413 ：名無しさん＠５周年：2009/06/08(月) 10:35:53

>>408
いない者はいない

414 ：名無しさん＠５周年：2009/06/08(月) 10:37:37

「おかま」の方を掘ってみたらどうだろう

415 ：名無しさん＠５周年：2009/07/12(日) 21:36:17

みなさんこんにちは。
最近のコンピュータ将棋には最適制御理論が組み込まれています。
そのことを是非知ってもらいたくて書き込みしました。

それの情報の書かれているドキュメント
http://www.geocities.jp/bonanza_shogi/gpw2006.pdf

それの話題が書かれているスレ

ボナ４のソースを読んで書き込むスレ
http://anchorage.2ch.net/test/read.cgi/bgame/1233229938/

416 ：名無しさん＠５周年：2009/07/17(金) 08:11:34

>>415
ここじゃなく、AIだな。

417 ：名無しさん＠５周年：2009/08/04(火) 21:55:02

>>370
SPSSを、IBMが買収したようですね。
”米IBMは7月28日(現地時間)、統計解析とデータマイニング向けソフトウェアを開発する米SPSSの
買収で合意したと発表・・・SPSSは統計解析ソフトウェアでは非常に長い歴史を持っており、研究
者や学術研究の分野では広く利用されている。近年ではその技術を利用して膨大なデータ分析と
企業のビジネス改善を行うデータマイニングの分野に進出しており、高い評価を得ている・・・”
米IBM、データマイニングの米SPSSを12億ドルで買収　2009/07/28
http://journal.mycom.co.jp/news/2009/07/28/063/

418 ：名無しさん＠５周年：2009/08/08(土) 16:20:15

重回帰分析って、データマイニング手法の一種なの？
”いくつかの変数に基づいて別の変数の実数値を予測する手法である回帰分析は，大
量のデータから有用な情報を取り出すデータマイニング技術の一つとして，様々な分野
で実用化されている．回帰分析においては，可読性と汎化性が非常に重要である．可読
性とは，得られた回帰式をどのように解釈可能かどうかを，汎化性とは，未知のデータ
に対していかに精度良い予測値を推定するかを意味する．重回帰や数量化理論一類など
による線形回帰モデルでは，回帰式が線形となるため，可読性は非常に良い．しかしな
がら，線形であるために，非線形の関係を持つデータに対して高い汎化性能を期待する
ことはできない・・・・”
多層パーセプトロンによる可読性と汎化性に優れた回帰分析に関する研究　名工大　棚橋裕輔
http://repo.lib.nitech.ac.jp/bitstream/123456789/460/1/ko2009tanahashi.pdf

419 ：Tea and Coffee Time：2009/08/09(日) 00:11:16

掲示板における匿名性がどれだけ高いかと、情報漏洩ルートがあるかどうかは重要な視点である
と考えられます。下記参照してください。
http://infowave.at.webry.info/200804/article_1.html
上記に情報漏洩ルートがあるかどうかの確認法の一例を提示しています。確認法
はほかにも考えられると思います。

再度言いますが、２ちゃんねるの存在自体がひとつのデータマイニングではないでしょうか。

『データマイニング、マインドコントロールと電波首輪理論の関連性』に関して
は下記参照してください。
http://infowave.at.webry.info/200711/article_1.html

420 ：名無しさん＠５周年：2009/08/09(日) 21:04:17

>>418

「予測に利いてる変数を発見する」と考えればデータマイニングっぽいじゃん。

421 ：名無しさん＠５周年：2009/08/10(月) 13:27:01

>>416
２ちゃんねるに、AI板なんてあったっけ？

422 ：名無しさん＠５周年：2009/08/26(水) 16:35:23

>>421
まさに
ロボットテクノロジー板だよ。

まあ、将棋板でもいいけど。

423 ：名無しさん＠５周年：2009/08/26(水) 16:58:35

数理システムの時代が来た

424 ：名無しさん＠５周年：2009/11/29(日) 10:41:44

データマイニングで楽して手っ取り早く論文稼げるデータください

425 ：ライフログというプライバシーと思考盗聴の関連性：2010/01/30(土) 17:20:09

>>419に関連して

皆さんの個人情報やプライバシー情報の漏洩・流出と『思考盗聴』とよばれる
現象には関連性があるのではないでしょうか。
『ライフログ集合体と個人情報・プライバシー問題（『思考盗聴』とよばれる現象の一種について）』
http://infowave.at.webry.info/201001/article_2.html

「思考盗聴装置」という機器があるわけではないと思うのですかどうでしょうか。
もしもあるとしたら、通信伝達の媒体は何でしょうか。電磁波でしょうか。少なくとも
ずっと電磁波を頭に浴びせられていたら、脳に障害を起こしますよ。携帯電話の電磁波
でさえも長時間浴び続けると脳に悪影響がでるといわれています。

426 ：名無しさん＠５周年：2010/04/07(水) 23:10:10

hosyu

427 ：名無しさん＠５周年：2010/04/10(土) 11:33:39

このスレ何年残ってんだよw

428 ：名無しさん＠５周年：2010/04/10(土) 19:03:43

この板には１０年以上続いてるすれがごろごろあるぞ。

429 ：名無しさん＠５周年：2010/04/16(金) 22:45:51

>>423
？？？

430 ：名無しさん＠５周年：2010/04/21(水) 21:42:34

某電機メーカー工場でデータマイニングやってるが、ぶっちゃけ使えるモデルは10やって1つ位。
あまりチームとして体制も整って無いし、スマートなやり方より結局は人海戦術の方が効率良いんだよねぇ。

こっちの業界だと某S社は成果残してるみたいだけどね…

431 ：名無しさん＠５周年：2010/04/22(木) 01:46:28

>>430
S社。それは数理システム。

432 ：名無しさん＠５周年：2010/04/28(水) 12:05:44

Ｓは電機会社だよ

433 ：名無しさん＠５周年：2010/05/21(金) 06:31:28

>>415
来週、関西学研都市のNTT基礎研で一般公開があるようですね。
「NTT コミュニケーション科学基礎研究所オープンハウス2010」
【日程】 2010 年 5 月 27日 (木) 12:00-17:30 5 月 28日 (金) 9:30-16:00
【会場】 NTT 京阪奈ビル (京都府相楽郡精華町光台2-4「けいはんな学研都市」)
入場無料・事前登録不要
http://www.kecl.ntt.co.jp/openhouse/2010/

434 ：名無しさん＠そうだ選挙に行こう：2010/07/10(土) 23:07:49

>> 424
年に一度、ウェブサイトの文書を集めたCD-ROMが学術目的で販売されている。
その文章から社会現象とホームページに出てくる単語の頻度の傾向が
変わる。その統計を取る論文があったなあ、、、。かなり昔だけれど。
けれどもこのCD-ROMを買うのが一番データマイニングをするのに
手っ取り早いと思うがなあ、、、。

435 ：名無しさん＠５周年：2010/07/26(月) 19:39:14

機械学習のスレないの？

436 ：名無しさん＠５周年：2010/07/29(木) 05:33:37

≫435
Yes

437 ：名無しさん＠５周年：2010/08/13(金) 11:34:05

必要な数学は？