1 :
Nanashi_et_al.:
2 :
Nanashi_et_al.:02/01/11 02:22
さて、院試まで7か月
俺が読まなければならなそうな本は、
数学→3~4冊
物理→3冊
う~ 今までの怠惰が悔やまれる
...まーいつものことなんだけどな。
激しくスレ違いでした。
538 :360 :02/01/10 23:27 ID:???
271は元祖スレの627で「過激板という2chアングラ世界を徘徊する俺」と言っている。
では、271とほぼ同時刻に板上に存在したコテハンを調べてみよう。
生物部員が元祖スレを立ててから、271によるこんにちわスレ荒らしが
終了するまでの期間に、過激板に書き込まれた全てのレスから
デフォルトHNによるレスを取り除き書き込み時間順に並べる
(実際には現行スレに倉庫から元祖スレを加えたものを用いた)。
この結果を目視で調べるだけでいろいろなことがわかるが、次のような方法を
用いて数値化を試みる。
539 :360 :02/01/10 23:28 ID:???
あるレスに対して、その前後の271の各発言時刻との差(分)に0.5(分)を
加えた値の逆数(これを隣接度 --- PDと呼ぶ)の和をコテハンごとに集計する。
このとき、以下の条件により集計を制御する。
・同時刻(0.5分以内)の発言は係数0.3、1分違いの発言は係数0.5、
2分違いの発言は係数0.7をそれぞれ隣接度に乗じる。3分以降は
逆数そのものを加算する。これは極端に時刻が近いレスは、
異なる人物によるものであるという推測にもとづいている。
・PM22時台と1AM時台のレスには係数0.75を、PM23時台と0AM時台のレスの
隣接度には係数0.5を乗じる。これは誰もが板上に存在するような時刻に
おけるレスによる雑音を低減するために行なう。
・元祖スレとこんにちわスレにおける271以外の発言は無視する。
同スレ上のコテハンがスレ荒らしによって異常に積算され、
大きな雑音となって出現することを防ぐ目的がある。
・集計期間を通した271の出現日数(単純日付で計算)が10日であるため、
出現日数が10日未満のコテハンは集計から除外する。
これもスレ荒らしの間に別スレで半チャット状態になっているケースを
除外し、大きな雑音を減らす目的がある。
540 :360 :02/01/10 23:34 ID:???
また集計に用いられたレス数をコテハンごとに保持しておき、隣接度の和を
レス数で除した数(の100倍)を計算する。これを平均隣接度(APD)と呼ぶ。
APDは直感的には、発言数の増加に伴うPDの増加を抑え、平均的な
発言間隔に対するPDの和の割り合いを示すことになる。
このようにしてコテハンごとに計算したPD,APDおよびレス数を
次の2レスに示す。最初はPDによって昇順に整列したもの。
2つ目はAPDによって昇順に整列したものである。
541 :360 :02/01/10 23:35 ID:???
隣接度の和による整列結果(上位20)
HN PD RES# APD
−−−−−−−−−−−−−−−−−−−−−−−−−−−−
駅斉藤 1.989 111 1.792
707 1.777 189 0.940
271 1.661 145 1.145 // 271ではない
日直 1.132 161 0.703
お兄さん 0.818 146 0.560
青二才 0.618 39 1.584
川崎君 0.319 63 0.507
おっちゃん 0.245 58 0.422
エロクトロ 0.231 135 0.171
恋愛詐欺師 0.207 12 1.728
クリにピアス 0.177 54 0.328
某色 0.154 77 0.199
元190 0.124 92 0.135
パープル紫o(^-^)o 0.102 58 0.176
回転木馬 0.099 26 0.382
次郎 0.086 68 0.127
あんず 0.072 23 0.311
パープル紫 0.066 195 0.034
クリオネ 0.056 39 0.143
ぴろすけ 0.047 71 0.066
542 :360 :02/01/10 23:36 ID:???
平均隣接度による整列結果(上位20)
HN PD RES# APD
−−−−−−−−−−−−−−−−−−−−−−−−−−−−
駅斉藤 1.989 111 1.792
恋愛詐欺師 0.207 12 1.728
青二才 0.618 39 1.584
707 1.777 189 0.940
271 1.661 145 1.145 // 271ではない
日直 1.132 161 0.703
お兄さん 0.818 146 0.560
川崎君 0.319 63 0.507
おっちゃん 0.245 58 0.422
回転木馬 0.099 26 0.382
クリにピアス 0.177 54 0.328
あんず 0.072 23 0.311
某色 0.154 77 0.199
パープル紫o(^-^)o 0.102 58 0.176
20 0.041 24 0.173
エロクトロ 0.231 135 0.171
クリオネ 0.056 39 0.143
元190 0.124 92 0.135
次郎 0.086 68 0.127
リアル243 0.025 22 0.115
545 :360 :02/01/10 23:43 ID:???
スマソ…
>>542の271と707は上下逆です・・・(ゲキウツ
546 :奥さん、名無しです :02/01/10 23:44 ID:???
>>360 んで、367で言ってた「あの子」って?
にしても、今日は出るのが早いな(ワラ
547 :360 :02/01/10 23:44 ID:???
ゲゲゲゲッ・・・あと、昇順は降順だった・・・(サラウツ
549 :546 :02/01/10 23:52 ID:???
>>360 結局、APDが大きいほど、271と同時間帯に重なって過激板に出現していた
コテハンになる → 同一人物の別コテハンである可能性が高い、と解釈
できるということ?
550 :360 :02/01/11 00:12 ID:???
>>549 オレが別板で使ってる2つのコテハンの12月分の
APD計算したら、1.9だたよ(ワラ
13 :
Nanashi_et_al.:02/01/11 17:13
age
14 :
Nanashi_et_al.:02/01/24 12:39
551 :546 :02/01/11 00:20 ID:???
おお、レスサンクス。また書き逃げで、相変わらずあいそのないヤツだと思ってた
とこだった(ワラ
だけど、約束は守るし、ちゃんと下げて書いてるあたりは、ホントいいヤツだな(ワラ
さて、感想。
まずはご苦労さん。推計作業よりも、ローデータの採取に時間かかったろ。
よくこんなことやったな。
んで、まずは、結果の解釈だけど、549に書いたように、APDの大きさが
同一人物である蓋然性の高さを示すというのは、確かに一理あるが、それは
同一時間帯に複数のコテハンを使い分けて書いている場合であり、同一時間
帯には271としての書込みに専念していた場合には、むしろ逆の結果をもたら
す可能性があることを考慮しなければいけないと思うが。特に、こんにちは
スレのように、彼がスレ荒らしに専念している場合には、同時に他のコテハ
ンを使い分けて書き込んでいた可能性は低いと思う。
次に、APD の算出に当たって用いた変数の設定根拠は?おそらく操作的に設
定されたものだと思うが、やや恣意的で、この数値の設定如何で結果が変わ
りうるだけに、信頼性の点でやや疑問があるのでは。
最後に、APDの信頼性、または優位水準の検討は?信頼区間の検討などの作業
はした?それがないと、このAPDの大きさにどの程度の意味があるのか疑問。
以上、批判的に検討した場合の疑問のみ記したけど、その労は多としたい。
特に、くだらん煽りに満ちているこのスレの中では、数少ない読みごたえのあ
るレスだった。感謝。
だが、オレは同じ数量的な検討をするのであれば、書き込んだテキスト自体を
対象に、計量言語学的な検討も併用する必要があるように思う。実際にやった
わけではないが、APD1位になっている駅斉藤(360の言うすごい有名人?)が
常連になっているいくつかのスレでの彼の書込みと、271としての彼の書込み
には、使用語彙やMPL(平均句長、文の長さ)などのいくつかな重要な指標で、
同一人物を思わせる特徴が感じられないんだが。
いや、スマソ、けしてケチをつけるわけではない。せっかくの労作をより実りある
ものにしたいと思っただけだ。暴言スマソ。
15 :
Nanashi_et_al.:02/01/24 12:40
558 :理系学生 :02/01/11 01:34 ID:???
>>360 うおおおーーー!
すっごいね、貴方。
>>551 >同一人物である蓋然性の高さを示すというのは、確かに一理あるが、それは
>同一時間帯に複数のコテハンを使い分けて書いている場合であり、同一時間
>帯には271としての書込みに専念していた場合には、むしろ逆の結果をもたら
>す可能性がある
そういう考え方もあるけど、私の場合は360さんの推測通りの行動パターンしてるような。
私も別の板でいくつかのハンドルを持ってるけど、レスはいったん下書きしてから
まとめて書きこむ事が多いよ。だからそれぞれのスレへのその日一発目の書きこみは
3〜5分おきになってる…。APDはかなり高い…。
貴方が言うようにその後ひとつのスレに専念することも確かにあるけどね。
>使用語彙やMPL(平均句長、文の長さ)などのいくつかな重要な指標で、
>同一人物を思わせる特徴が感じられないんだが。
でね、同じ板で別ハン使うときは一応文体も変えるし改行にも気を使う。
貴方のように文節の途中でも改行して一行の長さを揃える時もあるし、
一行の長さに関係なく文節の区切りで改行するときもある。
16 :
Nanashi_et_al.:02/01/24 12:40
560 :理系学生 :02/01/11 01:34 ID:???
だって、別ハン使ってるのがばれると叩かれるじゃない?
・・・個人的にはなんで別ハンが悪いのか分からないけど。
私はネットではハンドルが違えば別人で良いと思うし
自分の中に違う2つの考えが存在する時は別ハンで相反する書き込みをしても
OKだと思ってるけどな。
だから360さんの推測は高く評価したいけど、固定が別ハンを使うことについては
問題を感じないよ。
271がやったことに関しても、それを271個人の価値観や正義感としてとらえた時
それが正しいか間違ってるかなんて神のみぞ知る、だと。
ただまわりとの関わり方としてとらえた時、おとなしく嵐が過ぎるのを待っていた方が
場を荒らさずにすんだだろうな、とは思う。
個人の価値観を優先するか周りとの兼ね合いを優先するか、そのバランスは
難しいところだけど、ここは2ちゃんだしね。
ここではある程度個人の価値観を優先しても許されるんじゃないかと…。
17 :
Nanashi_et_al.:02/01/24 12:40
561 :360 :02/01/11 01:36 ID:???
素データの収集と前処理はチョコチョコって書いたプログラムでザーっと・・・(アセワラ
というわけで、係数操作を一切せずに単にPD=時間差(+0.5)の逆数とし、
元祖スレ、こんにちわスレ、夢スレ×2のスレ荒らし期間を除いて計算して
みました。APDの降順だけね。
HN PD RES# APD
−−−−−−−−−−−−−−−−−−−−−−−−−−−−
271 7.688 145 5.302 // 271ではない
青二才 2.059 39 5.279
707 8.534 188 4.539
日直 5.122 160 3.201
お兄さん 3.755 146 2.572
おっちゃん 1.238 57 2.171
あんず 0.423 23 1.840
駅斉藤 1.905 104 1.832
クリにピアス 0.783 54 1.449
20 0.255 24 1.060
川崎君 0.577 60 0.961
次郎 0.512 61 0.840
エロクトロ 0.889 130 0.684
リアル243 0.149 22 0.676
某色 0.520 77 0.675
パープル紫o(^-^)o 0.342 55 0.621
ななし 0.176 30 0.587
クリオネ 0.225 39 0.578
元190 0.475 92 0.517
♂ 0.081 16 0.507
11 0.118 30 0.394
18 :
Nanashi_et_al.:02/01/24 12:41
562 :360 :02/01/11 01:40 ID:???
で、数理言語学的なアプローチについては、標本にその手の知識がある場合、
恣意的に特徴を分散させることが可能であるってことで、あまり重要視してないんですよ。
標本数もあまり多くないし。
統計学的な信頼性の検証についてはご指摘のとおり、一切やってません(ワラ
そこが結論を控えてる所以でもあるのです。
時刻順のレス一覧・・・場所があったらウプしよっかなぁ・・・興味深いですよ(マヂワラ
563 :551 :02/01/11 01:41 ID:???
>>558 了解。以下、補足。
APDを指標とする妥当性は、結局、本人の行動パターン如何ということになり、
決定打となりえないことになる(特に、複数のコテハンを使い分けずに、名無し
も併用している場合には)。
計量言語学に558がどのくらい明るいか不明だが、意図的に文体を変えようと
思っても、ある程度の特徴は検出できる。勿論、スレが違えば、使用する語彙も
変わるし、そもそもフリーで書いてる場合と比べて、BBSへの書込みの場合は、
始めから、文章の長さ、漢字の使用傾向、推敲の時間などに一定のバイアスが
かかっているので、テキストデータの一次資料としての価値は多少下がるという
限界もある。
19 :
Nanashi_et_al.:02/01/24 12:41
564 :557とか :02/01/11 01:43 ID:???
このデータってのは
271やその他のスレ荒らしをデータで実証しようってことかい?
>>558の理系学生氏のいうことに一票かな。
ただ俺の場合、別コテハンを使うときでも文体は変えない。
2ちゃんだからね。叩きなんていちいち気にしないよ。
あと個人的には名無しを併用で使う可能性ってこともデータに
いれてもらいたいが・・・無理かな(藁
565 :557とか :02/01/11 01:47 ID:???
あ、
>>563にあるな。スマソ。
566 :551 :02/01/11 01:49 ID:???
>>561 わざわざありがとう。こっちの方が興味深い。
この中で、スレ荒らしの時間帯に出現していなかった別ハンが
いたら、それを排除するともっとしぼれるね。
時刻順のレス一覧、とっても興味ある。ヒマと場所があったら
どっかにうpしてくれ。
あらためて感心。
20 :
Nanashi_et_al.:
sage