【ウェブ/テクノロジー】増え続けるスパムブログの現状は…ライブドアが検索に新技術、9割排除[08/10/10]

このエントリーをはてなブックマークに追加
1依頼@台風0号φ ★:2008/10/11(土) 02:25:19 ID:???
 ライブドアは10月10日、「livedoorブログ検索」に、検索結果にスパムブログを表示しない技術を実装した。
スパムブログを自動判定する技術を新開発。従来、検索結果の半分ほどスパムだったが、新技術でスパム
の約9割が表示されなくなったという。

 スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って
自動生成された、内容の伴わないブログ。

 別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載している
もののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめ
の文章「ワードサラダ」を自動生成し、投稿しているものもある。

 同社エンジニアの山下拓也さんによると、「日々新しいパターンのスパムブログが出てくる」という。スパムが
検索結果に表示されなくなれば、スパムブログを通じてアフィリエイトで稼ごうとするユーザーが減り、スパム
ブログ自体も減っていくと期待する。

◆10種類のフィルターでスパム排除

 livedoorブログ検索では従来、目視と簡単なプログラムを使ってスパムブログを削除していた。新たに、スパム
ブログを自動判定する新技術を、社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に
実装した。

 新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラー
で収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタに
かける。スパムブログが見つかれば、検索対象から除外する。

 収集したブログ記事を、同社が持つ100万件のブログ記事のサンプルと比較し、類似した記事が投稿されて
いないかを確認する――といったことも行う。スパムブログの中でも、別のブログ記事をコピーして作ったものが
多いためだ。

 同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのに
スパムと誤判定した割合は1.8%。ほかの記事を引用して短いコメントを付けているようなブログ記事は、誤って
スパムと判定してしまう場合があった。

 今後はフィルタの種類やブラックリストに登録されたブログの数を増やしていく。現在ブラックリストには十数
万件が登録されているという。

▽ソース:ITmedia (2008/10/10 11:00)
http://www.itmedia.co.jp/news/articles/0810/10/news012.html
記事は>>2以降に続きます。
2依頼@台風0号φ ★:2008/10/11(土) 02:25:36 ID:???
>>1の続きです。
◆1人で2000個のIDを作成し、投稿するスパムブロガーも

 スパムブログは3〜4年ほど前から増え始めたという。「ブログがメディアで取り上げられるようになってから
増えてきた」と、井原郁央マネージャーは感じている。

 同社の調査によると、スパムブログでよく使われる3つのキーワードで抽出した90のブログ記事のうち、約66%
がスパムだった。1人で1つのブログサービスに2000以上のIDを作り、スパム記事を大量に投稿するユーザーも
いるという。livedoor ブログのスパム記事の割合は、正確なデータを集計していないが、66%よりは少ないとして
いる。

 大量にスパムブログが生成されるのは、専用ツールが出回っているため。「アフィリエイトでもうかる方法教え
ます」と売り込むサイトなどで、専用ツールが販売されているという。「スパムブログを通じて最ももうけているの
は、専用ツールを売っているユーザーでは」(井原マネージャー)

◆人が見ても判定しづらいスパムが増えている

 山下さんによると「人が見てもスパムかどうか判定しづらいスパムブログが増えている」という。ニュースを
コピーし、語尾を関西弁風に変えているというスパム記事もある。コピー元との類似性を下げることで、スパム
フィルターに引っかかりにくくしているというわけだ。「日々新しいパターンのスパムブログが出てくるが、その
パターンはシステムでは判別できず、人間の力に頼るしかない」(山下さん)

 スパムブログに関する情報を公開したり、他社と交換するといったことも積極的に進めていきたい考えだ。
ニフティとはスパム判定に関する情報を交換しているという。

 「スパム業者に手口を覚えられるからと、情報や技術を公開したり、交換したがらない企業もあると思うが、
1社で対策するよりは、お互い手を組んだ方がいい。スパム業者同士も手を組んでやっているような印象が
ある」(井原マネージャー)

 情報公開の一環として今後、ラボサイト「livedoor ラボ『EDGE』」で、IPアドレスを入力すると、そのアドレスが
同社のスパムのブラックリストに登録されているかどうかを返してくれるサービスを公開する予定。個人でブログ
を運営していて、スパムコメントに困っているユーザーなどに使ってもらうことを想定している。

▽ソース:ITmedia (2008/10/10 11:00)
http://www.itmedia.co.jp/news/articles/0810/10/news012.html
3名刺は切らしておりまして:2008/10/11(土) 02:26:33 ID:ENjWXy7V
スパムブログですら増え続けてるというのに
おまえらときたら
4名刺は切らしておりまして:2008/10/11(土) 02:27:26 ID:ltuEFa0T
スパム生成元が排除って。自作自演丸出し
5名刺は切らしておりまして:2008/10/11(土) 02:40:24 ID:lcFIp+NC
ええと、おまいがいうなスレ?
6名刺は切らしておりまして:2008/10/11(土) 02:43:04 ID:+8z9njMc
自分で作って自分で排除してウマーですね、分かります。
7名刺は切らしておりまして:2008/10/11(土) 02:43:23 ID:HCJ8cuYN
おれ出会ったことないな。
サンドウィッチマンのブログ以外、ブログってみることないからかも。
だれか誘導してくれない。
見てみたい。
8名刺は切らしておりまして:2008/10/11(土) 02:50:41 ID:f0u4V5Jx
>>7
@任意の言葉と「ブログ」でググる
Aランキングの順位の低いブログをクリック(一番ケツおk)
Bそのブログのコメント欄見る

9名刺は切らしておりまして:2008/10/11(土) 02:57:49 ID:XnLfjQ+D
>ニュースを>コピーし、語尾を関西弁風に変えているというスパム記事

同じくそんなスパムブログ見たこと無いな。
とても見てみたい。
>>8の方法で検索してもそれらしいものは見あたらない。
10名刺は切らしておりまして:2008/10/11(土) 02:58:13 ID:KDw7cIFa
具体的にはこういうツールです

http://2ch.zz.tc/rakuly
http://2ch.zz.tc/adboy
11名刺は切らしておりまして:2008/10/11(土) 03:04:49 ID:f0u4V5Jx
>>9
ゴメン 寝ぼけてた orn
コメントスパムと間違えた

12名刺は切らしておりまして:2008/10/11(土) 03:21:30 ID:7kbeg+rE
フレッシュネスのスパムバーガーが何気に美味かった
13名刺は切らしておりまして:2008/10/11(土) 03:47:06 ID:NZEcUy+C
マイナーな製品のレビューを探しているとスパムブログばかり引っ掛かってウンザリする
究極的な話、グーグルかアマゾンが無くなればこういうのも少しは減るんだろうがな
14名刺は切らしておりまして
もともとブログなんて価値ないものがほとんどだったからなあ。
それでも玉石があるから悩みどころだw