【RSS】 Yahoo! Pipes 【スクレイピング】

このエントリーをはてなブックマークに追加
940名無しさん@お腹いっぱい。:2012/07/29(日) 16:21:03.45
>>939
httpsだから駄目だと思う
941名無しさん@お腹いっぱい。:2012/07/29(日) 17:08:10.69
942名無しさん@お腹いっぱい。:2012/07/29(日) 17:14:25.60
https://commodity-board.com/ならpipeから見えるけど
https://commodity-board.com/cat4は見えないんだよな
metaタグで拒否されてる訳でもなさそうだし。単に重くて処理し切れてないのかね。
943名無しさん@お腹いっぱい。:2012/07/29(日) 18:29:53.33
https://commodity-board.com/cat3とかhttps://commodity-board.com/cat5もダメだな
なんでだろう。

https://commodity-board.com/にも>>939の最新5件が表示されてるから
//*[@class="list-def-news-01 clear"] とかで切り出せるけど
立て続けに新しい記事が追加されると取りこぼしちゃうかもしれないな。
944名無しさん@お腹いっぱい。:2012/07/31(火) 18:58:54.72
>>937
解析してくれてありがとう!
なるほど、一筋縄ではいかないサイトだったのね。
しょうがない諦めるか。

FirebugとFirePathを導入したので、これから頑張るわ!
945名無しさん@お腹いっぱい。:2012/08/01(水) 00:25:35.82
XPath使ってHTMLからデータを取り出す手間がないぶん
むしろ楽じゃないか?
946名無しさん@お腹いっぱい。:2012/08/09(木) 13:03:39.84
PipesみたいなことできるサービスまたはCGIってありますか?
947名無しさん@お腹いっぱい。:2012/08/10(金) 07:43:19.57
XPath+Loopを使って、linkをdescription中に展開するような事って
YQLのみで出来ないだろか?
948名無しさん@お腹いっぱい。:2012/08/10(金) 09:55:33.95
普通にYQLにLINKURLを渡せばいいんでないの。どの部分が問題なのか分からん。
949名無しさん@お腹いっぱい。:2012/08/10(金) 14:00:02.19
うん?
950名無しさん@お腹いっぱい。:2012/08/12(日) 22:54:47.43
質問です。

数十サイトのブログRSSを取得して見ているのですが、その中の数サイトに未来記事(例,2030年,2012年12月)などの記事を
お知らせの代わりにアップしている記事のみを除外したいです。
一時的ならばいいのですが、数日経つとまた日付を変えて未来記事で書いてしまっているので、
日時を指定(当日のみ取得)して時系列ソートできないでしょうか?
もしくは、当日から72時間以内の更新日のみ取得は出来るでしょうか。
その際のフィルタ設定をご教授お願い致します。
951名無しさん@お腹いっぱい。:2012/08/13(月) 02:43:31.54
date builderはnowとかtodayとかも入るから、
それをfilterにつなげればいい
952名無しさん@お腹いっぱい。:2012/08/16(木) 17:11:49.09
日経ビジネスオンラインに連載されてる記事で、複数ページに跨った物を取り込んで
全文取得RSS化しようと思ったんだけど、ダメっぽいね。
そうか乙カレー
954名無しさん@お腹いっぱい。:2012/08/16(木) 21:29:37.71
アメブロRSSのdescriptionのhtmlタグと改行を全部削除したいのですが、

Regex
item.description replace <.*?> with (半角スペース) g m

でできないのですがどうやればいいのでしょうか・・・
955名無しさん@お腹いっぱい。:2012/08/16(木) 21:43:43.76
タグはそれで全部消えると思うけどなぁ
あと\nも消すか
956名無しさん@お腹いっぱい。:2012/08/17(金) 03:45:07.94
作ったpipeの説明の文章で改行が使えないのが非常に不便
957名無しさん@お腹いっぱい。:2012/08/17(金) 06:07:41.21
いろいろと不便が多いな
958名無しさん@お腹いっぱい。:2012/08/21(火) 01:57:36.71
ノーブレークスペースが消えないのが不便
タイトルに不恰好なスペースが残ってイーってなる
みんなは割り切って使ってるのかな?
それとも俺が消し方に気がついてないだけ?
959名無しさん@お腹いっぱい。:2012/08/21(火) 06:20:43.60
タイトルにノーブレークスペース?どういうこっちゃ?
960名無しさん@お腹いっぱい。:2012/08/22(水) 00:17:07.24
ノーブレークスペースは外見上は半角スペースと区別できないのに\sにマッチしないのがややこしい
Regex系のモジュールは"\xA0"という形式で文字コードを指定できるようなので
replace:"\xA0", with:""とかで消せる
961名無しさん@お腹いっぱい。:2012/08/22(水) 06:47:49.16
なんだ、そんなことができたのか
962958:2012/08/22(水) 09:52:22.77
>>960
ありがとう!
愛してる!

>>959
Xpath Fatch Pageで引っ張ってきた文章の一部からタイトルにする文を抜き出そうとしたら、ソースが
「<p id="topic-path"><a href="/index.html">ホーム</a> >> [タイトルに使いたい部分]</p>」
のようになってて、[タイトルに使いたい部分]以外を消そうとしても、前に2つノーブレークスペースが残ってしまっていたのよ
963名無しさん@お腹いっぱい。:2012/08/23(木) 00:03:21.51
なるほど
964名無しさん@お腹いっぱい。:2012/08/26(日) 01:00:55.26
質問なんですが、こんな表示の出し方できますか?

Aサイトの1番目の記事
Aサイトの2番目の記事
Aサイトの3番目の記事
Bサイトの1番目の記事
Bサイトの2番目の記事




ようはサイトごとにまとめて表示したいんです。是非終えてください!
965名無しさん@お腹いっぱい。:2012/08/26(日) 03:11:47.61
最初の状態で順番がぐちゃぐちゃになってるってこと?
まずlinkをcopy asして適当な名前(例えばaaa)でitemを作る。
Aサイトがwww.hoge.comだったら、regexでそれ含んでたら1に置き換える。
同じようにしてBサイトは2で。あとはaaaでsortすればいい。
966名無しさん@お腹いっぱい。:2012/08/26(日) 09:23:52.26
(´‥∀‥`)ほう
967名無しさん@お腹いっぱい。:2012/08/26(日) 18:23:08.26
今、ちょっと悩んでるんだが、
http://www.foursp.jp/erika/blog/
をRSS化する場合、どう処理するのが適切?

select * from html where url="http://www.foursp.jp/erika/blog/" and xpath="//*[@class='entry-body']"

だと、タイトル付けられないし、本文の一部が飛ぶ。

pipesじゃなくて、dapper使うと写真取り込んでくれないし。
968名無しさん@お腹いっぱい。:2012/08/26(日) 18:50:18.33
>>967
//*[@class='entry'] でいいんじゃないの。
あとからregexでタイトル抽出したり本文抽出したり。自分は日付も抽出してpubdateにしたい。
あと本文が飛ぶってのはよくわからない。たしかにYQLでそれやると
例えば最新記事の「家族でお出かけ」の行とかがきえてしまうけども、
XPath Fetch PageでEmit items as stringにチェック入れてると問題ないような。
969名無しさん@お腹いっぱい。:2012/09/01(土) 19:00:50.21
http://tr.twipple.jp/gazou/
このサイトでランキング画像を取得したいんだけど
javascriptが絡んでて取得できない・・
教えて下さい。
970名無しさん@お腹いっぱい。:2012/09/01(土) 20:14:23.42
971名無しさん@お腹いっぱい。:2012/09/01(土) 20:48:23.50
前後にゴミがついててJSONと認識されないな
まずFetch Dataで取得したあとに、Regex使って
最初の所を {"rankingList" になるようにして、最後の所を }]} になるようにすれば
勝手に配列に直してくれる
972名無しさん@お腹いっぱい。:2012/09/02(日) 00:24:55.53
>>971
Regexのところの
in、replace、withにどのように書いてゴミを除けばいいか教えて下さい
973名無しさん@お腹いっぱい。:2012/09/02(日) 03:03:23.57
>>972
最初は削るよりくっつけたほうが早いか
item.content replace ^ with {"lastUpdate":
item.content replace \);$ with (空白)
974名無しさん@お腹いっぱい。:2012/09/02(日) 21:28:22.30
↓そろそろ次スレ?
975名無しさん@お腹いっぱい。:2012/09/03(月) 00:49:35.31
>>973
ありがとうございます!出来ましたm(_ _)m
976名無しさん@お腹いっぱい。:2012/09/03(月) 09:50:33.13
新スレ用のテンプレとか、ある?
977名無しさん@お腹いっぱい。:2012/09/03(月) 13:21:52.91
ときどきYahoo! Pipes以外のサービスの話題も出てるようだが
スレタイはこのままでいいか?
978名無しさん@お腹いっぱい。:2012/09/03(月) 14:47:05.87
>>968
多分コレで大丈夫って感じにしてみたものの、新しいエントリーが流れてこないw
ともあれ、ありがとう。

日付のpubDate化が上手く行ってるかどうかだな〜。
979名無しさん@お腹いっぱい。:2012/09/04(火) 02:13:34.15
>>978
小池唯のブログのフィード作った時は、pubateがうまくいかなかったから、リンクの後ろに?とブログのタイトルをくっつけて、無理やり新しいリンクを生成した
980名無しさん@お腹いっぱい。:2012/09/06(木) 18:34:01.16
エントリーは一つのタグではなく「<dr> タイトル </dt> <dd> 内容 </dd>」でまとめられている場合はどうやってアイテム化するのだろ。
本当は XPath で指定したいけど、まだそこまで高度な記述が出来ず、とりあえず deprecated の Page Fetcher で取得して正規表現で過去したのだが。
981名無しさん@お腹いっぱい。:2012/09/07(金) 15:57:02.51
確かに
982名無しさん@お腹いっぱい。:2012/09/07(金) 16:25:59.03
descriptionを部分配信に変更したいです。

例えば、description文字数50文字以降は削除

と、したいのですが、正規表現がわかりません。
ご教授お願いします。
983名無しさん@お腹いっぱい。:2012/09/07(金) 17:09:03.99
replace ^(.{50}).* with $1
984名無しさん@お腹いっぱい。:2012/09/07(金) 17:34:26.28
980超えたら1日で落ちるんだっけ。
985名無しさん@お腹いっぱい。:2012/09/08(土) 00:32:29.39
>>983
その前にタグを削除だな
986名無しさん@お腹いっぱい。:2012/09/08(土) 01:02:12.97
ありがとうございました!

とりあえず、下記のようにしています。
item.description replace <.*?> with [半角スペース]
item.description replace \r|\n with [半角スペース]
item.description replace ^(.{50}).* with [$1]

タグ+改行+文字数50です。
987名無しさん@お腹いっぱい。:2012/09/08(土) 13:18:16.47
>>979
このスレにファンが居るとは思わなかったw

無理やり新しいリンクって、どんなやり方したの?
988名無しさん@お腹いっぱい。:2012/09/09(日) 09:50:40.97
>>987
現物が見つからなかったので、簡単に再現
ttp://i.imgur.com/WthPu.jpg

トップページのURLの後ろに?とタイトルをくっつけることで新しいリンクを生成
記事への個別のリンクがなくて、とりあえず更新を通知すればいい場合はこうしてる

たぶんもっといい方法があるだろうけど、思いつかない
989名無しさん@お腹いっぱい。
【RSS】  Yahoo! Pipes 2  【XPath】
http://toro.2ch.net/test/read.cgi/esite/1347235174/