【RSS】 Yahoo! Pipes 【スクレイピング】
>>937 解析してくれてありがとう!
なるほど、一筋縄ではいかないサイトだったのね。
しょうがない諦めるか。
FirebugとFirePathを導入したので、これから頑張るわ!
XPath使ってHTMLからデータを取り出す手間がないぶん
むしろ楽じゃないか?
PipesみたいなことできるサービスまたはCGIってありますか?
XPath+Loopを使って、linkをdescription中に展開するような事って
YQLのみで出来ないだろか?
普通にYQLにLINKURLを渡せばいいんでないの。どの部分が問題なのか分からん。
うん?
950 :
名無しさん@お腹いっぱい。:2012/08/12(日) 22:54:47.43
質問です。
数十サイトのブログRSSを取得して見ているのですが、その中の数サイトに未来記事(例,2030年,2012年12月)などの記事を
お知らせの代わりにアップしている記事のみを除外したいです。
一時的ならばいいのですが、数日経つとまた日付を変えて未来記事で書いてしまっているので、
日時を指定(当日のみ取得)して時系列ソートできないでしょうか?
もしくは、当日から72時間以内の更新日のみ取得は出来るでしょうか。
その際のフィルタ設定をご教授お願い致します。
date builderはnowとかtodayとかも入るから、
それをfilterにつなげればいい
日経ビジネスオンラインに連載されてる記事で、複数ページに跨った物を取り込んで
全文取得RSS化しようと思ったんだけど、ダメっぽいね。
そうか乙カレー
954 :
名無しさん@お腹いっぱい。:2012/08/16(木) 21:29:37.71
アメブロRSSのdescriptionのhtmlタグと改行を全部削除したいのですが、
Regex
item.description replace <.*?> with (半角スペース) g m
でできないのですがどうやればいいのでしょうか・・・
タグはそれで全部消えると思うけどなぁ
あと\nも消すか
956 :
名無しさん@お腹いっぱい。:2012/08/17(金) 03:45:07.94
作ったpipeの説明の文章で改行が使えないのが非常に不便
いろいろと不便が多いな
958 :
名無しさん@お腹いっぱい。:2012/08/21(火) 01:57:36.71
ノーブレークスペースが消えないのが不便
タイトルに不恰好なスペースが残ってイーってなる
みんなは割り切って使ってるのかな?
それとも俺が消し方に気がついてないだけ?
タイトルにノーブレークスペース?どういうこっちゃ?
ノーブレークスペースは外見上は半角スペースと区別できないのに\sにマッチしないのがややこしい
Regex系のモジュールは"\xA0"という形式で文字コードを指定できるようなので
replace:"\xA0", with:""とかで消せる
なんだ、そんなことができたのか
962 :
958:2012/08/22(水) 09:52:22.77
>>960 ありがとう!
愛してる!
>>959 Xpath Fatch Pageで引っ張ってきた文章の一部からタイトルにする文を抜き出そうとしたら、ソースが
「<p id="topic-path"><a href="/index.html">ホーム</a> >> [タイトルに使いたい部分]</p>」
のようになってて、[タイトルに使いたい部分]以外を消そうとしても、前に2つノーブレークスペースが残ってしまっていたのよ
なるほど
質問なんですが、こんな表示の出し方できますか?
Aサイトの1番目の記事
Aサイトの2番目の記事
Aサイトの3番目の記事
Bサイトの1番目の記事
Bサイトの2番目の記事
・
・
・
ようはサイトごとにまとめて表示したいんです。是非終えてください!
最初の状態で順番がぐちゃぐちゃになってるってこと?
まずlinkをcopy asして適当な名前(例えばaaa)でitemを作る。
Aサイトがwww.hoge.comだったら、regexでそれ含んでたら1に置き換える。
同じようにしてBサイトは2で。あとはaaaでsortすればいい。
(´‥∀‥`)ほう
>>967 //*[@class='entry'] でいいんじゃないの。
あとからregexでタイトル抽出したり本文抽出したり。自分は日付も抽出してpubdateにしたい。
あと本文が飛ぶってのはよくわからない。たしかにYQLでそれやると
例えば最新記事の「家族でお出かけ」の行とかがきえてしまうけども、
XPath Fetch PageでEmit items as stringにチェック入れてると問題ないような。
969 :
名無しさん@お腹いっぱい。:2012/09/01(土) 19:00:50.21
前後にゴミがついててJSONと認識されないな
まずFetch Dataで取得したあとに、Regex使って
最初の所を {"rankingList" になるようにして、最後の所を }]} になるようにすれば
勝手に配列に直してくれる
972 :
名無しさん@お腹いっぱい。:2012/09/02(日) 00:24:55.53
>>971 Regexのところの
in、replace、withにどのように書いてゴミを除けばいいか教えて下さい
>>972 最初は削るよりくっつけたほうが早いか
item.content replace ^ with {"lastUpdate":
item.content replace \);$ with (空白)
↓そろそろ次スレ?
975 :
名無しさん@お腹いっぱい。:2012/09/03(月) 00:49:35.31
>>973 ありがとうございます!出来ましたm(_ _)m
新スレ用のテンプレとか、ある?
ときどきYahoo! Pipes以外のサービスの話題も出てるようだが
スレタイはこのままでいいか?
>>968 多分コレで大丈夫って感じにしてみたものの、新しいエントリーが流れてこないw
ともあれ、ありがとう。
日付のpubDate化が上手く行ってるかどうかだな〜。
979 :
名無しさん@お腹いっぱい。:2012/09/04(火) 02:13:34.15
>>978 小池唯のブログのフィード作った時は、pubateがうまくいかなかったから、リンクの後ろに?とブログのタイトルをくっつけて、無理やり新しいリンクを生成した
エントリーは一つのタグではなく「<dr> タイトル </dt> <dd> 内容 </dd>」でまとめられている場合はどうやってアイテム化するのだろ。
本当は XPath で指定したいけど、まだそこまで高度な記述が出来ず、とりあえず deprecated の Page Fetcher で取得して正規表現で過去したのだが。
確かに
982 :
名無しさん@お腹いっぱい。:2012/09/07(金) 16:25:59.03
descriptionを部分配信に変更したいです。
例えば、description文字数50文字以降は削除
と、したいのですが、正規表現がわかりません。
ご教授お願いします。
replace ^(.{50}).* with $1
980超えたら1日で落ちるんだっけ。
ありがとうございました!
とりあえず、下記のようにしています。
item.description replace <.*?> with [半角スペース]
item.description replace \r|\n with [半角スペース]
item.description replace ^(.{50}).* with [$1]
タグ+改行+文字数50です。
>>979 このスレにファンが居るとは思わなかったw
無理やり新しいリンクって、どんなやり方したの?
988 :
名無しさん@お腹いっぱい。:2012/09/09(日) 09:50:40.97
989 :
名無しさん@お腹いっぱい。: