HTMLScraping
度々話題にしているアンパサンドなどの特殊文字。これを、HTMLエンティティ(実体参照)に変換するhtmlspecialchars関数を使ってみました。
HTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpで、RSSを作成しています。 その際、はき出すRSSの「年」が Thu, 02 Jul 09 00:00:00 +0900 となってしまい、2009と表示されない問題がありました。 問題を解決したので、メモしておきます。
HTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpで、RSSを作成しています。 その際、itemにauthorを追加しても表示されない問題がありました。 問題を解決したので、メモしておきます。
&(アンパサンド)には、何度も悩まされているのですが、またもや!はまりました(--#その顛末記です。
String could not be parsed as XMLの原因について、肝心の対策を書いてなかったので書いておきます。
String could not be parsed as XMLと怒られる件について。 対策、間違ってました。 他の可能性を考えることは大事ですね。反省。
phpは便利ですねぇ……ほんと既存の関数だけでなんとかなっちゃう(^_^;
String could not be parsed as XML というブラウザ上の表示が私を悩ませます(--# httpヘッダに表示されているのは、400 Bad Requestです。 情報これだけorz HTMLScrapingを使って、よそのhtmlからRSSを生成するステージ、最終章です。
今日も今日とてHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 前々回、元にするデータに"&"が入っていたため、Warningを吐いてしまった問題について書きました。 その時はデータに問題があるから、と決めつけて半角の&を全角の&に変換してし…
今日も今日とてHTMLScrapingです。 応用編として、閲覧にcookieが必須なサイトのデータを取得してみます。HTMLScrapingには、pearのHTTP/Requestが同梱されていて、これを使ってデータを取得しています。 HTTP/RequestはCookieに対応しているので、適切にこ…
今までにも何度か出くわしたWarning。 「Invalid argument supplied for foreach() in 」〜うんたらかんたら。 つまり配列じゃねーんじゃねーの?って話です。
htmlと並行して、CSVでデータを公開しているウェブサイトがあります。 1日2回わざわざ最新情報を追加してくれているので、直接アクセスすることも予定していると思います。 htmlからRSSを作成する場合、途中xmlに変換するとはいっても、自分で構造を分析する…
前回まででHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpを使ってHTMLをRSSするコツはだいたい押さえた気がします。 出力されるRSSの内容で、不都合なものを修正する作業を引き続きします。
またまたHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 1.XMLの操作がうまくできない →配列の添え字が0から始まるのを忘れてた 2.現在の添え字が取得できない →XML操作の際、as $key => $valでは添え字取得できない ここまできて、もう全て把…
引き続きHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 つまづいたところについて振り返ってみます。
HTMLScrapingを理解する努力がつらくなってきました。 そこで思わずグーグル先生に何かいい方法はないですかとお伺いをたてました。
引き続きHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 少しづつスクレイピングのコツがわかってきた気がします。 htmlからRSSにまでできればこっちのもの!だしね〜 ほんと、HTMLScrapingの作者さんに感謝感謝です。 HTMLToFeed.class.phpの…
好きでpearを使おうと思ったわけではありません(泣) HTMLScrapingで使っているため、入り口に立つことになりました。入門以前のレベルだから、というエクスキューズでは逃げられないのです
正規表現ぶんまわしでのスクレイピングは、やっていて鬱々としてきます(試行錯誤が多すぎ)。 一段落したのを機に、ライブラリ等を使って処理をパターン化することにします。
正確にはHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpを紐解く際に苦戦しているのですが。 自分であれこれ書いている時は、知らないことは書くことができないので、わからないことは一つ一つしか出てきません。 したがって一つ一つ理解していけば…