HTMLScraping

htmlspecialcharsを使う

度々話題にしているアンパサンドなどの特殊文字。これを、HTMLエンティティ(実体参照)に変換するhtmlspecialchars関数を使ってみました。

DATE_RFC822とDATE_RFC2822

HTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpで、RSSを作成しています。 その際、はき出すRSSの「年」が Thu, 02 Jul 09 00:00:00 +0900 となってしまい、2009と表示されない問題がありました。 問題を解決したので、メモしておきます。

RSS2.0のauthor/dc:creatorを追加する

HTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpで、RSSを作成しています。 その際、itemにauthorを追加しても表示されない問題がありました。 問題を解決したので、メモしておきます。

simplexml_load_fileとアンパサンド

&(アンパサンド)には、何度も悩まされているのですが、またもや!はまりました(--#その顛末記です。

String could not be parsed as XMLの対策

String could not be parsed as XMLの原因について、肝心の対策を書いてなかったので書いておきます。

String could not be parsed as XMLの原因

String could not be parsed as XMLと怒られる件について。 対策、間違ってました。 他の可能性を考えることは大事ですね。反省。

画像ファイルの存否を確認して、ダウンロードする方法

phpは便利ですねぇ……ほんと既存の関数だけでなんとかなっちゃう(^_^;

Stringcould not be parsed as XMLと怒られる

String could not be parsed as XML というブラウザ上の表示が私を悩ませます(--# httpヘッダに表示されているのは、400 Bad Requestです。 情報これだけorz HTMLScrapingを使って、よそのhtmlからRSSを生成するステージ、最終章です。

&コワイ

今日も今日とてHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 前々回、元にするデータに"&"が入っていたため、Warningを吐いてしまった問題について書きました。 その時はデータに問題があるから、と決めつけて半角の&を全角の&に変換してし…

閲覧にcookieが必須なページの取得

今日も今日とてHTMLScrapingです。 応用編として、閲覧にcookieが必須なサイトのデータを取得してみます。HTMLScrapingには、pearのHTTP/Requestが同梱されていて、これを使ってデータを取得しています。 HTTP/RequestはCookieに対応しているので、適切にこ…

foreach()と変数のスコープ

今までにも何度か出くわしたWarning。 「Invalid argument supplied for foreach() in 」〜うんたらかんたら。 つまり配列じゃねーんじゃねーの?って話です。

巨大なCSVファイルからRSSを作成

htmlと並行して、CSVでデータを公開しているウェブサイトがあります。 1日2回わざわざ最新情報を追加してくれているので、直接アクセスすることも予定していると思います。 htmlからRSSを作成する場合、途中xmlに変換するとはいっても、自分で構造を分析する…

continueとか文字列比較とか

前回まででHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpを使ってHTMLをRSSするコツはだいたい押さえた気がします。 出力されるRSSの内容で、不都合なものを修正する作業を引き続きします。

続・HTMLScrapingで苦戦

またまたHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 1.XMLの操作がうまくできない →配列の添え字が0から始まるのを忘れてた 2.現在の添え字が取得できない →XML操作の際、as $key => $valでは添え字取得できない ここまできて、もう全て把…

HTMLScrapingで苦戦…終了

引き続きHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 つまづいたところについて振り返ってみます。

マッシュアップツール

HTMLScrapingを理解する努力がつらくなってきました。 そこで思わずグーグル先生に何かいい方法はないですかとお伺いをたてました。

添え字の値@配列中のXML解析

引き続きHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpです。 少しづつスクレイピングのコツがわかってきた気がします。 htmlからRSSにまでできればこっちのもの!だしね〜 ほんと、HTMLScrapingの作者さんに感謝感謝です。 HTMLToFeed.class.phpの…

pearよ、こんにちは

好きでpearを使おうと思ったわけではありません(泣) HTMLScrapingで使っているため、入り口に立つことになりました。入門以前のレベルだから、というエクスキューズでは逃げられないのです

HTMLScrapingかhtmlSQLか、それが問題

正規表現ぶんまわしでのスクレイピングは、やっていて鬱々としてきます(試行錯誤が多すぎ)。 一段落したのを機に、ライブラリ等を使って処理をパターン化することにします。

HTMLScrapingで苦戦

正確にはHTMLScrapingのサンプルスクリプトHTMLToFeed.class.phpを紐解く際に苦戦しているのですが。 自分であれこれ書いている時は、知らないことは書くことができないので、わからないことは一つ一つしか出てきません。 したがって一つ一つ理解していけば…