Yahoo! JapanのWeb APIには「ルビ振り」というテキスト解析がある件

書籍等のタイトルの「ふりがな」って意外と手に入れにくいものの気がします。
自動化できるなんて考えもしなかったのですが、Yahoo! JapanのWeb API「ルビ振り」を使えばできちゃいます。



経緯

今時、五十音順に並べられたものを探すぐらいならGoogleで検索しちゃうよ、と言われる気がします。
実際、私もAmazonを使うときは、リストを眺めたりしないでほぼ全てGoogleの検索かAmazon内の検索です(^^;


しかしなんとなく五十音順ってあると安心するんです。
ただ他の情報はともかく、「ふりがな」を外部に提供している会社はほとんど見たことがありません。


すると否が応でも手入力を迫られます。
これからの分はともかく、過去の分まで?無理無理……です。


すっかりあきらめていたんですが、タグ付けの方法を探していて形態素解析周りを漁っていたら方法がみつかりました。


テキスト解析−ルビ振り

Yahoo! JAPAN デベロッパーネットワークのアプリケーションID(要無料登録)と、ふりがなを振りたい文章をGETで投げると、XMLで返してくるというAPIのオーソドックスなパターンですね。


「24時間以内で1つのアプリケーションIDにつき50000件のリクエストが上限」ですが、内部に格納するためふりがなを取得するだけであれば1日5万件も生じることは考えられないので十分ですね。便利。

冒頭の写真は、テキスト解析動作デモページでレスポンスの種類に「よみ」を指定した場合です。


▽テキスト解析−ルビ振り(Yahoo! JAPAN デベロッパーネットワーク)
 http://developer.yahoo.co.jp/webapi/jlp/furigana/v1/furigana.html


Apache + PHP-5.2の場合のテキスト解析サンプルコード(Yahoo! JAPAN デベロッパーネットワーク)
 http://developer.yahoo.co.jp/sample/jlp/sample2.html


▽テキスト解析動作デモ(Yahoo!ジオシティーズ
 http://cgi.geocities.jp/ydevnet/sample/jlp/sample2/ma_sample.php


他の部分が一通りできたら、過去分についてまとめてリクエストを出して登録し、新着分については毎回リクエストを投げて登録していこうと思います。