« 一般紙の有料電子版は広告とゲームを促進する、かも | トップページ | iPadは電子回覧板になる、居間にやって来た第6の窓だ(構想メモ) »

2010.04.23

都道府県ページにキーフレーズを収載

JapanLocalに「キーフレーズ」という小さなリンク集を載せた。Yahoo!デベロッパーネットワークキーフレーズ抽出APIを使って、フィードに載っているリンクひとつずつについて、リンク先のページの title、h1~h3タグの内容を調べて、特徴的なフレーズを抽出して集計した。

都道府県単位で数を数えて、出現回数が2回以上のワードについてまとめてみた。各都道府県別のページの右カラム下に表示している。フレーズの数や傾向を眺めると、都道府県ごとの特徴のようなものが見えるかもしれない。フレーズ抽出には、リンク先ページのデータを使っているので、フィードの見出しには出てこない言葉が表示されていたりする。

それぞれのウェブ担当者のクセが出ているかもしれない。

最初は形態素解析で、リンク先ページの全データを処理しようとしたのだが、ページ末尾に載っている決まり文句とか連絡先、問合せ先などでノイズがひどく多くなることがわかった。それに、形態素解析では助詞なんかの品詞で分解されてしまうので、細かくなりすぎてリスト化するとわかりにくい。

そこでキーフレーズ抽出を使うことにした。形態素解析にくらべると Yahoo!の APIのクセが強く出てしまっているが、それはそれで、ま、いいのかな、と思う。

◇ ◇

それから、都道府県別のページの右カラムに、livedoorの天気情報を表示している。

« 一般紙の有料電子版は広告とゲームを促進する、かも | トップページ | iPadは電子回覧板になる、居間にやって来た第6の窓だ(構想メモ) »

ウェブページ

フォト

hide module-header

redirect to tafworks.com

GglAnlytcs