auのEZweb公式サイトのカテゴリで自社のサイトが何位なのか調べるために、わざわざ実機で調べていたけどau oneのPCサイトでEZweb公式サイトカテゴリが閲覧できた。
順位もちゃんと連動しているみたいなので、このページを自動で解析してやれば1つ定例作業が減る事になる。
着ムービー・着Flashの音楽カテゴリのサイト一覧を取得するPerlは以下のとおり。
PERL:
-
use strict;
-
use warnings;
-
use utf8;
-
use Perl6::Say;
-
use URI;
-
use Web::Scraper;
-
-
my $uri = new URI('http://k-tai.auone.jp/ezweb/04/01/list_01.html');
-
my $res = scraper { process 'dt', 'sitename[]' => 'TEXT' }->scrape($uri);
Web::Scraperでdtタグに囲まれているサイト名を配列で取得して、前後の不要なスペースを除去するだけ。Windows環境で実行したら、行末によく分からん\x{00A0}が付いてたので、正規表現で消してお茶濁した。
もうちょっと改造して、自分のサイト名とマッチさせる処理入れたら順位も取れるけど、サイト数が多いカテゴリだと50サイトずつしか表示されないので後ろのページも取りに行くようにしなければいけない。
めんどくさいからまた今度。







