4.1 ホストをまたぐ
Wgetの再帰的な回収は,通常はコマンドラインで指定されたものと異なるホス
トを訪れることを拒否します.これはデフォルトで妥当です.そうしない場合,
全ての回収で,Wgetがgoogleの縮小版になり得ます.
しかし,異なるホストを訪れたり,ホストをまたぐこと(host
spanning)が役に立つオプションとなる時もあります.画像が異なるサーバか
ら提供されているかもしれません.三つのサーバ間の内部リンクでページ構成
されているサイトのミラーリングしているかもしれません.サーバが二つの等
価な名前を持ち,htmlページが両方を交替しながら参照しているかもしれ
ません.
- あらゆるホストをまたぐ—‘-H’
-
‘-H’オプションはホストをまたぐことを開始し,そのため,リンクで参照
されている全てのホストを訪れながら,Wgetの再帰的な回収が可能となります.
再帰の制限の基準が適切な深度に指定されていない限り,これらの外部のホス
トは通常更に多くのホストにリンクされていて,Wgetはあなたが考えていたも
のより遥かに多くのデータを終りまで吸い上げ続けます.
- 特定のドメインだけまたぐように制限する—‘-D’
-
‘-D’オプションを用いてたどるドメインを指定でるようになり,そのため,
これらのドメインに所属しているホストのみ再帰的に扱うよう制限されます.
‘-H’と組み合わせることでのみ,明確な意味があります.典型的な例とし
て,‘images.server.com’からのダウンロードを許可しながら
‘www.server.com’の内容をダウンロードするなどです.
wget -rH -Dserver.com http://www.server.com/
カンマで分けられたリスト,例えば‘-Ddomain1.com,domain2.com’で,一
つ以上のアドレスを指定することが可能です.
- 特定ドメインをダウンロードから除外したままにする—‘--exclude-domains’
-
指定から外したいドメインがある場合,‘--exclude-domains’で行うこと
が可能で,それは‘-D’の引数と同じ形式を受け入れますが,リストアップ
された全てのドメインを除外します.例えば,
‘sunsite.foo.edu’以外の‘foo.edu’ドメインの,全てのホストをダ
ウンロードしたい場合,以下のようにすることで可能です.
wget -rH -Dfoo.edu --exclude-domains sunsite.foo.edu \
http://www.foo.edu/