Next: , Previous: Spanning Hosts, Up: Following Links


4.2 ファイルの形式

ウェブから資料をダウンロードするとき,特定のファイル形式のみを回収する ように制限したいときもよくあります.例えば,gifをダウンロードする ことに興味がある場合,ポストスクリプトのドキュメントでの負荷は嬉しいは ずが無く,逆もまたそうです.

Wgetはこの問題を扱う二つのオプションを提案します.それぞれのオプション で,短い名前,長い名前,そして.wgetrc内の等価コマンドをリストアッ プします.

-A acclist
--accept acclist
accept = acclist
--accept’オプションの引数は,Wgetが再帰的な回収の間にダウンロード するファイルの,接尾子やパターンのリストです.接尾子はファイルの終りの 部分で,“通常の”文字列,例えば‘gif’や‘.jpg’から成り立ちます. パターンマッチはシェルのワイルドカードを含んでいて,例えば, ‘books*’や‘zelazny*196[0-9]*’です.

そして,‘wget -A gif,jpg’を指定すると,Wgetは‘gif’や ‘jpg’で終るファイルのみ,すなわちgifjpegをダウンロード します.一方,‘wget -A "zelazny*196[0-9]*"’は,‘zelazny’で始 まり,その中に1960から1969までの数字を含むファイルのみをダウンロードし ます.パターンマッチの動作方法についての記述はシェルのマニュアルを探し てください.

もちろん,任意の数の接尾子とパターンをカンマで分けたリストで組み合わせ ることや,‘-A’の引数として与えることが可能です.


-R rejlist
--reject rejlist
reject = rejlist
--reject’オプションは‘--accept’と同じように動作しますが,そ の論理は否定です.Wgetは,リストの接尾子(やパターン)にマッチするもの 以外の,全てのファイルをダウンロードします.

そして,扱いにくいmpeg.auファイル以外の,ページ全体をダウン ロードしたい場合,‘wget -R mpg,mpeg,au’を使用できます.同様に, ‘bjork’で始まるファイル以外全てをダウンロードするため,‘wget -R "bjork*"’を使用してください.引用符はシェルによる展開を妨げるためで す.

-A’と‘-R’オプションは,回収するファイルでより良い調整を達成 するために組み合わせることができます.例えば,‘wget -A "*zelazny*" -R .ps’は,名前の一部に‘zelazny’を持ち,ポストスクリプ トではない全てのファイルをダウンロードします.

これら二つのオプションは,htmlファイルのダウンロードで,効果が無い ことに注意してください.Wgetは全てのhtmlをリンク先を知るためにロー ドする必要があります—再帰的な回収は,そうしなければ意味がありません.