Wget

Wget — программа предназначена для загрузки файлов из сети. Программа Wget поддерживает протоколы HTTP, FTPи HTTPS и HTTP прокси-сервер. В Ubuntu программа включена в дистрибутив.

Wget не интерактивная программа, это значит что ее можно остановить Ctrl+C или перевести в фоновый режим Ctrl+Z.

Примеры использования:

cd /home/имя пользователя/Загрузки

 

wget http://cdimage.ubuntu.com/ubuntu-gnome/releases/trusty/alpha-1/trusty-desktop-amd64.iso

Скачанный файл будет находится в папке ЗАГРУЗКИ домашней директории.

При скачивании больших файлов иногда процесс скачивания может прерваться, для продолжения используйте параметр -с, например:

wget -с http://cdimage.ubuntu.com/ubuntu-gnome/releases/trusty/alpha-1/trusty-desktop-amd64.iso

файл будет скачиваться с того места где был прерван.

Так же можно при скачивании сразу задать путь для скачивания, например:

wget -P /home/имя пользователя/Загрузки/ http://cdimage.ubuntu.com/ubuntu-gnome/releases/trusty/alpha-1/trusty-desktop-amd64.manifest

то есть:

wget -P [папка в которую надо скачать файл] [адрес файла]

 

Для скачивания сайта целиком необходимо сделать следующее:

Задайте папку для скачивания:

cd /home/имя пользователя/Загрузки/

Скачайте сайт в указанную ранее папку:

wget -r -k -l 7 -p -E -nc http://ubuntu-desktop.ru

Сайт будет скачать в указанную Вами папку, для запуска главной страницы запустите index.html

-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.

-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).

-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).

-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.

-E — добавлять к загруженным файлам расширение .html.

-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.

Справка

GNU Wget 1.14, программа автоматического получения файлов по сети.

Использование: wget [КЛЮЧ]… [URL]…

Обязательные аргументы для длинных параметров являются обязательными и для коротких параметров.

Запуск:

-V,  —version           показать версию Wget и завершить работу

-h,  —help              показать эту справку

-b,  —background        после запуска перейти в фоновый режим

-e,  —execute=КОМАНДА   выполнить команду в стиле «.wgetrc».

Журналирование и входной файл:

-o,  —output-file=ФАЙЛ    записывать сообщения в ФАЙЛ.

-a,  —append-output=ФАЙЛ  дописывать сообщения в конец ФАЙЛА.

-d,  —debug               показать много отладочной информации

-q,  —quiet               ничего не выводить

-v,  —verbose             показывать подробные сведения (по умолчанию).

-nv, —no-verbose          отключить вывод подробных сведений (не полностью)

—report-speed=TYPE   пропускная способность вывода в TYPE.  TYPE может быть битами.

-i,  —input-file=ФАЙЛ     загрузить URL-ы согласно локальному или внешнему ФАЙЛУ.

-F,  —force-html          считать, что входной файл — HTML.

-B,  —base=URL            считать, что ссылки из входного файла (-i -F) указаны относительно URL.

—config=FILE         укажите необходимый конфигурационный файл.

Загрузка:

-t,  —tries=ЧИСЛО             установить ЧИСЛО повторных попыток (0 без ограничения).

—retry-connrefused       повторять, даже если в подключении отказано.

-O,  —output-document=ФАЙЛ    записывать документы в ФАЙЛ.

-nc, —no-clobber пропускает загрузки которые вы хотели закачать в уже существующие файлы (перезаписав их).

-c,  —continue                возобновить загрузку частично загруженного файла.

—progress=ТИП            выбрать тип индикатора выполнения.

-N,  —timestamping            не загружать повторно файлы, только если они  не новее, чем локальные.

—no-use-server-timestamps     не устанавливать метку времени локальному файлу, полученную с сервера.

-S,  —server-response         вывод ответа сервера.

—spider                  ничего не загружать.

-T,  —timeout=СЕКУНДЫ         установка значений всех тайм-аутов в СЕКУНДЫ.

—dns-timeout=СЕК         установка тайм-аута поиска в DNS в СЕК.

—connect-timeout=СЕК     установка тайм-аута подключения в СЕК.

—read-timeout=СЕК        установка тайм-аута чтения в СЕК.

-w,  —wait=СЕКУНДЫ            пауза в СЕКУНДАХ между загрузками

—waitretry=СЕКУНДЫ       пауза в 1..СЕКУНДЫ между повторными попытками загрузки

—random-wait             пауза в 0.5*WAIT…1.5*WAIT секунд между загрузками.

—no-proxy                явно выключить прокси

-Q,  —quota=ЧИСЛО             установить величину квоты загрузки в ЧИСЛО

—bind-address=АДРЕС      привязать АДРЕС (имя компьютера или IP) локального компьютера

—limit-rate=СКОРОСТЬ     ограничить СКОРОСТЬ загрузки

—no-dns-cache            отключить кэширования поисковых DNS-запросов

—restrict-file-names=ОС  использовать в именах файлов символы, допустимые в ОС

—ignore-case             игнорировать регистр при сопоставлении файлов и/или каталогов

-4,  —inet4-only              подключаться только к адресам IPv4

-6,  —inet6-only              подключаться только к адресам IPv6

—prefer-family=СЕМЕЙСТВО подключаться сначала к адресам указанного семейства (может быть IPv6, IPv4 или ничего).

—user=ПОЛЬЗОВАТЕЛЬ       установить и ftp- и http-пользователя в ПОЛЬЗОВАТЕЛЬ

—password=ПАРОЛЬ         установить и ftp- и http-пароль в ПАРОЛЬ

—ask-password            запрашивать пароли.

—no-iri                  выключить поддержку IRI.

—local-encoding=КДР      использовать КДР как локальную кодировку  для IRI

—remote-encoding=КДР     использовать КДР как удалённую кодировку по умолчанию

—unlink                  удалять файлы перед их повторной закачкой

Каталоги:

-nd, —no-directories           не создавать каталоги.

-x,  —force-directories        принудительно создавать каталоги.

-nH, —no-host-directories      не создавать каталоги как на узле.

—protocol-directories     использовать имя протокола в каталогах.

-P,  —directory-prefix=ПРЕФИКС сохранять файлы в ПРЕФИКС/…

—cut-dirs=ЧИСЛО           игнорировать ЧИСЛО компонентов удалённого каталога.

Параметры HTTP:

—http-user=ПОЛЬЗОВ.    установить http-пользователя в ПОЛЬЗОВАТЕЛЬ.

—http-password=ПАРОЛЬ  установить http-пароль в ПАРОЛЬ.

—no-cache              отвергать кэшированные сервером данные.

—default-page=ИМЯ      Изменить имя страницы по умолчанию (обычно это «index.html»).

-E,  —adjust-extension      сохранять документы HTML/CSS с надлежащими расширениями.

—ignore-length         игнорировать поле заголовка «Content-Length».

—header=СТРОКА         вставить СТРОКУ между заголовками.

—max-redirect          максимально допустимое число перенаправлений  на страницу.

—proxy-user=ПОЛЬЗОВ.   установить ПОЛЬЗОВАТЕЛЯ в качестве имени пользователя для прокси.

—proxy-password=ПАРОЛЬ   установить ПАРОЛЬ в качестве пароля для прокси.

—referer=URL           включить в HTTP-запрос заголовок «Referer: URL».

—save-headers          сохранять HTTP-заголовки в файл.

-U,  —user-agent=АГЕНТ      идентифицировать себя как АГЕНТ вместо Wget/ВЕРСИЯ.

—no-http-keep-alive    отключить поддержание активности HTTP (постоянные подключения).

—no-cookies            не использовать кукисы.

—load-cookies=ФАЙЛ     загрузить кукисы из ФАЙЛА перед сеансом.

—save-cookies=ФАЙЛ     сохранить кукисы в ФАЙЛ после сеанса.

—keep-session-cookies  загрузить и сохранить кукисы сеанса (непостоянные).

—post-data=СТРОКА      использовать метод POST; отправка СТРОКИ в качестве данных.

—post-file=ФАЙЛ        использовать метод POST; отправка содержимого ФАЙЛА.

—content-disposition   Учитывать заголовок Content-Disposition при выборе имён для локальных файлов (ЭКСПЕРИМЕНТАЛЬНЫЙ).

—content-on-error      выводит описание ошибки полученное с сервера

—auth-no-challenge     отправлять информацию об аутентификации

Basic HTTP не дожидаясь первого ответа

сервера.

Параметры HTTPS (SSL/TLS):

—secure-protocol=ПР     выбор безопасного протокола: auto, SSLv2,  SSLv3 или TLSv1.

—no-check-certificate   не проверять сертификат сервера.

—certificate=FILE       файл сертификата пользователя.

—certificate-type=ТИП   тип сертификата пользователя: PEM или DER.

—private-key=ФАЙЛ       файл секретного ключа.

—private-key-type=ТИП   тип секретного ключа: PEM или DER.

—ca-certificate=ФАЙЛ    файл с набором CA.

—ca-directory=КАТ       каталог, в котором хранится список CA.

—random-file=ФАЙЛ       файл со случайными данными для SSL PRNG.

—egd-file=ФАЙЛ          файл, определяющий сокет EGD со случайными данными.

Параметры FTP:

—ftp-user=ПОЛЬЗОВАТЕЛЬ установить ftp-пользователя в ПОЛЬЗОВАТЕЛЬ.

—ftp-password=ПАРОЛЬ   установить ftp-пароль в ПАРОЛЬ.

—no-remove-listing     не удалять файлы файлы «.listing».

—no-glob               выключить маски для имён файлов FTP.

—no-passive-ftp        отключить «пассивный» режим передачи.

—preserve-permissions  сохранять права доступа удалённых файлов.

—retr-symlinks         при рекурсии загружать файлы по ссылкам (не каталоги).

WARC опции:

—warc-file=FILENAME      сохраняет данные запроса/ответа в .warc.gz файл.

—warc-header=STRING      вставляет STRING в запись warcinfo.

—warc-max-size=NUMBER    устанавливает максимальный размер WARC файла в NUMBER.

—warc-cdx                записывает CDX индексный файл.

—warc-dedup=FILENAME     не сохранять записи перечисленные в CDX файле.

—no-warc-compression     do not compress WARC files with GZIP.

—no-warc-digests         do not calculate SHA1 digests.

—no-warc-keep-log        do not store the log file in a WARC record.

—warc-tempdir=DIRECTORY  расположение временных WARC файлов.

Рекурсивная загрузка:

-r,  —recursive          включение рекурсивной загрузки.

-l,  —level=ЧИСЛО        глубина рекурсии (inf и 0 — бесконечность).

—delete-after       удалять локальные файлы после загрузки.

-k,  —convert-links      делать ссылки локальными в загруженном HTML или CSS.

-K,  —backup-converted   перед преобразованием файла X делать резервную копию X.orig.

-m,  —mirror             короткий параметр, эквивалентный -N -r -l inf —no-remove-listing.

-p,  —page-requisites    загрузить все изображения и проч., необходимые для отображения HTML-страницы.

—strict-comments    включить строгую (SGML) обработку комментариев  HTML.

Разрешения/запреты при рекурсии:

-A,  —accept=СПИСОК             список разрешённых расширений, разделённых запятыми.

-R,  —reject=СПИСОК             список запрещённых расширений,  разделённых запятыми.

—accept-regex=REGEX        regex matching accepted URLs.

—reject-regex=REGEX        regex matching rejected URLs.

—regex-type=TYPE           regex type (posix).

-D,  —domains=СПИСОК            список разрешённых доменов, разделённых запятыми.

—exclude-domains=СПИСОК    список запрещённых доменов, разделённых запятыми.

—follow-ftp                следовать по ссылкам FTP в HTML-документах.

—follow-tags=СПИСОК        список используемых тегов HTML,  разделённых запятыми.

—ignore-tags=СПИСОК        список игнорируемых тегов HTML,  разделённых запятыми.

-H,  —span-hosts                заходить на чужие узлы при рекурсии.

-L,  —relative                  следовать только по относительным ссылкам.

-I,  —include-directories=СПИСОК список разрешённых каталогов.

—trust-server-names             use the name specified by the redirection  url last component.

-X,  —exclude-directories=СПИСОК список исключаемых каталогов.

-np, —no-parent                 не подниматься в родительский каталог.

Сообщения о замеченных ошибках отправляйте по адресу <bug-wget@gnu.org>.

Comments

Добавить комментарий