Веб-краулер с конвертор ссылки

Я хотел бы сканировать резервный сайт, к которому я потерял доступ. Сайт поддерживается в subdomain.somesite.com при ссылках на веб-странице www.subdomain.com

Это приводит к следующей ситуации:

ссылке http://subdomain.somesite.com/?page_id=number работает, но ссылка в фактический HTML-код http://www.subdomain.com/?page_id=number и не работает.

любые идеи, как это сделать без написания пользовательских гусеничный?

У меня есть доступ к www.subdomain.com который на вордпресс. Одна из идей-перенаправить все страницы с шаблоном /?на нашем ряду.

пример.
http://www.subdomain.com/?page_id=255 приведет к http://subdomain.somedomain/?page_id=255

21
задан qballer
13.02.2023 3:21 Количество просмотров материала 3082
Распечатать страницу

2 ответа

Если ваша проблема заключается в перенаправлении запросов от www.поддомен поддомена.somedomain, вы можете просто использовать RewriteRule в Apache или аналогичные реализации в других веб-серверах. Вы можете использовать параметр прокси P для обслуживания сайта из www. домен и пусть веб-сервер извлечь его из резервной копии сайта на лету.

Если вы хотите сканировать и изменять контент, самым простым решением будет использование wget с опцией mirror (доступно в Linux, Windows...). Для преобразования абсолютных ссылок в относительные достаточно использовать встроенные функции. В противном случае просто используйте инструмент поиска и замены или регулярное выражение для изменения домена в загруженной папке.

1
отвечен Martin 2023-02-14 11:09

gnu wget может это сделать. вариант -r для рекурсивной загрузки, -k преобразует ссылки. см.на странице для получения дополнительной информации

0
отвечен Schwertspize 2023-02-14 13:26

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх