Проблема с парсером: как переделать ссылки11.02.2022, 16:10. Показов 435. Ответов 2
Метки нет (Все метки)
Делаю парсер сайтов. Через curl. В итоге, в адресной строке браузера получается mysite.ru/parser.php, а в ссылках на спарсенной странице - anothersite.com/... . Получается, при переходе по ссылкам я буду попадать именно на спарсенный сайт, а не на свой. А как сделать так, чтобы ссылки тоже заменялись на "мои"? Т.е. чтобы вместо
anothersite.com/link.html было mysite.com/link.html ? Но, чтобы парсер при этом открывал ссылку anothersite.com/link.html. Насколько я понял, curl такой замены самостоятельно не делает. Настроек подобных я что-то не нашел. Т.е. выходит, выход единственный - заменять ссылки вручную (регулярными выражениями, к примеру)? Но если они формируются средствами JS, тогда как? И еще, пока тестирую на протоколе НТТР. С HTTPS проблем не возникнет? Добавлено через 4 часа 46 минут Или, может добавить на страницу JS-скрипт, который будет перехватывать переход по ссылкам, заменяя домен на mysite.ru. Пока, правда, не пойму, как делать такой перехват. Назначить дополнительные обработчики кликов?
0
|
|
| 11.02.2022, 16:10 | |
|
Ответы с готовыми решениями:
2
Проблема с парсером Проблема с парсером
|
|
3899 / 3237 / 1353
Регистрация: 01.08.2012
Сообщений: 10,904
|
||||||
| 11.02.2022, 16:29 | ||||||
|
Я бы наверное на JS делал. Если на JQuery, то что-то вроде:
0
|
||||||
| 11.02.2022, 21:18 [ТС] | |||||||
|
Думаю примерно такой алгоритм действий (на сервере):
1. Вставляем в раздел <head>...</head> в самое начало тег
3. Открываем сессию сервера. Посылаем QOOKIES в браузер и сохраняем их в сессии сервера. 4. Отправляем получившуюся строку (п.1, 2) в браузер. При этом, если от браузера вскоре пойдут запросы на скачивание ресурсов, то сервер их узнает и перенаправит в curl. И ресурсы корректно скачаются. Т.е. со статическими ссылками проблем не должно быть. Однако, остается открытым вопрос: как быть, если ссылка формируется динамически, уже на клиенте? Да еще не сразу, а через время. Можно, конечно, просмотреть DOM и там уже средствами JS заменить anothersite.com в ссылках на mysite.ru. Но ведь ссылка может формироваться динамически, в том числе, и как результат какого-то события. Например, после клика где-то. Т.е. уже после загрузки страницы и отработки скрипта, заменяющего доменное имя. Добавлено через 11 минут Добавлено через 21 минуту В итоге, вначале браузер все же попытается вначале скачать ресурс с anothersite.com (согласно командам ранее установленных обработчиков). А уже потом сработает наш (последний) обработчик, который отправит запрос на скачивание того же ресурса на mysite.ru. Т.е. получается как-то не очень. И не универсально.
0
|
|||||||
| 11.02.2022, 21:18 | |
|
Помогаю со студенческими работами здесь
3
Проблема с парсером Проблема с парсером
Как работать с парсером? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/
O1rJuneU_ls
https:/ / vkvideo. ru/ video-115721503_456239114
|
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ВВЕДЕНИЕ
Введу сокращения:
аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
|
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi
ветка по-частям.
коммит Create переделка под биомассу. txt
вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
|
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ *
Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях.
Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её.
Последовательность действий:. . .
|
|
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
|
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение.
И на уровне агентов добавится между грибами или бактериями взаимодействий.
До того я пробовал подход через многомерные массивы,. . .
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|