Форум программистов, компьютерный форум, киберфорум
JavaScript: API
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.76/21: Рейтинг темы: голосов - 21, средняя оценка - 4.76
54 / 4 / 3
Регистрация: 15.06.2014
Сообщений: 36

Получить содержимое HTML-страницы

14.06.2016, 15:19. Показов 4087. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день, уважаемые участники сообщества!

Есть HTML-код нескольких страниц. Мне не нужна разметка, я хочу получить текст (контент этих страниц).

Правильно ли я поняла, что нужно воспринимать разметку как дерево и рекурсивно обойти все узлы и считать оттуда текст?
HTML-код каждой страницы хранится на данный момент просто в отдельной строчной переменной (считан в нее в процессе некоторых предварительных действий). Станет ли это преградой?
Если есть хорошие примеры (доступные к пониманию новичка), буду очень благодарна за информацию!
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
14.06.2016, 15:19
Ответы с готовыми решениями:

Парсинг HTML, генерация новой HTML страницы
Добрый день. Пишу небольшое расширение для Firefox, используя JS. Общая задача выглядит так: Необходимо сгенерировать...

Загрузить содержимое одной html страницы в другой
Доброго времени суток, как используя jQuery и Ajax реализовать отображение текста одной html страницы в главной, без перезагрузки главной...

Получить содержимое html тэга
Хотел спарсить программой название почтового ящика сервис временной электронной почты http://dropmail.me/ru/ Но в исходном коде...

7
Ренегат
Эксперт HTML/CSS
 Аватар для BANO
1740 / 1085 / 386
Регистрация: 06.08.2014
Сообщений: 5,203
Записей в блоге: 1
14.06.2016, 15:23
Pumie, лучше было бы использовать настоящий dom чем просто html текст, тогда бы можно было использовать innerText или textContent
0
54 / 4 / 3
Регистрация: 15.06.2014
Сообщений: 36
14.06.2016, 15:52  [ТС]
BANO, спасибо за ответ!

Может, я ошибаюсь, но DOM можно использовать только если знаешь, какие страницы придут. Мне неизвестно, в каких элементах будет текст, поэтому и обратиться мне неизвестно к чему. Все, чем я могу ограничиться, - это body.
0
Ренегат
Эксперт HTML/CSS
 Аватар для BANO
1740 / 1085 / 386
Регистрация: 06.08.2014
Сообщений: 5,203
Записей в блоге: 1
14.06.2016, 16:07
Pumie, ну, body отличная вещь, у него взять текст можно
0
Хитрая блондиночка $)
 Аватар для Hikari
1472 / 988 / 399
Регистрация: 21.12.2015
Сообщений: 3,785
14.06.2016, 16:11
Цитата Сообщение от Pumie Посмотреть сообщение
нужно воспринимать разметку как дерево и рекурсивно обойти все узлы и считать оттуда текст?
Насколько я помню можно включить выборку через методы XPATH для получения массива тегов (https://developer.mozilla.org/... rySelector). Ну а из них уже и контент считать циклом.
Цитата Сообщение от Pumie Посмотреть сообщение
DOM можно использовать только если знаешь, какие страницы придут.
Нет. DOM это иерархия компонентов на странице. Ты в любом случае будешь обращаться к ним через проход по дому.
Цитата Сообщение от Pumie Посмотреть сообщение
Все, чем я могу ограничиться, - это body.
Значит твоя задача не имеет решения.
0
54 / 4 / 3
Регистрация: 15.06.2014
Сообщений: 36
14.06.2016, 16:19  [ТС]
Hikari, правильно ли я понимаю, что получить только контент рандомной страницы не представляется возможным? Неужели нет механизма, который позволит пройти по всему документу и вытащть только содержимое?
0
Ренегат
Эксперт HTML/CSS
 Аватар для BANO
1740 / 1085 / 386
Регистрация: 06.08.2014
Сообщений: 5,203
Записей в блоге: 1
14.06.2016, 16:44
Pumie, да есть
берёте через textContent и всё
раз у вас уже есть dom, то всё отлично, вы получаете весь текст который пользователь видит на странице

Добавлено через 2 минуты
всё, я понял почему Hikari сказала что это невозможно
раз вам нужен текст только из определённых мест, то нужно знать их селектор, если неизвестно откуда брать текст, то действительно, мы же не можем наугад брать текст со страницы
0
Хитрая блондиночка $)
 Аватар для Hikari
1472 / 988 / 399
Регистрация: 21.12.2015
Сообщений: 3,785
14.06.2016, 16:53
Цитата Сообщение от Pumie Посмотреть сообщение
Неужели нет механизма, который позволит пройти по всему документу и вытащть только содержимое?
По ссылке что я дала по идее будет тебе решение - XPATH. Метод выборки тегов из страницы в массив. А дальше циклом циклом циклом
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
14.06.2016, 16:53
Помогаю со студенческими работами здесь

Получить содержимое страницы по URL с помошью JS
Доброго времени! Прошу прощения если пишу не туда... Требуется получить строку по ссылке, и вывести ее как текст в <span> по...

Получить содержимое страницы по URL и распарсить ее
Здравствуйте. Передо мной возникла задача получения содержимого HTML-страницы для дальнейшего парсинга. Я нахожусь на исходной странице,...

Как получить содержимое html-файла через JS
Добрый день. Как получить содержимое <span class="c111"> html-файла через JS? <div id="d111"> <span...

Как в JS получить содержимое HTML файла в виде строки
Здравствуйте. Как можно в JS получить содержимое HTML файла в текстовом формате. В этом примере я HTML код пишу сразу в response.end....

Как получить код html-страницы?
Есть запрос к серверу, который возвращает через браузер Google Chrome экранную форму ответа - страницу, с кодом html. Как обратиться к...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru