Форум программистов, компьютерный форум, киберфорум
Node.js
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 24.11.2019
Сообщений: 31

Распарсить HTML код в JSON

21.08.2020, 12:26. Показов 1989. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Все доброго времени суток.

Имеется такой кусок HTML:
HTML5
1
2
3
4
5
6
7
8
9
<h4>Группа 1</h4>
    <span>Этап 1</span>Введение <a href="/g1/etap1.html">Подробности</a><br />
<h4>Группа 2</h4>
    <span>Этап 1</span>Введение <a href="/g2/etap1.html">Подробности</a><br />
    <span>Этап 2<span class="info-st">(рекомендуется)</span>Подготовка <a href="/g2/etap2.html">Подробности</a><br />
    <span>Этап 3</span>Начало работы <a href="/g2/etap3.html">Подробности</a><br />
<h4>Группа 3</h4>
    <span>Этап 1</span>Подготовка <a href="/g3/etap1.html">Подробности</a><br />
    <span>Этап 2</span>Начало работы <a href="/g3/etap2.html">Подробности</a><br />
Подскажите как мне его можно распарсить в JSON используя модуль cheerio ну или любой подходящий аналог.
Должен получится такой объект:
JSON
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
{
    "groups": [
        {
            "name": "Группа 1",
            "etaps": [
                {
                    "name": "Этап 1",
                    "caption": "Введение",
                    "url": "/g1/etap1.html",
                    "required": false
                }
            ]
        },
        {
            "name": "Группа 2",
            "etaps": [
                {
                    "name": "Этап 1",
                    "caption": "Введение",
                    "url": "/g2/etap1.html",
                    "required": false
                },
                {
                    "name": "Этап 2",
                    "caption": "Подготовка",
                    "url": "/g2/etap2.html",
                    "required": true
                },
                {
                    "name": "Этап 3",
                    "caption": "Начало работы",
                    "url": "/g2/etap3.html",
                    "required": false
                }
            ]
        },
        {
            "name": "Группа 3",
            "etaps": [
                {
                    "name": "Этап 1",
                    "caption": "Подготовка",
                    "url": "/g3/etap1.html",
                    "required": false
                },
                {
                    "name": "Этап 2",
                    "caption": "Начало работы",
                    "url": "/g3/etap2.html",
                    "required": false
                }
            ]
        }
    ]
}
Можно ли это сделать и если можно то подскажите как.
Вопрос наверно больше из разряда "Если кому нечего делать и любит решать интересные задачки", но для меня это сложновато пока...
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
21.08.2020, 12:26
Ответы с готовыми решениями:

Распарсить код HTML
Нужна помощь в реализации поиска в html документе. Например кусок кода &lt;/div&gt;&lt;span...

Как и чем распарсить код Html-страницы
Доброе время суток! Вот допустим, в html документе есть слово Транспорт, после которого идет такая строка &lt;span...

Распарсить с помощью Json.Net приходящий ответ в виде JSON
Нужна помощь с json {&quot;success&quot;:true, &quot;rgInventory&quot;:{ &quot;1025429056&quot;:{ &quot;id&quot;:&quot;1025429056&quot;, &quot;classid&quot;:&quot;310779217&quot;,...

6
Всегда онлайн
 Аватар для MrOnlineCoder
1084 / 788 / 295
Регистрация: 07.04.2013
Сообщений: 2,703
21.08.2020, 22:09
prometey, на входе всегда будет такой HTML?
0
Эксперт JS
 Аватар для Iverycool
1586 / 796 / 362
Регистрация: 01.02.2019
Сообщений: 1,047
21.08.2020, 22:25
Лучший ответ Сообщение было отмечено prometey как решение

Решение

prometey, html у вас не валидный(нету закрывающего тега у второго span'а во второй группе), тем более "группы" определены у вас только визуально, к тому же вы не указал среду выполнения, поэтому мой вариант будет построен на регулярках:
JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
function parseHtmlToJson(htmlStr) {
  const groupsReg = /<h4>([^<]+)<\/h4>((?:\n\s*<span>.+)+)/g;
  const contentReg = /<span>([^<]+)(<span class="info-st">\(рекомендуется\))?<\/span>([^<]+?)\s*<a href="([^"]+)">/g;
 
  return JSON.stringify({
    groups: [...htmlStr.matchAll(groupsReg)].map(([, groupName, content]) => ({
      name: groupName,
      etaps: [...content.matchAll(contentReg)].map(([, name, requiredStr, caption, url]) => ({
        name, caption, required: !!requiredStr, url
      }))
    }))
  });
}
 
console.log(parseHtmlToJson(`<h4>Группа 1</h4>
    <span>Этап 1</span>Введение <a href="/g1/etap1.html">Подробности</a><br />
<h4>Группа 2</h4>
    <span>Этап 1</span>Введение <a href="/g2/etap1.html">Подробности</a><br />
    <span>Этап 2<span class="info-st">(рекомендуется)</span>Подготовка <a href="/g2/etap2.html">Подробности</a><br />
    <span>Этап 3</span>Начало работы <a href="/g2/etap3.html">Подробности</a><br />
<h4>Группа 3</h4>
    <span>Этап 1</span>Подготовка <a href="/g3/etap1.html">Подробности</a><br />
    <span>Этап 2</span>Начало работы <a href="/g3/etap2.html">Подробности</a><br />`));
2
0 / 0 / 0
Регистрация: 24.11.2019
Сообщений: 31
21.08.2020, 23:59  [ТС]
Цитата Сообщение от MrOnlineCoder Посмотреть сообщение
на входе всегда будет такой HTML?
Да. Единственное только <span class="info-st"></span> может быть, а может и не быть его. А структура такая всегда

Цитата Сообщение от Iverycool Посмотреть сообщение
html у вас не валидный(нету закрывающего тега у второго span'а во второй группе)
Да, мой косяк. Там должен быть закрывающийся тэг.

Цитата Сообщение от Iverycool Посмотреть сообщение
тем более "группы" определены у вас только визуально
Это как понять? Он внутри тега <h4>. Код html не мой, он приходит в таком виде.

Цитата Сообщение от Iverycool Посмотреть сообщение
к тому же вы не указал среду выполнения
Может я что-то не понял, но среда node js с использованием модуля cheerio, писал об этом в первом посте. Но можно и как вы сделали регулярками.

Цитата Сообщение от Iverycool Посмотреть сообщение
поэтому мой вариант будет построен на регулярках
Для приведенного в первом посте работает. Спасибо! Но не могли бы вы чуть изменить код ибо регулярки мое слабое место?

Во-первых, если есть <span class="info-st"></span> то там будет второй закрывающийся тег span. Я его не указал в первом посте (извиняюсь).
Во-вторых, class="info-st" имя класса может меняться, т.е там может быть не info-st, другой класс.
И в-третьих, слово (рекомендуется), как оказалось тоже может быть разным. Например там может быть Не обязательно и другое.

со вторым закрытым тегом span выглядит так:
HTML5
1
<span>Этап 2<span class="info-st">(рекомендуется)</span></span>Подготовка <a href="/g2/etap2.html">Подробности</a><br />
Если не сложно. Буду весьма благодарен. Спасибо.
0
Эксперт JS
 Аватар для Iverycool
1586 / 796 / 362
Регистрация: 01.02.2019
Сообщений: 1,047
22.08.2020, 00:08
prometey, если я правильно понял, то если между "Этап n" и </span> есть что-либо, то это означает, что этап рекомендованный.
Измените contentReg на:
JavaScript
1
/<span>([^<]+)(<span[^>]+>[^<]+(?:<\/span>)?)?<\/span>([^<]+?)\s*<a href="([^"]+)">/g
1
0 / 0 / 0
Регистрация: 24.11.2019
Сообщений: 31
24.08.2020, 10:44  [ТС]
Спасибо что уделили время и помогли.
У меня все таки получилось сделать то что я хотел с помощью needle и cheerio
0
the hardway first
Эксперт JS
 Аватар для j2FunOnly
2475 / 1847 / 910
Регистрация: 05.06.2015
Сообщений: 3,610
24.08.2020, 12:20
prometey, поделитесь?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.08.2020, 12:20
Помогаю со студенческими работами здесь

Как распарсить данные из первого json-а и перекинуть их в другой json
Добрый день, столкнулся с такой задачей. Есть вот такой json Необходимо извлечь некоторые данные, провести некоторые...

Распарсить JSON (System.JSON)
{ &quot;response&quot;: { &quot;count&quot;: 3, &quot;items&quot;: } } Доброго времени суток! Помогите, не пойму как получить обьекты...

Отдать html код с переносами строк, а также кавычками через json
Через json отдаю html код, верней js, на стороне клиента исполняется. Собственно, передать с переносами строк, а так же двойными ковычками...

Распарсить JSON
Доброго времени суток! Помогите распарсить JSON: 1: { &quot;access_token&quot;: &quot;34543645tgreg45yy455y3435yh35hy3&quot;, ...

Распарсить JSON
Всем доброго времени суток! Есть такой JSON код: } ] Я его получаю как ответ из Microsoft Translator API, вот собственно код...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 19.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Символьное дифференцирование
igorrr37 13.02.2026
/ * Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет значение производной при заданном х Логарифм записывается как: (x-2)log(x^2+2) -. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru