Форум программистов, компьютерный форум, киберфорум
C# Windows Forms
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
 Аватар для Alex_DeaD
6 / 6 / 6
Регистрация: 09.12.2013
Сообщений: 104

RegExp парсинг сайта

26.11.2016, 02:49. Показов 820. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Друзья, помогите реализовать одну штуку. Есть страница с товарами. Мне нужно заходить на каждый товар, распарсивать его , а после возвращаться к исходному списку продолжать так делать с каждым объектом. Как можно сделать так? Есть какой-то механизм? На входе в парсер одна общая страница с товарами.

Возможно распарсеные данные сразу запихивать в xlsx файл? Может есть какая-то библиотека для удобной работы с ексель-файлами?

И самый главный вопрос чем лучше парсисить сайт: RegExp или HtmlAgilityPack? Желательно с пояснениями почему вы отдаёте голос за то или другое.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
26.11.2016, 02:49
Ответы с готовыми решениями:

regexp парсинг ссылок
нужно с сайта парсить ссылки вида <a href="/shop/catalog/nout_pc/nout/netbook/?search=blabla" class="bold...

RegExp: Парсинг страницы по разным значаниям
Имеется вот такой код на странице: <li class='clear clearfix'> <span class='row_title'>Группа:</span> <span...

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со страницы с помощью js. На пхп не предлагать....

2
979 / 874 / 350
Регистрация: 26.04.2012
Сообщений: 2,647
26.11.2016, 13:14
Alex_DeaD, для запросов к сайту - класс HttpClient вам в помощь.
Для работы с экселем гуглится много библиотек, но я с ними не работал, так что какая лучше не скажу.
На счет RegExp и HtmlAgilityPack: тут однозначно HtmlAgilityPack. Регулярки полностью игнорируют логику HTMLа, в результате распарсить ими некоторые вещи получается очень трудно, и HTML ими поэтому никто не парсит.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18261 / 14186 / 5366
Регистрация: 17.03.2014
Сообщений: 28,872
Записей в блоге: 1
29.11.2016, 14:24
Alex_DeaD, советую еще посмотреть библиотеку abot. Она упростить код обхода страниц сайта.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.11.2016, 14:24
Помогаю со студенческими работами здесь

Паттерн для RegExp, для сайта с html
Срочно. Вот собственно код никак не могу написать, нужно получить само значение 8171 <div class="p-body"...

Парсинг сайта
Здравствуйте, мне нужно справить комментарии с Инстаграм и Вконтате, но никак не получается - они не сначала всю статику отдают а потом...

Парсинг сайта
Добрый день, господа. Ситуация такая, что не удается получить html-код со страницы. Использую следующий алгоритм: using System;...

Парсинг сайта
Доброго времени суток. Несколько месяцев назад писал код для парсинга сайта и на тот момент все работало. Но когда вчера попытался...

Парсинг сайта
есть 2 кода для разных сайтов,по сути одинакаво должны работать,но в певром варианте берет все записи запрашиваемые,а втором только первую...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru