Форум программистов, компьютерный форум, киберфорум
C# Windows Forms
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
3 / 3 / 3
Регистрация: 03.02.2014
Сообщений: 59

Извлечение полезного содержимого из WEB - страниц форумов и блогов произвольного типа

03.02.2014, 11:11. Показов 1142. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте. Поставлена задача извлечь содержимое со страницы некоторого форума(тема сообщения, автор, дата, сам текст сообщения), причем необходимо, чтобы данная программа работала не только для каких то конкретных ресурсов, а могла обработать любые страницы, на которых люди что то постят. Поэтому не получилось решить данную проблему с помощью библиотек для парсинга html (пробовал HTMLAgilityPack). В ней очень удобно извлекать содержимое конкретных тегов с заранее известными значениями атрибутов. Нам это не подходит, потому как прога должна обрабатывать и те страницы, которые мы видим впервые.

Так что, если у кого то есть полезные соображения по этому вопросу, очень хочу их услышать в этой теме. Буду крайне признателен.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.02.2014, 11:11
Ответы с готовыми решениями:

Бесплатный движок пользовательских блогов, форумов, сайтов
приветствую! подскажите пожалуйста бесплатный движок пользовательских блогов ИЛИ форумов ИЛИ сайтов. заранее спасибо!

Какой хостинг блогов, форумов и сайтов самый лучший?
Какой бесплатный хостинг блогов, форумов и сайтов самый лучший?

Изменение содержимого web-страниц на лету
Здравствуйте уважаемые эксперты, подскажите пожалуйста, а лучше приведите пример или ткните носом куда рыть. Каким образом возможно...

4
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
03.02.2014, 12:08
Если блог писал пряморукий программист, то он скорее всего прикрутит такую тему - http://schema.org/Article
0
3 / 3 / 3
Регистрация: 03.02.2014
Сообщений: 59
03.02.2014, 13:58  [ТС]
Цитата Сообщение от Петррр Посмотреть сообщение
Если блог писал пряморукий программист, то он скорее всего прикрутит такую тему - http://schema.org/Article
но ведь выходит, что если программист не прикрутил такую тему, то ничего не выйдет.
хотелось бы разработать алгоритм, который просто анализирует html как текстовый файл и находит нужные вещи. не опираясь на теги.
просто я надеюсь, что кто то уже сталкивался с подобной проблемой и подскажет, в какую сторону думать.
я уже почитал про статистические подходы к решению этой задачи и про обучение нейронной сети. Но надеюсь найти что то попроще

Добавлено через 5 минут
Требуется написать набор эвристик, который практически без вмешательства человека сможет выделять нужную информацию.
0
03.02.2014, 14:22

Не по теме:

Цитата Сообщение от Tailer73 Посмотреть сообщение
хотелось бы разработать алгоритм, который просто анализирует html как текстовый файл и находит нужные вещи. не опираясь на теги.
Цитата Сообщение от Tailer73 Посмотреть сообщение
прога должна обрабатывать и те страницы, которые мы видим впервые.
Это возможно, но для этого придётся совершенствовать аппаратную часть: продаётся такой девайс "хрустальный шар" - вещь уникальная, но очень дорогая и редкая. Данное устройство позволяет выполнить любую работу с данными (порой даже до того как пользователь успевает мысленно сформулировать, что именно он хочет)

2
3 / 3 / 3
Регистрация: 03.02.2014
Сообщений: 59
06.02.2014, 02:13  [ТС]
посмеялся)))
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
06.02.2014, 02:13
Помогаю со студенческими работами здесь

Записать адрес переменной произвольного типа в переменную типа int
Здравствуйте, есть структура __packed struct myStruct{ uint32 HisCh; uint32 sNo; uint16 tNo; uint32 reserv; };

Извлечение содержимого из ComboBox
Вот есть у меня,например,ComboBox в котором содержатся какие-нибудь три строки. Ну,например...

[MVC] Извлечение страниц авторизации
Здравствуйте. Создаю проект на MVC, авторизация отдельных пользователей. Хочу получить шаблоны авторизации. Я знаю, что они зашиты...

Извлечение типа метода класса
Привет. Может кто заморачивался с подобным. Какую шаблонную магию можно использовать, чтоб метод класса представить в виде, который можно...

Вывод содержимого нескольких страниц в main.tpl
Есть главная страничка... нужно на нее вывести потроха нескольких определенных статистических страниц. Заранее спасибо!


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru