С Новым годом! Форум программистов, компьютерный форум, киберфорум
Наши страницы

Библиотека для работы с русскими текстами! - C++

Войти
Регистрация
Восстановить пароль
Другие темы раздела
C++ Выполнить над квадратной матрицей А порядка n последовательность действий, указанную в задании http://www.cyberforum.ru/cpp-beginners/thread1059147.html
Нужна помощь народ ! Мне задали в универе такую батву аш волосы дыбом . В С++ я полный нуль так что если можно прокомментируте прогу Выполнить над квадратной матрицей А порядка n...
C++ Строки резервирование дополнительного места В общем пишу свой строковый класс , нужно зарезервировать дополнительное место в уже инициализированной переменной, но при копировании и создании динамической памяти почему-то меняются значения в... http://www.cyberforum.ru/cpp-beginners/thread1059139.html
C++ На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set,
На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set, в котором каждый объект может храниться только в одной копии. Создайте вложенный класс iterаtоr с поддержкой...
C++ Изменить приращение используемое функцией, автоматически изменялось для уменьшения кол-ва вызовов
Нужно изменить пример так, чтобы приращение используемое функцией inflate(), автоматически изменялось для уменьшения кол-ва вызовов. Например при каждом вызове приращение для следующего вызова может...
C++ Скопировать в файл F2 только те строки из F1, которые начинаются с буквы «А» http://www.cyberforum.ru/cpp-beginners/thread1059117.html
не могу решить задачу, не откажусь от помощи, добрые люди))) Создать текстовый файл F1 не менее, чем из 10 строк и записать в него информацию. Скопировать в файл F2 только те строки из F1, которые...
C++ Из матрицы удалить строку и столбец на пересечений которых стоит минимальный элемент Удалить из матрицы целых чисел, размерности N*M строку и столбец на пересечении которых расположен минимальный элемент матрицы. подробнее

Показать сообщение отдельно
gazlan
3133 / 1909 / 285
Регистрация: 27.08.2010
Сообщений: 5,132
Записей в блоге: 1
28.12.2013, 03:02
Цитата Сообщение от ninja2 Посмотреть сообщение
обработки любой случайной HTML страницы
В качестве первого шага, я бы использовал InnerText. В любом случае, HTML придется чистить. Тема парсинга необъятна, начать можно со статей на хабре и блога Яндекса там же. К примеру, парсинг HTML в одну строку, 'Правильный' html парсинг итд.

Поройтесь по темам Data mining, автореферирование, поиск плагиата и подобным.

Попробуйте, для начала, максимально сузить задачу - под конкретный сайт или разметку. Многие сайты используют популярные CMS, начните с одной из них, потом сможете добавить другие.

Посмотрите еще Michael Schrenk "Webbots, Spiders, and Screen Scrapers"
1
 
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.