Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408

Как получить из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд)

07.06.2016, 13:49. Показов 1651. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте уважаемые как же давно я тут не писал.

Есть некая задачка по которой у меня два вопроса.

Значит так я искал работу программиста и мне позвонили из компании тензор сказали, что для прохождения на эту вакансию надо решить задачку (написать программу).
Вот текст задания...

Формулировка задачи
Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить»
из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд).
Полученный текст нужно отформатировать для максимально комфортного чтения в любом
текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если
больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте
встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше
усмотрение.
Программа оформляется в виде утилиты командной строки, которой в качестве параметра
указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и
формирует текстовый файл с текстом статьи, представленной на данной странице.
В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд
Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов.
Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL.
Примерно так:
http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt
Усложнение задачи 2: Программа должна поддаваться настройке – в отдельном файле/файлах
задаются шаблоны обработки страниц.
Требования к выполнению задачи
1. Задача выполняется на С++|Python с использованием классов. Не должно использоваться
сторонних библиотек, впрямую решающих задачу.
2. Предпочтительная среда выполнения – MS Windows.
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.
4. Приложите список URL, на которых вы проверяли свое решение. И результаты проверки.
5. Желательно указать направление дальнейшего улучшения/развития программы.


И так вопросы у меня такие.
1) Ни слишком ли крутое задание мне дли на собеседование это на должность с зарплатой в (40 000 рублей) я считаю, что такая программа сама по себе крутая, должен ли я её писать хотя меня не взяли на работу то есть я (не оформлен у них)
2) И второй вопрос если вы считаете что всё в порядке по первому вопросу то как собственно выполнить задание.
Большое спасибо буду рад любой информации и мнению.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.06.2016, 13:49
Ответы с готовыми решениями:

Извлечь из веб-страницы только полезную информацию отбросив весь «мусор»
Формулировка задачи Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить» из веб-страницы только...

Вытащить из веб-страницы только полезную информацию, отбросив весь «мусор»
Дали задание на собесе, ребята подскажите последовательность действий? Я так понимаю нужно открыть сокет и каким - то образом подконектится...

Получить весь текст веб-страницы
Здравствуйте. Подскажите в следующем: 1.Почему QWebView не отображает сайт http://registratura96.ru/ Отображает только синий фон и...

7
управление сложностью
 Аватар для Почтальон
1693 / 1306 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
07.06.2016, 13:53
Ну напишите триальную версию
По поводу парсинга - в инете и на форуме много информации. Начните с регулярок и компонентов Indy
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
07.06.2016, 14:00  [ТС]
Требования к выполнению задачи
1)...Не должно использоваться сторонних библиотек, впрямую решающих задачу.
Как этот пункт прокомментируете в задание компоненты Indy подходят???

Добавлено через 45 секунд
Триальную версию??? там же написано в задание
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.

Добавлено через 18 секунд
Они требуют исходники.
0
управление сложностью
 Аватар для Почтальон
1693 / 1306 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
07.06.2016, 14:07
Цитата Сообщение от StalkerIQ Посмотреть сообщение
Как этот пункт прокомментируете в задание компоненты Indy подходят???
Это компоненты, которые присутствуют в среде разработки Builder, RAD
Цитата Сообщение от StalkerIQ Посмотреть сообщение
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.
Мой вам совет - не давайте исходников. Примут на работу - на ваше усмотрение, а если не примут - потеряете авторство

Добавлено через 47 секунд
Если вы действительно считаете себя специалистом - условия должны диктовать вы
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
08.06.2016, 11:30  [ТС]
Ну вообще идея у меня была такая, если у меня получится написать такую программу, так как это ещё не факт, что я её напишу такую, чтобы прям идеальную, чтобы всё делала, как они хотят, то я отправлю им скришоты работы программы ну или сниму видео предварительно запилив везде логотипы их компании думаю так будет нормально )))
0
 Аватар для BRcr
4043 / 2333 / 292
Регистрация: 03.02.2011
Сообщений: 5,066
Записей в блоге: 10
08.06.2016, 21:15
Можно и экзешник дать, ничего страшного. Только отладочную информацию лучше не оставлять)
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
22.07.2016, 09:54  [ТС]
В общем ни чего писать я им не стал +) Слишком муторно было бы ))))
А работу я себе нашел уже и довольно не плохую +)
0
279 / 156 / 52
Регистрация: 30.06.2011
Сообщений: 1,712
22.07.2016, 10:13
StalkerIQ, поздравляю!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
22.07.2016, 10:13
Помогаю со студенческими работами здесь

Убрать весь мусор с распарсеной страницы HtmlAgilityPack
У меня есть уже страница, которую я удачно расспарсил Текст мой находиться в "//div". Я его пытаюсь вытащить и очистить от...

Как получить html код веб-страницы?
Доброе время суток! я хочу загрузить страницу введенную в textBox WinForm через браузер по умолчанию(яндекс). Допустим...

Как отобразить только часть веб страницы (класс webbrowser)
Нужно, чтобы каким то образом копировать информацию из веб-страницы и вставить в программу с интерфейсом WPF во время выполнения программы....

Как получить полный адрес веб страницы по ссылке
Ситуация такая есть сайт с рассылками по lua http://lua-users.org/lists/lua-l/ Нужно получить все ссылки html =...

Как из базы получить только что обновленную информацию
Как из базы получить только что обновленную(новую) информацию. При этом на странице высвечивается сколько их на данный момент(счетчик) ? ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru