Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
1

Как получить из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд)

07.06.2016, 13:49. Показов 1523. Ответов 7
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Здравствуйте уважаемые как же давно я тут не писал.

Есть некая задачка по которой у меня два вопроса.

Значит так я искал работу программиста и мне позвонили из компании тензор сказали, что для прохождения на эту вакансию надо решить задачку (написать программу).
Вот текст задания...

Формулировка задачи
Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить»
из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд).
Полученный текст нужно отформатировать для максимально комфортного чтения в любом
текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если
больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте
встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше
усмотрение.
Программа оформляется в виде утилиты командной строки, которой в качестве параметра
указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и
формирует текстовый файл с текстом статьи, представленной на данной странице.
В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд
Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов.
Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL.
Примерно так:
http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt
Усложнение задачи 2: Программа должна поддаваться настройке – в отдельном файле/файлах
задаются шаблоны обработки страниц.
Требования к выполнению задачи
1. Задача выполняется на С++|Python с использованием классов. Не должно использоваться
сторонних библиотек, впрямую решающих задачу.
2. Предпочтительная среда выполнения – MS Windows.
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.
4. Приложите список URL, на которых вы проверяли свое решение. И результаты проверки.
5. Желательно указать направление дальнейшего улучшения/развития программы.


И так вопросы у меня такие.
1) Ни слишком ли крутое задание мне дли на собеседование это на должность с зарплатой в (40 000 рублей) я считаю, что такая программа сама по себе крутая, должен ли я её писать хотя меня не взяли на работу то есть я (не оформлен у них)
2) И второй вопрос если вы считаете что всё в порядке по первому вопросу то как собственно выполнить задание.
Большое спасибо буду рад любой информации и мнению.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
07.06.2016, 13:49
Ответы с готовыми решениями:

Извлечь из веб-страницы только полезную информацию отбросив весь «мусор»
Формулировка задачи Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача...

Вытащить из веб-страницы только полезную информацию, отбросив весь «мусор»
Дали задание на собесе, ребята подскажите последовательность действий? Я так понимаю нужно открыть...

Получить весь текст веб-страницы
Здравствуйте. Подскажите в следующем: 1.Почему QWebView не отображает сайт...

Убрать весь мусор с распарсеной страницы HtmlAgilityPack
У меня есть уже страница, которую я удачно расспарсил Текст мой находиться в "//div". Я его...

7
управление сложностью
1687 / 1300 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
07.06.2016, 13:53 2
Ну напишите триальную версию
По поводу парсинга - в инете и на форуме много информации. Начните с регулярок и компонентов Indy
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
07.06.2016, 14:00  [ТС] 3
Требования к выполнению задачи
1)...Не должно использоваться сторонних библиотек, впрямую решающих задачу.
Как этот пункт прокомментируете в задание компоненты Indy подходят???

Добавлено через 45 секунд
Триальную версию??? там же написано в задание
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.

Добавлено через 18 секунд
Они требуют исходники.
0
управление сложностью
1687 / 1300 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
07.06.2016, 14:07 4
Цитата Сообщение от StalkerIQ Посмотреть сообщение
Как этот пункт прокомментируете в задание компоненты Indy подходят???
Это компоненты, которые присутствуют в среде разработки Builder, RAD
Цитата Сообщение от StalkerIQ Посмотреть сообщение
3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов
программы, исполняемого модуля.
Мой вам совет - не давайте исходников. Примут на работу - на ваше усмотрение, а если не примут - потеряете авторство

Добавлено через 47 секунд
Если вы действительно считаете себя специалистом - условия должны диктовать вы
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
08.06.2016, 11:30  [ТС] 5
Ну вообще идея у меня была такая, если у меня получится написать такую программу, так как это ещё не факт, что я её напишу такую, чтобы прям идеальную, чтобы всё делала, как они хотят, то я отправлю им скришоты работы программы ну или сниму видео предварительно запилив везде логотипы их компании думаю так будет нормально )))
0
4043 / 2332 / 292
Регистрация: 03.02.2011
Сообщений: 5,066
Записей в блоге: 10
08.06.2016, 21:15 6
Можно и экзешник дать, ничего страшного. Только отладочную информацию лучше не оставлять)
0
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
22.07.2016, 09:54  [ТС] 7
В общем ни чего писать я им не стал +) Слишком муторно было бы ))))
А работу я себе нашел уже и довольно не плохую +)
0
279 / 156 / 52
Регистрация: 30.06.2011
Сообщений: 1,712
22.07.2016, 10:13 8
StalkerIQ, поздравляю!
0
22.07.2016, 10:13
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
22.07.2016, 10:13
Помогаю со студенческими работами здесь

Как получить html код веб-страницы?
Доброе время суток! я хочу загрузить страницу введенную в textBox WinForm через браузер по...

Как отобразить только часть веб страницы (класс webbrowser)
Нужно, чтобы каким то образом копировать информацию из веб-страницы и вставить в программу с...

Как получить полный адрес веб страницы по ссылке
Ситуация такая есть сайт с рассылками по lua http://lua-users.org/lists/lua-l/ Нужно получить...

Как из базы получить только что обновленную информацию
Как из базы получить только что обновленную(новую) информацию. При этом на странице высвечивается...

Как из базы получить только что обновленную информацию
Как из базы получить только что обновленную(новую) информацию. При этом на странице высвечивается...

Вытащить информацию с веб-страницы
Добрый день! Хочу написать код, который бы вытаскивал со страницы сайта определенное численное...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru