22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
1 | |
Как получить из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд)07.06.2016, 13:49. Показов 1523. Ответов 7
Метки нет (Все метки)
Здравствуйте уважаемые как же давно я тут не писал.
Есть некая задачка по которой у меня два вопроса. Значит так я искал работу программиста и мне позвонили из компании тензор сказали, что для прохождения на эту вакансию надо решить задачку (написать программу). Вот текст задания... Формулировка задачи Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить» из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд). Полученный текст нужно отформатировать для максимально комфортного чтения в любом текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше усмотрение. Программа оформляется в виде утилиты командной строки, которой в качестве параметра указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и формирует текстовый файл с текстом статьи, представленной на данной странице. В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов. Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL. Примерно так: http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt Усложнение задачи 2: Программа должна поддаваться настройке – в отдельном файле/файлах задаются шаблоны обработки страниц. Требования к выполнению задачи 1. Задача выполняется на С++|Python с использованием классов. Не должно использоваться сторонних библиотек, впрямую решающих задачу. 2. Предпочтительная среда выполнения – MS Windows. 3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов программы, исполняемого модуля. 4. Приложите список URL, на которых вы проверяли свое решение. И результаты проверки. 5. Желательно указать направление дальнейшего улучшения/развития программы. И так вопросы у меня такие. 1) Ни слишком ли крутое задание мне дли на собеседование это на должность с зарплатой в (40 000 рублей) я считаю, что такая программа сама по себе крутая, должен ли я её писать хотя меня не взяли на работу то есть я (не оформлен у них) 2) И второй вопрос если вы считаете что всё в порядке по первому вопросу то как собственно выполнить задание. Большое спасибо буду рад любой информации и мнению.
0
|
07.06.2016, 13:49 | |
Ответы с готовыми решениями:
7
Извлечь из веб-страницы только полезную информацию отбросив весь «мусор» Вытащить из веб-страницы только полезную информацию, отбросив весь «мусор» Получить весь текст веб-страницы Убрать весь мусор с распарсеной страницы HtmlAgilityPack |
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
07.06.2016, 14:00 [ТС] | 3 |
Требования к выполнению задачи
1)...Не должно использоваться сторонних библиотек, впрямую решающих задачу. Как этот пункт прокомментируете в задание компоненты Indy подходят??? Добавлено через 45 секунд Триальную версию??? там же написано в задание 3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов программы, исполняемого модуля. Добавлено через 18 секунд Они требуют исходники.
0
|
управление сложностью
|
|
07.06.2016, 14:07 | 4 |
Это компоненты, которые присутствуют в среде разработки Builder, RAD
Мой вам совет - не давайте исходников. Примут на работу - на ваше усмотрение, а если не примут - потеряете авторство Добавлено через 47 секунд Если вы действительно считаете себя специалистом - условия должны диктовать вы
0
|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
08.06.2016, 11:30 [ТС] | 5 |
Ну вообще идея у меня была такая, если у меня получится написать такую программу, так как это ещё не факт, что я её напишу такую, чтобы прям идеальную, чтобы всё делала, как они хотят, то я отправлю им скришоты работы программы ну или сниму видео предварительно запилив везде логотипы их компании думаю так будет нормально )))
0
|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
22.07.2016, 09:54 [ТС] | 7 |
В общем ни чего писать я им не стал +) Слишком муторно было бы ))))
А работу я себе нашел уже и довольно не плохую +)
0
|
279 / 156 / 52
Регистрация: 30.06.2011
Сообщений: 1,712
|
|
22.07.2016, 10:13 | 8 |
StalkerIQ, поздравляю!
0
|
22.07.2016, 10:13 | |
22.07.2016, 10:13 | |
Помогаю со студенческими работами здесь
8
Как получить html код веб-страницы? Как отобразить только часть веб страницы (класс webbrowser) Как получить полный адрес веб страницы по ссылке Как из базы получить только что обновленную информацию Как из базы получить только что обновленную информацию Вытащить информацию с веб-страницы Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |