|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
Как получить из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд)07.06.2016, 13:49. Показов 1651. Ответов 7
Метки нет (Все метки)
Здравствуйте уважаемые как же давно я тут не писал.
Есть некая задачка по которой у меня два вопроса. Значит так я искал работу программиста и мне позвонили из компании тензор сказали, что для прохождения на эту вакансию надо решить задачку (написать программу). Вот текст задания... Формулировка задачи Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить» из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд). Полученный текст нужно отформатировать для максимально комфортного чтения в любом текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше усмотрение. Программа оформляется в виде утилиты командной строки, которой в качестве параметра указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и формирует текстовый файл с текстом статьи, представленной на данной странице. В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов. Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL. Примерно так: http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt Усложнение задачи 2: Программа должна поддаваться настройке – в отдельном файле/файлах задаются шаблоны обработки страниц. Требования к выполнению задачи 1. Задача выполняется на С++|Python с использованием классов. Не должно использоваться сторонних библиотек, впрямую решающих задачу. 2. Предпочтительная среда выполнения – MS Windows. 3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов программы, исполняемого модуля. 4. Приложите список URL, на которых вы проверяли свое решение. И результаты проверки. 5. Желательно указать направление дальнейшего улучшения/развития программы. И так вопросы у меня такие. 1) Ни слишком ли крутое задание мне дли на собеседование это на должность с зарплатой в (40 000 рублей) я считаю, что такая программа сама по себе крутая, должен ли я её писать хотя меня не взяли на работу то есть я (не оформлен у них) 2) И второй вопрос если вы считаете что всё в порядке по первому вопросу то как собственно выполнить задание. Большое спасибо буду рад любой информации и мнению.
0
|
|
| 07.06.2016, 13:49 | |
|
Ответы с готовыми решениями:
7
Извлечь из веб-страницы только полезную информацию отбросив весь «мусор» Вытащить из веб-страницы только полезную информацию, отбросив весь «мусор» Получить весь текст веб-страницы |
|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
| 07.06.2016, 14:00 [ТС] | |
|
Требования к выполнению задачи
1)...Не должно использоваться сторонних библиотек, впрямую решающих задачу. Как этот пункт прокомментируете в задание компоненты Indy подходят??? Добавлено через 45 секунд Триальную версию??? там же написано в задание 3. Решение должно состоять из документа, описывающего алгоритм, исходных кодов программы, исполняемого модуля. Добавлено через 18 секунд Они требуют исходники.
0
|
|
|
управление сложностью
|
|||
| 07.06.2016, 14:07 | |||
![]() Добавлено через 47 секунд Если вы действительно считаете себя специалистом - условия должны диктовать вы
0
|
|||
|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
| 08.06.2016, 11:30 [ТС] | |
|
Ну вообще идея у меня была такая, если у меня получится написать такую программу, так как это ещё не факт, что я её напишу такую, чтобы прям идеальную, чтобы всё делала, как они хотят, то я отправлю им скришоты работы программы ну или сниму видео предварительно запилив везде логотипы их компании думаю так будет нормально )))
0
|
|
|
22 / 20 / 3
Регистрация: 21.05.2013
Сообщений: 408
|
|
| 22.07.2016, 09:54 [ТС] | |
|
В общем ни чего писать я им не стал +) Слишком муторно было бы ))))
А работу я себе нашел уже и довольно не плохую +)
0
|
|
|
279 / 156 / 52
Регистрация: 30.06.2011
Сообщений: 1,712
|
|
| 22.07.2016, 10:13 | |
|
StalkerIQ, поздравляю!
0
|
|
| 22.07.2016, 10:13 | |
|
Помогаю со студенческими работами здесь
8
Убрать весь мусор с распарсеной страницы HtmlAgilityPack Как получить html код веб-страницы? Как отобразить только часть веб страницы (класс webbrowser)
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|