Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
 Аватар для sadovnic13
0 / 0 / 0
Регистрация: 01.10.2022
Сообщений: 113

Получение статей

13.11.2023, 20:48. Показов 719. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Для учебного проекта (буду использовать только я) нужен источник информации текстов или статей. Я думал использовать сайт наподобие Хабр или Дзен.
Только вот вопрос, как получать случайную статью?
Или какие еще альтернативы модно использовать для получения текстов и статей средней размерности, желательно не от пользователей-любителей?

P.s. все это реализовать хочу на C#/.Net с использование AgilityPack, возвожны альтернативы
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.11.2023, 20:48
Ответы с готовыми решениями:

Агрегатор статей
Здравствуйте, подскажите как можно реализовать агрегатор статей с некоторых сайтов. Допустим у меня в базе есть 100 сайтов, мне нужно чтобы...

Подгрузка всех категорий из статей
Вот такая модель у меня: public class Article { public int Id { get; set; } public string Name { get;...

Парсер, загрузка статей по дате
здравствуйте, я примерно 4 месяца учу c# и начал изучать html и css, недавно стал себя пробовать в разработке простого парсера новостных...

10
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18242 / 14156 / 5366
Регистрация: 17.03.2014
Сообщений: 28,844
Записей в блоге: 1
13.11.2023, 21:40
sadovnic13, т.к. ни на Дзен ни на Хабре нет функциональности "выдай случайную статью", то значит придется проиндексировать сайт - т.к. это делают поисковики. И, если потребует задача, то поддерживать индекс в актуальном состоянии. Далее выбирать случайную статью из индекса. В самом простом случае "индекс" может представлять список адресов. В более сложном будет включать содержимое статей.

Добавлено через 18 секунд
Что за проект, если не секрет?
0
 Аватар для sadovnic13
0 / 0 / 0
Регистрация: 01.10.2022
Сообщений: 113
13.11.2023, 21:47  [ТС]
OwenGlendower, а может есть решения, которое поможет проиндексировать определенный раздел страницы (мне из раздела будет нужна лишь первая вложенность).

Я понимаю что можно индексировать определенный раздел сайт, к примемеру раздел статей, до первой вложенности, и тогда у меня будут индексы статей?

Добавлено через 3 минуты
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Что за проект, если не секрет?
весь проект сложно описать, но требуется набор тестов для обработки пользователем. Я придумал брать их статей интернета, но встроенный рандомайзер статей нашел только у Википедии. На википедии столкнулся с проблемой парсинга страницы на элементы (много различных типов тегов, которые не нужны в финальном тексте)
0
176 / 74 / 27
Регистрация: 10.11.2023
Сообщений: 199
13.11.2023, 23:32
Сайт журнала "нож" посмотрите.
У них есть кнопка "открыть случайную статью".
Не знаю, подойдет ли для учебного проекта. Контент местами жестковат, может шокировать,
есть статьи, где нужно подтвердить, что есть 18.

Случайная статья открывается простым запросом
Code
1
https://knife.media/random
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18242 / 14156 / 5366
Регистрация: 17.03.2014
Сообщений: 28,844
Записей в блоге: 1
13.11.2023, 23:59
Цитата Сообщение от sadovnic13 Посмотреть сообщение
а может есть решения, которое поможет проиндексировать определенный раздел страницы (мне из раздела будет нужна лишь первая вложенность).
Если я правильно понимаю вопрос, то такого решения нет т.к. у страниц нет стандартной структуры.

Цитата Сообщение от sadovnic13 Посмотреть сообщение
Я понимаю что можно индексировать определенный раздел сайт, к примемеру раздел статей, до первой вложенности, и тогда у меня будут индексы статей?
Необязательно. Ведь там могут быть ссылки куда угодно.

Цитата Сообщение от sadovnic13 Посмотреть сообщение
встроенный рандомайзер статей нашел только у Википедии. На википедии столкнулся с проблемой парсинга страницы на элементы (много различных типов тегов, которые не нужны в финальном тексте)
Есть подозрение что это решаемая проблема т.к. у страниц в wikpedia одинаковая структура. Тем более что можно качать wiki разметку страницы в которой меньше мусора.
0
 Аватар для sadovnic13
0 / 0 / 0
Регистрация: 01.10.2022
Сообщений: 113
14.11.2023, 00:03  [ТС]
OwenGlendower, а может можете дать ссылку по поводу скачивания случайной страницы wiki, где меньше мусора? Или в чем разница обычной страницы Википедии и wiki, не знаю просто отличий?
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18242 / 14156 / 5366
Регистрация: 17.03.2014
Сообщений: 28,844
Записей в блоге: 1
14.11.2023, 00:12
sadovnic13, на каждой странице в wikipedia есть ссылка "Править код".

Ваша задача скачать случайную статью, найти ссылку на редактирование, скачать её содержимое и найти текст внутри textarea. Останется только очистить текст от wiki разметки.
0
Эксперт .NET
 Аватар для Wolfdp
3789 / 1766 / 371
Регистрация: 15.06.2012
Сообщений: 6,543
Записей в блоге: 3
14.11.2023, 09:46
В целом на том же хабре урл страницы состоит из номера. Можно просто брать случайное число, смотреть рейтинг статьи, если больше 10 -- ок. Если меньше, делаем +1. Можно ещё ориентироваться на "Из песочницы".

Вот только я не уверен что там нет какого-нибудь антибота, что запретит вам скачивать сотню страниц в минуту.
0
 Аватар для sadovnic13
0 / 0 / 0
Регистрация: 01.10.2022
Сообщений: 113
14.11.2023, 11:59  [ТС]
Wolfdp,
Цитата Сообщение от Wolfdp Посмотреть сообщение
смотреть рейтинг статьи,
а где его смотреть на хабр?
Цитата Сообщение от Wolfdp Посмотреть сообщение
ориентироваться на "Из песочницы".
что за песочница?
0
71 / 55 / 24
Регистрация: 28.03.2016
Сообщений: 171
18.11.2023, 10:43
Я может не так понял, но почему бы не сделать что-то вроде https://habr.com/ru/articles/[вот тут рандомное шестизначное число]/?
0
 Аватар для sadovnic13
0 / 0 / 0
Регистрация: 01.10.2022
Сообщений: 113
18.11.2023, 10:45  [ТС]
Полурослик, я пробовал данный вариант, получается много страниц которые сейчас закрыты или удалены + много статей со случайной информацией
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.11.2023, 10:45
Помогаю со студенческими работами здесь

Как поменять сортировку вывода статей?
Сейчас в блоке выводится случайная новость. Как сделать, чтобы выводились три последние? <% var news =...

Написание и хранение статей (контента) сайта
Здравствуйте. Не знаю как правильно сформулировать... Начал разбираться с ASP.NET MVC и столкнулся с проблемой разработки и хранения (в...

Создание комментариев для статей блога
Всем привет! Только начал изучать ASP .NET MVC и столкнулся с проблемой: не понимаю, как сделать комментарии для статей на примере простого...

Нахождения сотрудников, написавших больше всех статей
Дана структура NII. Создать библиотеку классов, в которой описать методы: ►Нахождения сотрудников, написавших больше всех статей; ...

Каталоги статей, сколько статей стоит размещать
У меня вот такой вопрос. В нете существует, достаточно много бесплатных каталогов статей, из них не так много достойных. Я вот для себя...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru