Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 Аватар для Novosedoff
48 / 45 / 7
Регистрация: 17.01.2021
Сообщений: 354

Crawling и сбор открытых данных с академического сайта

30.09.2023, 21:28. Показов 329. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Приветствую

Имеется популярный сайт academia.edu, на котором все публикации сгруппированы по топикам (темам). Для каждого топика можно найти посмотреть 1) количество публикаций и 2) количество followers, подписавшихся на этот топик:
https://www.academia.edu/topics

Максимум по количеству публикаций внутри одного топика, который я пока видел - это топик Cardiovascular Diseases, в котором 67.3 тысяч статей. Однако количество подписчиков для этого топика составляет всего 6.32 тысяч, что меньше чем для религиозного топика Christianity (71.5 тысяч подписчиков).

Данные, с одной стороны, абсолютно открытые, однако неудобство заключается в том, что для того, чтобы сравнить как ранжируются все топики по количеству публикаций и подписчиков (followers), нужно буквально прокликнуть все страницы с названиями топиков.

Найти аналитические отчёты в открытых источниках не удалось, хотя на сайте есть одноименный топик academia.edu, в котором публикуются кое-какие обзоры.

Как можно проще всего собрать такие данные?

Заранее благодарю.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
30.09.2023, 21:28
Ответы с готовыми решениями:

Сбор данных с сайта
Подскажите или укажите путь истинный. В чем дело: Есть онлайн база данных со страницей на хостинге. Необходимо собрать ту информацию с...

Сбор данных с сайта
Доброе утро! Есть некая таблица где указаны ИНН компаний, необходимо заполнить пустые столбцы использую данные сайта...

Сбор данных с чужого сайта
Добрй день! Вопрос достаточно расплывчатый и неконкретный, так как я сам не совсем понимаю что мне спрашивать) Я изучаю Xamarin. Хочу...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
30.09.2023, 21:28
Помогаю со студенческими работами здесь

Парсер сайта магазина сбор данных
Хочу научиться извлекать данные с сайтов. Например скачать страницу магазина, где отображены товары и цены - вычленить их и поместить в...

С# приложение. Сбор данных с HTML сайта
есть сайт,на нем есть таблица: <tbody> <tr class="balanceTotal"> ...

Отображение сайта в панели открытых страниц
Почему в панели открытых страниц отображается ссылка сайта,а не его название? как это исправить? Заранее спасибо за помощь.

Отслеживание одновременно открытых более 1 вкладок 1 сайта
Как можно отследить если юзер открыл больше 1 владки сайта

Сбор информации с сайта
Здравствуйте. Нужна помощь. Подскажите, какая функция может отыскать в урл сайта например это "<li...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru