|
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
|
|
Нужны ли вам личные данные пользователей из соц. сети VK?09.10.2019, 16:18. Показов 1488. Ответов 13
Метки machine learning python (Все метки)
Доброе время суток, мне интересно ваше мнение по поводу актуальности разработки скрапера для соц. сети VK. Это обращение предназначено для тех, кто занимается машинным обучением или другой деятельностью, в которой личные данные пользователей (далее PII - personally identifiable information) из соц. сети могут быть необходимы.
VK API, конечно, хорош для сбора комментариев, постов, etc, но для получения доступа к PII необходимо запросить у пользователя разрешение. А если вам для исследований нужна выборка, например, в 10000 юзеров, то это может растянуться на бесконечный срок, верно? К тому же, методы для работы с PII (getInfo() и getProfileInfo(), etc) не дают ВСЮ информацию со странички, они несколько ее ограничивают. Короче говоря, причину разработки такой тулзы я вижу в том, что сложность получения PII через VK API не оправдывает её ценность. Основное преимущество использования скрапера в том, что ему не нужно спрашивать разрешение. Он заходит на страницу юзера и забирает нужную вам информацию. Работа скрапера будет требовать аккаунта, для чего желательно будет покупать виртуальные номера или симки. Поскольку ботоводство в ВК не одобряется, скраперы будут иммитировать активность пользователя (просмотр постов, залипание в группах, переписка), дабы вы не теряли деньги. Скраперы будут работать на ОС Win и Linux на базе Chrome с возможностью централизованной сборки информации, что даст возможность запустить скраперов на нескольких машинах, тем самым, ускорив сбор инфы. Запуск будет производиться из командной строки или непосредственно в коде Python, чтобы сохранять данные через коннектор в БД или проводить с ними другие манипуляции сразу при получении. Так вот, в чем вопрос. Если бы такой opensource-ный инструмент существовал, вы бы его стали использовать?
0
|
|
| 09.10.2019, 16:18 | |
|
Ответы с готовыми решениями:
13
Личные папки пользователей в сети Возможно ли вывести личные данные пользователей Поиск физических лиц соц сети(подкину вам идею почитать про разницу JS и Java) |
|
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
|
|
| 09.10.2019, 19:30 [ТС] | |
|
Часть из заявленного я уже написал, а некоторые вещи реализовать не так уж сложно (централизацию, например, через тот же socket). Как-то увлекся скрапингом и из интереса тестил бота на своем аккаунте.
Концептуальная модель БД уже есть. Сейчас скрапер умеет: 1. Логиниться. 2. Использовать socks из колеса прокси (пул ip: port). 3. Обеспечивать надежный референс через Яндекс, т.е. заходить в соц. сеть путем перехода по линку в поисковике. 4. Получать список друзей. 5. Просматривать посты. 6. Конечно, собирать PII. 7. "Человекопобно" писать текст. Во время тестов на моем аккаунте скрапер работал по паре часов (не помню точно). Банов не получал. На свежих аккаунтах не тестил. Запускал его на fedora server и на win 10. Подумываю взять его в качестве темы для ВКР. Я мог бы расширить его функционал, зарефакторить парочку запахов и выложить на общее пользование. Но мне нужно знать, кто будет моим пользователем и сколько их будет?
0
|
|
|
955 / 341 / 114
Регистрация: 04.08.2018
Сообщений: 2,533
|
|
| 09.10.2019, 20:12 | |
|
Brorehlie, два точно будет! Ты и Роскомнадзор.
Если серьёзно, то лучше бы продал то, что делаешь, чем спрашивал тут мнения ибо половина из участниклв форума это люди которые пишут ботов в telegram не зная как цикл написать, ещё часть таких, как я (начинающий), часть знатоков, которые РЕАЛЬНО шарят в своих темах, а остальные это те, кто пройдёт мимо с мыслью *много букав, очень многа букав, Ходор, Ходор, где темы про телеграм-ботов, Ходор, Ходор* и те, кто прочитают и не ответят. Добавлено через 19 секунд ¯\_(ツ)_/¯ <-------------------*Спёр у DmFat
0
|
|
|
49 / 21 / 6
Регистрация: 16.02.2019
Сообщений: 55
|
|||
| 09.10.2019, 21:08 | |||
|
Если потренироваться и погрузиться в тему скрапинга... может быть есть смысл... как учебный проект. Более серьезное что то - сомнительно. Более того, если не использовать АПИ то скорость сбора информации будет низкой. Единственный кто выиграет из всего этого... наверное только продавец аккаунтов ВК, у которого вы их будете покупать (для работы вашей тулзы) Добавлено через 10 минут
1
|
|||
|
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
|
||||
| 09.10.2019, 23:47 [ТС] | ||||
|
Ну, дак, лол, это понятно. Задачи относительно простые, я тогда знакомился со скрапингом и запуском браузера в иксах на сервере, так что для меня они были кайфовыми (атоматизация же). Шишек кучу набил сначала с Requests, потом дошел до Selenium с PhantomJS и уже после дошел до подходящей связки инструментов. Про коммерцию речи вообще не идет, я ж написал, что...
0
|
||||
|
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
|
|
| 11.10.2019, 17:15 [ТС] | |
|
Welemir1, code is cheap, if it doesn't solve an important problem!
0
|
|
|
5042 / 1069 / 149
Регистрация: 29.01.2013
Сообщений: 6,241
|
|
| 14.10.2019, 14:49 | |
|
Brorehlie, вы позиционируете свою ... свой... хм.. своё творчество, как источник данных для машинного обучения и анализа данных. Возможно, я открою вам большую тайну, но аналитика вконтакте мало пригодна для обучения хоть чему-нибудь. Даже ботов-текстогенераторов я бы на подобных данных обучать не стал.
Так какова тогда конечная цель вашей деятельности?
0
|
|
|
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
|
||
| 15.10.2019, 02:02 [ТС] | ||
|
Alli_Lupin, да, верно, так и позиционирую.
0
|
||
|
5042 / 1069 / 149
Регистрация: 29.01.2013
Сообщений: 6,241
|
|
| 15.10.2019, 11:43 | |
|
Brorehlie, мало кореллируемых данных. И вообще мало данных. На основании этих данных может получиться только аналитика вида "программисты, использующие пробелы, в среднем получают больше своих коллег, использующих табуляцию". Отличная аналитика. Очень о многом говорит. Осталось понять, что с ней делать и поможет ли переход на пробелы увеличить зарплату.
Добавлено через 1 минуту опять же, мне оооочень интересно, как подобные действия выглядят со стороны закона. Например, закона о персональных данных.
0
|
|
|
Модератор
|
||
| 16.10.2019, 10:05 | ||
|
25% - выкладывают информацию о себе(чаще всего минимум, или вообще ничего), постят инфу с топовых тематических пабликов(или не постят вообще), вкладывают минимум активности в обсуждениях(или опять же этого не делают). Какую информацию ты хочешь собирать? Такие странички создать самому можно с помощью команды random.choice и списка модных слов и трендов, например: мальчик лет 10-14 - Васько Казанский(или город где он проживает), номер: не скажу, город: Dubai, подписки: Егор Крид; Падик; Я не гей, но с парнем не против и т.д и т.п.
0
|
||
|
531 / 180 / 39
Регистрация: 18.08.2012
Сообщений: 907
|
|
| 16.10.2019, 10:27 | |
|
в настоящее время - существует 2-5 сайтов (если не больше) - где есть все пользователи вконтакте. Инфа по ним начала собираться чуть ли не с 2012 года.
некоторые из них уже были заблокированы роскомнадзором, кого-то даже пробно осудили за сбор и размещение. важно одно, что: и эти сайты и так называемые "VK API" - находятся в серой зоне. Если вас ещё не привлекли к ответственности то, это не значит, что не привлекут в будущем. Вы УЖЕ на карандаше.
0
|
|
| 16.10.2019, 10:27 | |
|
Помогаю со студенческими работами здесь
14
Про судебные дела в отношении пользователей соц сети Как установить на сайт привязку к соц аккаунтам и авторизация через соц сети По какому принципу работают личные url адреса в соц сетях, аля vk.com/my_name? Возможно ли на html создать рабочую форму регистрации и личные кабинеты пользователей? WP-RECALL – ЛИЧНЫЙ КАБИНЕТ ПОЛЬЗОВАТЕЛЯ, ЛИЧНЫЕ СООБЩЕНИЯ И СИСТЕМА РЕЙТИНГА ПОЛЬЗОВАТЕЛЕЙ ДЛЯ WORDPRESS Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд.
Даже если у вас. . .
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение:
В этой книге («Подход, основанный на вариантах использования») Ивар утверждает,
что архитектура программного обеспечения — это
структуры,. . .
|
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога
Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
|
|
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip
На первой гифке отладочные линии отключены, а на второй включены:. . .
|
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем.
. . .
|
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
|
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
|