Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/7: Рейтинг темы: голосов - 7, средняя оценка - 4.57
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5

Нужны ли вам личные данные пользователей из соц. сети VK?

09.10.2019, 16:18. Показов 1488. Ответов 13

Студворк — интернет-сервис помощи студентам
Доброе время суток, мне интересно ваше мнение по поводу актуальности разработки скрапера для соц. сети VK. Это обращение предназначено для тех, кто занимается машинным обучением или другой деятельностью, в которой личные данные пользователей (далее PII - personally identifiable information) из соц. сети могут быть необходимы.

VK API, конечно, хорош для сбора комментариев, постов, etc, но для получения доступа к PII необходимо запросить у пользователя разрешение. А если вам для исследований нужна выборка, например, в 10000 юзеров, то это может растянуться на бесконечный срок, верно? К тому же, методы для работы с PII (getInfo() и getProfileInfo(), etc) не дают ВСЮ информацию со странички, они несколько ее ограничивают.

Короче говоря, причину разработки такой тулзы я вижу в том, что сложность получения PII через VK API не оправдывает её ценность.

Основное преимущество использования скрапера в том, что ему не нужно спрашивать разрешение. Он заходит на страницу юзера и забирает нужную вам информацию. Работа скрапера будет требовать аккаунта, для чего желательно будет покупать виртуальные номера или симки. Поскольку ботоводство в ВК не одобряется, скраперы будут иммитировать активность пользователя (просмотр постов, залипание в группах, переписка), дабы вы не теряли деньги.

Скраперы будут работать на ОС Win и Linux на базе Chrome с возможностью централизованной сборки информации, что даст возможность запустить скраперов на нескольких машинах, тем самым, ускорив сбор инфы. Запуск будет производиться из командной строки или непосредственно в коде Python, чтобы сохранять данные через коннектор в БД или проводить с ними другие манипуляции сразу при получении.

Так вот, в чем вопрос. Если бы такой opensource-ный инструмент существовал, вы бы его стали использовать?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
09.10.2019, 16:18
Ответы с готовыми решениями:

Личные папки пользователей в сети
Посоветуйте, пожалуйста, в сторону какой технологии смотреть. У клиентов WinXP, им надо папку с личными данными, доступ по логину/паролю....

Возможно ли вывести личные данные пользователей
Возможно ли вывести личные данные пользователей (такие как адрес) в Excel, при этом люди должны быть из определенной группы.??? ...

Поиск физических лиц соц сети(подкину вам идею почитать про разницу JS и Java)
Доброго дня всем! Подкиньте идею в создании проги для поиска людей с помощью соц.сетей,нельзя ли как то это сделать через JavaScript....

13
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
09.10.2019, 16:25
Brorehlie, нет. ¯\_(ツ)_/¯
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,693
Записей в блоге: 29
09.10.2019, 16:48
Brorehlie, я бы на него посмотрел, заявлено то много...
0
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
09.10.2019, 19:30  [ТС]
Часть из заявленного я уже написал, а некоторые вещи реализовать не так уж сложно (централизацию, например, через тот же socket). Как-то увлекся скрапингом и из интереса тестил бота на своем аккаунте.

Концептуальная модель БД уже есть. Сейчас скрапер умеет:

1. Логиниться.
2. Использовать socks из колеса прокси (пул ip: port).
3. Обеспечивать надежный референс через Яндекс, т.е. заходить в соц. сеть путем перехода по линку в поисковике.
4. Получать список друзей.
5. Просматривать посты.
6. Конечно, собирать PII.
7. "Человекопобно" писать текст.

Во время тестов на моем аккаунте скрапер работал по паре часов (не помню точно). Банов не получал. На свежих аккаунтах не тестил.
Запускал его на fedora server и на win 10.

Подумываю взять его в качестве темы для ВКР. Я мог бы расширить его функционал, зарефакторить парочку запахов и выложить на общее пользование. Но мне нужно знать, кто будет моим пользователем и сколько их будет?
0
 Аватар для Damenikx
955 / 341 / 114
Регистрация: 04.08.2018
Сообщений: 2,533
09.10.2019, 20:12
Brorehlie, два точно будет! Ты и Роскомнадзор.

Если серьёзно, то лучше бы продал то, что делаешь, чем спрашивал тут мнения ибо половина из участниклв форума это люди которые пишут ботов в telegram не зная как цикл написать, ещё часть таких, как я (начинающий), часть знатоков, которые РЕАЛЬНО шарят в своих темах, а остальные это те, кто пройдёт мимо с мыслью *много букав, очень многа букав, Ходор, Ходор, где темы про телеграм-ботов, Ходор, Ходор* и те, кто прочитают и не ответят.

Добавлено через 19 секунд
¯\_(ツ)_/¯ <-------------------*Спёр у DmFat
0
49 / 21 / 6
Регистрация: 16.02.2019
Сообщений: 55
09.10.2019, 21:08
Цитата Сообщение от Brorehlie Посмотреть сообщение
Доброе время суток, мне интересно ваше мнение по поводу актуальности разработки скрапера для соц. сети VK.
Должен Вам сказать, что еще задолго до появления этой идеи у вас, она была многократно реализована. И не только для ВК.
Если потренироваться и погрузиться в тему скрапинга... может быть есть смысл... как учебный проект. Более серьезное что то - сомнительно.

Более того, если не использовать АПИ то скорость сбора информации будет низкой.
Единственный кто выиграет из всего этого... наверное только продавец аккаунтов ВК, у которого вы их будете покупать (для работы вашей тулзы)

Добавлено через 10 минут
Цитата Сообщение от Brorehlie Посмотреть сообщение
1. Логиниться.
2. Использовать socks из колеса прокси (пул ip: port).
3. Обеспечивать надежный референс через Яндекс, т.е. заходить в соц. сеть путем перехода по линку в поисковике.
4. Получать список друзей.
5. Просматривать посты.
6. Конечно, собирать PII.
7. "Человекопобно" писать текст.
это почти ничего (Вы уж не обижайтесь - но это реально так.) Простые задачи. На уровне - элементарно
1
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
09.10.2019, 23:47  [ТС]
Ну, дак, лол, это понятно. Задачи относительно простые, я тогда знакомился со скрапингом и запуском браузера в иксах на сервере, так что для меня они были кайфовыми (атоматизация же). Шишек кучу набил сначала с Requests, потом дошел до Selenium с PhantomJS и уже после дошел до подходящей связки инструментов. Про коммерцию речи вообще не идет, я ж написал, что...

Цитата Сообщение от Brorehlie Посмотреть сообщение
Подумываю взять его в качестве темы для ВКР.

Цитата Сообщение от SergeyDe Посмотреть сообщение
если не использовать АПИ
В том-то и дело, что для использования API необходимо получать пользовательские ключи, а для этого они должны дать согласие для работы вашего приложения. Вопрос можно поставить таким ребром, что быстрее: купить пару симок и запустить скраперов на виртуалках или получить согласие от пользователей?

Цитата Сообщение от SergeyDe Посмотреть сообщение
она была многократно реализована
О-о-о, я был бы не против ознакомиться: конкретно для vk не находил.
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,693
Записей в блоге: 29
10.10.2019, 06:01
Brorehlie, talk is cheap, show me the code!
0
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
11.10.2019, 17:15  [ТС]
Welemir1, code is cheap, if it doesn't solve an important problem!
0
5042 / 1069 / 149
Регистрация: 29.01.2013
Сообщений: 6,241
14.10.2019, 14:49
Brorehlie, вы позиционируете свою ... свой... хм.. своё творчество, как источник данных для машинного обучения и анализа данных. Возможно, я открою вам большую тайну, но аналитика вконтакте мало пригодна для обучения хоть чему-нибудь. Даже ботов-текстогенераторов я бы на подобных данных обучать не стал.
Так какова тогда конечная цель вашей деятельности?
0
0 / 0 / 0
Регистрация: 09.10.2019
Сообщений: 5
15.10.2019, 02:02  [ТС]
Alli_Lupin, да, верно, так и позиционирую.

Цитата Сообщение от Alli_Lupin Посмотреть сообщение
аналитика вконтакте мало пригодна для обучения
Окей. Просвятите меня, исходя из чего вы сделали такой вывод?
0
5042 / 1069 / 149
Регистрация: 29.01.2013
Сообщений: 6,241
15.10.2019, 11:43
Brorehlie, мало кореллируемых данных. И вообще мало данных. На основании этих данных может получиться только аналитика вида "программисты, использующие пробелы, в среднем получают больше своих коллег, использующих табуляцию". Отличная аналитика. Очень о многом говорит. Осталось понять, что с ней делать и поможет ли переход на пробелы увеличить зарплату.

Добавлено через 1 минуту
опять же, мне оооочень интересно, как подобные действия выглядят со стороны закона. Например, закона о персональных данных.
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
16.10.2019, 10:05
Цитата Сообщение от Brorehlie Посмотреть сообщение
Просвятите меня, исходя из чего вы сделали такой вывод?
75% - пользователей, пишут не грамотно, постят на своих страницах какое то гамно, вся информация является фейковой.

25% - выкладывают информацию о себе(чаще всего минимум, или вообще ничего), постят инфу с топовых тематических пабликов(или не постят вообще), вкладывают минимум активности в обсуждениях(или опять же этого не делают).

Какую информацию ты хочешь собирать? Такие странички создать самому можно с помощью команды random.choice и списка модных слов и трендов, например: мальчик лет 10-14 - Васько Казанский(или город где он проживает), номер: не скажу, город: Dubai, подписки: Егор Крид; Падик; Я не гей, но с парнем не против и т.д и т.п.
0
531 / 180 / 39
Регистрация: 18.08.2012
Сообщений: 907
16.10.2019, 10:27
в настоящее время - существует 2-5 сайтов (если не больше) - где есть все пользователи вконтакте. Инфа по ним начала собираться чуть ли не с 2012 года.
некоторые из них уже были заблокированы роскомнадзором, кого-то даже пробно осудили за сбор и размещение.
важно одно, что:
и эти сайты и так называемые "VK API" - находятся в серой зоне. Если вас ещё не привлекли к ответственности то, это не значит, что не привлекут в будущем. Вы УЖЕ на карандаше.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.10.2019, 10:27
Помогаю со студенческими работами здесь

Про судебные дела в отношении пользователей соц сети
никак не могу понять. Вот есть новости, где утверждают следующее: &quot;гражданин Н разместил оскорбительное сообщение на своей странице в соц...

Как установить на сайт привязку к соц аккаунтам и авторизация через соц сети
Добрый вечер форумчане, вопрос имею, есть сайт с логинами и паролями в базе, хочу сделать чтоб в личном кабинете пользователя была привязка...

По какому принципу работают личные url адреса в соц сетях, аля vk.com/my_name?
Доброго времени суток. В процессе разработки сайта возник вопрос, какою структуру адресов строить. Соц сети к примеру дают...

Возможно ли на html создать рабочую форму регистрации и личные кабинеты пользователей?
Добрый вечер всем. Я недавно начал заниматься вёрсткой сайтов на html. Сейчас передо мной стоит задача сделать готовый и работающий сайт. В...

WP-RECALL – ЛИЧНЫЙ КАБИНЕТ ПОЛЬЗОВАТЕЛЯ, ЛИЧНЫЕ СООБЩЕНИЯ И СИСТЕМА РЕЙТИНГА ПОЛЬЗОВАТЕЛЕЙ ДЛЯ WORDPRESS
https://youtu.be/c7eaOGwn0R8 Преимущества плагина: Интеграция с любым шаблоном вордпресс Легкая установка плагина Широкие...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Новые блоги и статьи
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru