|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
||||||
DBSCAN MemoryError15.04.2018, 20:06. Показов 2406. Ответов 13
Метки нет (Все метки)
Задача пропарсить лог запросов поисковика объемом в 500 метров и выделить запросы, связанные с просмотром телевидения.
Решать решил в Jupyter с помощью лемматизации -> tfifd критерия -> DBSCAN кластеризации. На моменте использования DBSCAN от матрицы векторов все время появляется ошибка в разных ее вариациях MemoryError. Посерфил по инету и нашел решения, в частности ипользовать алгоритм 'Ball Tree', использовать меньше зону эпсилон, использовать другие метрики, но ничего из этого не дало результата. Причем матрицу беру даже очень маленькую, всего в 3000 строк, и уже ошибка, при матрице в 1000 строк - нет ошибки. Кто-нибудь сталкивался? код под спойлером. Лог по ссылке, Код Python
URL Log
0
|
||||||
| 15.04.2018, 20:06 | |
|
Ответы с готовыми решениями:
13
MemoryError
|
|
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
|
|||||||||||||
| 15.04.2018, 21:47 | |||||||||||||
0
|
|||||||||||||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 15.04.2018, 22:22 [ТС] | |
|
Забавно, но на MacOS запускается без проблем, а вот на винде не работает.
Я так и писал через нижнее подчеркивание, на форуме просто в ручную исправлял, опечатался. У вас мак или винда? и какая версия? я даже попробовал на компе и на ноуте. на обоих вин 10.1, и не работает этот скрипт
0
|
|
|
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
|
|
| 15.04.2018, 22:28 | |
|
win10 x64
0
|
|
|
|
||
| 15.04.2018, 22:56 | ||
|
У вас какой объем памяти на компе? И сколько ядер? Скрипт запускает обработку модели в multiprocessing - 1 процесс на одно ядро. Данные, загруженные в память занимают ~600 mb (на x64 больше) + каждый процесс жрет по 400-600 mb (на x64 больше). Итог: eсли у вас мало памяти и много ядер - MemoryError. На windows запуск нового процесса достаточно ресурсоемкая операция. Попробуйте уменьшить n_jobs до 1. Будет работать медленее, но, зато, возможно, хватит памяти. P.S. C n_jobs=1 у меня вполне быстро отработалось с 5000 сэмплов. И памяти чуть меньше гига ушло. А вот с 10 тыс. тоже не получается - мало ОЗУшки, да и на 32-битной винде один процесс может использовать только 2 гига памяти и все. :-) Добавлено через 1 минуту P.P.S. Алгоритм я выставил "auto".
2
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 15.04.2018, 23:42 [ТС] | |
|
Это я понял. у меня i7, 8gb ram. Но на обычном макбуке запускается на 100000 строку без проблем!
0
|
|
|
|
||
| 15.04.2018, 23:52 | ||
|
Если ядро только одно, то я уже сказал - памяти для одного процесса хватает. Добавлено через 3 минуты P.S. Вы попробуйте на гаданием заняться, а профилированием кода по памяти. Многие вопросы сразу отпадут.
0
|
||
| 16.04.2018, 00:00 | |
|
Не по теме: а что значит на обычном макбуке?) и бывают ли необычные?)
0
|
|
|
|
||
| 16.04.2018, 00:24 | ||
|
Суть в реализации алгоритма в sklearn: DBSCAN needs O(n*k) memory, where k is the number of neighbors within epsilon. Поэтому при некоторых критических размерностях имеющихся данных вы с ним вообще не сможете работать даже на суперобычном макбуке.
1
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|||||||||||
| 16.04.2018, 03:03 [ТС] | |||||||||||
|
Про макбук узнаю.
Т.е. надо просто поиграться с параметрами дбскан и подобрать рабочие? меньше потоков взять? Я отпишусь как попробую! спасибо! Добавлено через 28 минут Поставил 1 поток, - заработало для 10000 строк. Однако для 50000 уже не работает, а нужно обработать более 1млн. строк... Попробовал с Ball_tree, вы ошибке посоветовал мне юпитер использовать Brute. Ошибки у них одинаковые: Код+ошибка
Ошибка
Я пытался уменьшить eps = 0.0001 , но это не помогло(( Добавлено через 1 час 37 минут Я понял. У меня был установлен Python 32 bit... Сейчас переустановил и все равно не смог взять 50000 строк. Но думал компьютер уже гораздо дольше.
0
|
|||||||||||
|
|
||
| 16.04.2018, 14:03 | ||
|
По поводу данных больших размерностей я уже сказал вам (и это легко подвердит гугл), что реализация этого алгоритма в sklearn неоптимальна и стоит поискать его имплементацию в другой библиотеке.
1
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 16.04.2018, 18:30 [ТС] | |
|
Garry Galler, ты же понимаешь заказы? может договоримся о помощи с решением этой задачи?
0
|
|
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 17.04.2018, 17:49 [ТС] | |
|
Если кому интересно, то решением данной проблемы я нашел следующие действия:
Визуализировав массив данных через TSNE, я выбрал другой алгоритм, который бы подходил для данной задачи. Видно, что для данные разрознены по Гауссовым скоплениям, и для данной картинки подойдёт идеально метод кластеризации sklearn.mixture.GaussianMixture Буду пробовать дальше.
0
|
|
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 17.04.2018, 21:09 [ТС] | |
|
Заработало с Гауссовой смесью!
0
|
|
| 17.04.2018, 21:09 | |
|
Помогаю со студенческими работами здесь
14
Рекурсия: MemoryError: Stack overflow
Реализация алгоритма DBSCAN Ширина поиска в алгоритме dbscan Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
|
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение.
И на уровне агентов добавится между грибами или бактериями взаимодействий.
До того я пробовал подход через многомерные массивы,. . .
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|