|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
||||||
DBSCAN MemoryError15.04.2018, 20:06. Показов 2495. Ответов 13
Метки нет (Все метки)
Задача пропарсить лог запросов поисковика объемом в 500 метров и выделить запросы, связанные с просмотром телевидения.
Решать решил в Jupyter с помощью лемматизации -> tfifd критерия -> DBSCAN кластеризации. На моменте использования DBSCAN от матрицы векторов все время появляется ошибка в разных ее вариациях MemoryError. Посерфил по инету и нашел решения, в частности ипользовать алгоритм 'Ball Tree', использовать меньше зону эпсилон, использовать другие метрики, но ничего из этого не дало результата. Причем матрицу беру даже очень маленькую, всего в 3000 строк, и уже ошибка, при матрице в 1000 строк - нет ошибки. Кто-нибудь сталкивался? код под спойлером. Лог по ссылке, Код Python
URL Log
0
|
||||||
| 15.04.2018, 20:06 | |
|
Ответы с готовыми решениями:
13
MemoryError
|
|
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
|
|||||||||||||
| 15.04.2018, 21:47 | |||||||||||||
0
|
|||||||||||||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 15.04.2018, 22:22 [ТС] | |
|
Забавно, но на MacOS запускается без проблем, а вот на винде не работает.
Я так и писал через нижнее подчеркивание, на форуме просто в ручную исправлял, опечатался. У вас мак или винда? и какая версия? я даже попробовал на компе и на ноуте. на обоих вин 10.1, и не работает этот скрипт
0
|
|
|
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
|
|
| 15.04.2018, 22:28 | |
|
win10 x64
0
|
|
|
|
||
| 15.04.2018, 22:56 | ||
|
У вас какой объем памяти на компе? И сколько ядер? Скрипт запускает обработку модели в multiprocessing - 1 процесс на одно ядро. Данные, загруженные в память занимают ~600 mb (на x64 больше) + каждый процесс жрет по 400-600 mb (на x64 больше). Итог: eсли у вас мало памяти и много ядер - MemoryError. На windows запуск нового процесса достаточно ресурсоемкая операция. Попробуйте уменьшить n_jobs до 1. Будет работать медленее, но, зато, возможно, хватит памяти. P.S. C n_jobs=1 у меня вполне быстро отработалось с 5000 сэмплов. И памяти чуть меньше гига ушло. А вот с 10 тыс. тоже не получается - мало ОЗУшки, да и на 32-битной винде один процесс может использовать только 2 гига памяти и все. :-) Добавлено через 1 минуту P.P.S. Алгоритм я выставил "auto".
2
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 15.04.2018, 23:42 [ТС] | |
|
Это я понял. у меня i7, 8gb ram. Но на обычном макбуке запускается на 100000 строку без проблем!
0
|
|
|
|
||
| 15.04.2018, 23:52 | ||
|
Если ядро только одно, то я уже сказал - памяти для одного процесса хватает. Добавлено через 3 минуты P.S. Вы попробуйте на гаданием заняться, а профилированием кода по памяти. Многие вопросы сразу отпадут.
0
|
||
| 16.04.2018, 00:00 | |
|
Не по теме: а что значит на обычном макбуке?) и бывают ли необычные?)
0
|
|
|
|
||
| 16.04.2018, 00:24 | ||
|
Суть в реализации алгоритма в sklearn: DBSCAN needs O(n*k) memory, where k is the number of neighbors within epsilon. Поэтому при некоторых критических размерностях имеющихся данных вы с ним вообще не сможете работать даже на суперобычном макбуке.
1
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|||||||||||
| 16.04.2018, 03:03 [ТС] | |||||||||||
|
Про макбук узнаю.
Т.е. надо просто поиграться с параметрами дбскан и подобрать рабочие? меньше потоков взять? Я отпишусь как попробую! спасибо! Добавлено через 28 минут Поставил 1 поток, - заработало для 10000 строк. Однако для 50000 уже не работает, а нужно обработать более 1млн. строк... Попробовал с Ball_tree, вы ошибке посоветовал мне юпитер использовать Brute. Ошибки у них одинаковые: Код+ошибка
Ошибка
Я пытался уменьшить eps = 0.0001 , но это не помогло(( Добавлено через 1 час 37 минут Я понял. У меня был установлен Python 32 bit... Сейчас переустановил и все равно не смог взять 50000 строк. Но думал компьютер уже гораздо дольше.
0
|
|||||||||||
|
|
||
| 16.04.2018, 14:03 | ||
|
По поводу данных больших размерностей я уже сказал вам (и это легко подвердит гугл), что реализация этого алгоритма в sklearn неоптимальна и стоит поискать его имплементацию в другой библиотеке.
1
|
||
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 16.04.2018, 18:30 [ТС] | |
|
Garry Galler, ты же понимаешь заказы? может договоримся о помощи с решением этой задачи?
0
|
|
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 17.04.2018, 17:49 [ТС] | |
|
Если кому интересно, то решением данной проблемы я нашел следующие действия:
Визуализировав массив данных через TSNE, я выбрал другой алгоритм, который бы подходил для данной задачи. Видно, что для данные разрознены по Гауссовым скоплениям, и для данной картинки подойдёт идеально метод кластеризации sklearn.mixture.GaussianMixture Буду пробовать дальше.
0
|
|
|
0 / 0 / 0
Регистрация: 24.02.2013
Сообщений: 73
|
|
| 17.04.2018, 21:09 [ТС] | |
|
Заработало с Гауссовой смесью!
0
|
|
| 17.04.2018, 21:09 | |
|
Помогаю со студенческими работами здесь
14
Рекурсия: MemoryError: Stack overflow
Реализация алгоритма DBSCAN Ширина поиска в алгоритме dbscan Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html
Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
|