Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23
1

Работа с большим объемом данных

01.10.2018, 22:06. Просмотров 1762. Ответов 6
Метки нет (Все метки)

Коллеги, подскажите по такому вопросу.

Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python? Во-первых, если объем большой (допустим считать в датафрейм с использованием pandas), то не все возможно расположить в памяти и есть ограничения. Как вообще в машинном обучении правильно работать с большими данными и в Python вообще? Спасибо!
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
01.10.2018, 22:06
Ответы с готовыми решениями:

Oracle и работа с большим набором данных
Коллеги, здравствуйте! И еще один вопрос на тему Oracle и Python. Если у меня запрос должен...

Работа с большим объёмом данных
Приветствую всех! На днях столкнулся с такой проблемой: необходимо отправить на сервер файл...

Работа с большим объемом данных
Всем привет! Работа с большим объемом данных заставляет задуматься над всевозможными способами...

работа с большим объемом данных
большим я называю от 300000Rx50C судя по информации из диспетчера задач происходит накопление...

6
1025 / 946 / 139
Регистрация: 19.02.2010
Сообщений: 2,934
02.10.2018, 12:22 2
Кольцевой буфер.
0
0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23
02.10.2018, 22:21  [ТС] 3
А могли бы более подробно об это рассказать и какие функции или методы есть в Python? Это опция batch в pandas в read_csv?
0
Эксперт Python
4178 / 3071 / 1007
Регистрация: 28.10.2013
Сообщений: 7,980
03.10.2018, 01:02 4
Цитата Сообщение от MrSergey86 Посмотреть сообщение
несколько миллионов записей.
Это немного. В 4gb ОЗУ вполне влезает до 10-20 млн. строк, если, конечно, у вас не "Война и мир" в каждой записи.
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
Читать документацию по используемым библиотекам. Считывание данных всегда можно делать итеративно - порциями.

read_csv

chunksize : int, default None

Return TextFileReader object for iteration. See the IO Tools docs for more information on iterator and chunksize.

memory_map : boolean, default False

If a filepath is provided for filepath_or_buffer, map the file object directly onto memory and access the data directly from there. Using this option can improve performance because there is no longer any I/O overhead.

Обучение модели также можно делать итеративно, если в интерфейсе алгоритма есть метод partial_fit.
Более подробно ответить вам невозможно, так как единственное, что ясно из вашего поста, это то, что вы работаете с какими-то сферическими конями в вакууме.
0
Эксперт Python
4342 / 1784 / 333
Регистрация: 17.03.2012
Сообщений: 9,380
Записей в блоге: 5
03.10.2018, 13:02 5
MrSergey86, несколько миллионов - это объёмы для обычной "настольной" СУБД, наверняка даже SQLite справится, который в питоне "искапорки".
Если же нет - ну, можно что-то помощнее, типа MySQL или Postgres.

Добавлено через 47 секунд
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
А "вообще" это вопрос довольно сложный. Нельзя так сразу взять и - - - (нутыпонел).
0
510 / 142 / 27
Регистрация: 18.04.2015
Сообщений: 1,859
Записей в блоге: 15
05.10.2018, 11:21 6
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python?
Думаю, стоит обратить внимание на асинхронный python3 статья, например, эта https://habr.com/post/421625/
0
Эксперт Python
4342 / 1784 / 333
Регистрация: 17.03.2012
Сообщений: 9,380
Записей в блоге: 5
05.10.2018, 12:10 7
IRIP, это уже про обработку конкретных случаев. Тут пока с хранением не разобрались.
0
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
05.10.2018, 12:10

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

Работа с большим объемом данных
Имеется загруженное изоображение с помощью opencv. Задача: вывести цвета изображения с из...

Работа с большим объемом данных
Всем привет! Всегда создавал коллекцию List<List<xxx>>, заносил в нее данные из txt файла, а потом...

QtSerialPort Работа с большим объемом данных
Добрый день. Я пишу приложение, которое работает с последовательным портом при помощи...

Как организована работа с большим объемом данных
Программа выдаёт stack overflow при запуске, рекурсию не использую. Кто-нибудь сталкивался с...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2021, vBulletin Solutions, Inc.