0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23

Работа с большим объемом данных

01.10.2018, 22:06. Показов 3341. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Коллеги, подскажите по такому вопросу.

Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python? Во-первых, если объем большой (допустим считать в датафрейм с использованием pandas), то не все возможно расположить в памяти и есть ограничения. Как вообще в машинном обучении правильно работать с большими данными и в Python вообще? Спасибо!
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
01.10.2018, 22:06
Ответы с готовыми решениями:

Oracle и работа с большим набором данных
Коллеги, здравствуйте! И еще один вопрос на тему Oracle и Python. Если у меня запрос должен вернуть допустим 3 млн. строк, то...

Работа с большим объемом данных
Всем привет! Всегда создавал коллекцию List<List<xxx>>, заносил в нее данные из txt файла, а потом с этой коллекцией уже работаю. Так я...

Работа с большим объемом данных
Всем привет! Работа с большим объемом данных заставляет задуматься над всевозможными способами оптимизации алгоритма. Возьмем простой...

6
2642 / 1653 / 267
Регистрация: 19.02.2010
Сообщений: 4,381
02.10.2018, 12:22
Кольцевой буфер.
0
0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23
02.10.2018, 22:21  [ТС]
А могли бы более подробно об это рассказать и какие функции или методы есть в Python? Это опция batch в pandas в read_csv?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
03.10.2018, 01:02
Цитата Сообщение от MrSergey86 Посмотреть сообщение
несколько миллионов записей.
Это немного. В 4gb ОЗУ вполне влезает до 10-20 млн. строк, если, конечно, у вас не "Война и мир" в каждой записи.
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
Читать документацию по используемым библиотекам. Считывание данных всегда можно делать итеративно - порциями.

read_csv

chunksize : int, default None

Return TextFileReader object for iteration. See the IO Tools docs for more information on iterator and chunksize.

memory_map : boolean, default False

If a filepath is provided for filepath_or_buffer, map the file object directly onto memory and access the data directly from there. Using this option can improve performance because there is no longer any I/O overhead.

Обучение модели также можно делать итеративно, если в интерфейсе алгоритма есть метод partial_fit.
Более подробно ответить вам невозможно, так как единственное, что ясно из вашего поста, это то, что вы работаете с какими-то сферическими конями в вакууме.
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
03.10.2018, 13:02
MrSergey86, несколько миллионов - это объёмы для обычной "настольной" СУБД, наверняка даже SQLite справится, который в питоне "искапорки".
Если же нет - ну, можно что-то помощнее, типа MySQL или Postgres.

Добавлено через 47 секунд
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
А "вообще" это вопрос довольно сложный. Нельзя так сразу взять и - - - (нутыпонел).
0
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
05.10.2018, 11:21
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python?
Думаю, стоит обратить внимание на асинхронный python3 статья, например, эта https://habr.com/post/421625/
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
05.10.2018, 12:10
IRIP, это уже про обработку конкретных случаев. Тут пока с хранением не разобрались.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.10.2018, 12:10
Помогаю со студенческими работами здесь

Работа с большим объемом данных
Имеется загруженное изоображение с помощью opencv. Задача: вывести цвета изображения с из колличеством. Цвет задаю структурой, хранящей...

Работа с большим объёмом данных
Приветствую всех! На днях столкнулся с такой проблемой: необходимо отправить на сервер файл большого размера (для теста взял 37 МБ) из...

работа с большим объемом данных
большим я называю от 300000Rx50C судя по информации из диспетчера задач происходит накопление памяти что приводит к постепенному...

QtSerialPort Работа с большим объемом данных
Добрый день. Я пишу приложение, которое работает с последовательным портом при помощи QtSerialPort. Программа получает из порта...

Как организована работа с большим объемом данных
Программа выдаёт stack overflow при запуске, рекурсию не использую. Кто-нибудь сталкивался с большими объёмами данных? Массив 200000...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru