Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
0 / 0 / 0
Регистрация: 30.01.2024
Сообщений: 3

Загрузка огромных объемов данных(20гб+) в pandas

30.01.2024, 14:22. Показов 1875. Ответов 8

Студворк — интернет-сервис помощи студентам
Добрый день, работаю в сфере по анализу больших данных. Компания использует устаревший ПО для анализа (Audit Command Language для тех кто шарит). Появилась идея реализовать систему анализа данных на другом более новым и гибком ПО. Рассматриваю переход на связку Python + pandas и смежные библиотеки.

Теперь основная тема. Надо реализовать загрузку и запись больших объемов данных и манипуляцию с ними. Основные проблемы:
1)Ограничение по оперативной памяти 2гб (виртуальная машина на сервере компании)
2)Большие объемы данных (от 20 тыс. строк до 100 млн. строк и объемы могут достигать 30Гб одной таблицей)

От вас хочу услышать как у вас это реализовано, какие у вас алгоритмы для записи и обработки данных, может какие нибудь идеи как это можно самому реализовать, какие форматы данных используете, как производите сортировку и т.д.
Буду благодарен если поделитесь вашими мыслями пуска даже не конкретными, а хотя бы набросками алгоритмов.

Любым обсуждения буду рад.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
30.01.2024, 14:22
Ответы с готовыми решениями:

Загрузка в Pandas
Здравствуйте, уважаемые знатоки. Подскажите,пожалуйста, как мне загрузить данные из excel в Pandas для дальнейшей обработки. Очень...

Нужен тип данных для огромных чисел
Я уже несколько раз сталкивался с проблемой больших чисел. Нужно реально огромные значения. unsigned long long не справляется, double...

Сериализация больших объемов данных
Добрый день. Нужно сериализовать большие объемы данных в файл. Данные в массивах. Какой тип для этого лучше использовать чтобы на диске...

8
Эксперт .NET
 Аватар для Usaga
14087 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,945
01.02.2024, 09:44
Цитата Сообщение от Somebody_1 Посмотреть сообщение
Ограничение по оперативной памяти 2гб
Цитата Сообщение от Somebody_1 Посмотреть сообщение
объемы могут достигать 30Гб
Это разновидность онанизма, а не "анализ". Чтобы всё было эффективно (или хотя бы смотрелось со стороны), объёмы оперативной памяти должны быть соизмеримы с объёмами обрабатываемых данных. А лучше превосходить их. С двумя гигами оперативки будут лютейшие тормоза. И никакие алгоритмы и панды тут не спасут.

2024й год на дворе, машины с 32Гб оперативки стоят адекватных денег, особенно для компаний...
1
282 / 485 / 12
Регистрация: 21.06.2019
Сообщений: 3,018
03.02.2024, 19:26
Цитата Сообщение от Somebody_1 Посмотреть сообщение
работаю в сфере по анализу больших данных.
Цитата Сообщение от Somebody_1 Посмотреть сообщение
Ограничение по оперативной памяти 2гб
Боюсь, вы и ваша компания не вполне понимаете термин "большие данные" Мягко говоря
Цитата Сообщение от Somebody_1 Посмотреть сообщение
От вас хочу услышать как у вас это реализовано
Несколько серваков с 1ТБ оперативы каждый
Цитата Сообщение от Somebody_1 Посмотреть сообщение
какие у вас алгоритмы для записи и обработки данных, может какие нибудь идеи как это можно самому реализовать, какие форматы данных используете, как производите сортировку и т.д.
Как вам уже сказали, с указанными ограничениями это очень сомнительная идея. Какие алгоритмы и форматы не используй, а все выйдет медленно и трудно поддерживаемо. Просто купите нормальный комп.
1
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5972 / 3734 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
10.02.2024, 08:14
Цитата Сообщение от Usaga Посмотреть сообщение
2024й год на дворе, машины с 32Гб оперативки стоят адекватных денег, особенно для компаний...
Серверное ОЗУ всё ещё дорогое. Если это разовая задача, то можно посчитать на локальной машине (на той как раз докупить память до 32 ГБ). Либо выпрашивать виртуалку побольше.
0
352 / 315 / 83
Регистрация: 17.04.2022
Сообщений: 1,031
Записей в блоге: 8
10.02.2024, 09:35
Цитата Сообщение от Somebody_1 Посмотреть сообщение
Появилась идея реализовать систему анализа данных на другом более новым и гибком ПО.
Посмотрите в сторону duckdb. Теоретически он заточен на обработку данных, находящихся на дисках и "прикручен" к python.

А вообще говоря, все ответившие выше, абсолютно правы - 2гб памяти - это катастрофически мало для задач анализа данных
0
Эксперт .NET
 Аватар для Usaga
14087 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,945
10.02.2024, 11:22
Цитата Сообщение от Рыжий Лис Посмотреть сообщение
Серверное ОЗУ всё ещё дорогое.
Может быть. Но этот тезис как-то не согласуется со словами ТСа о десятках гигабайт данных, которые они там у себя якобы обрабатывают. Я не верю, что контора такая не может себе позволить виртуалку мощнее, чем Orange Pi Zero...
0
0 / 0 / 0
Регистрация: 30.01.2024
Сообщений: 3
12.02.2024, 17:19  [ТС]
Цитата Сообщение от Usaga Посмотреть сообщение
Может быть. Но этот тезис как-то не согласуется со словами ТСа о десятках гигабайт данных, которые они там у себя якобы обрабатывают. Я не верю, что контора такая не может себе позволить виртуалку мощнее, чем Orange Pi Zero...
Прикладываю фото открытого task manager на виртуалке. Насчет денег,
Цитата Сообщение от Usaga Посмотреть сообщение
Я не верю, что контора такая не может себе позволить виртуалку мощнее, чем Orange Pi Zero...
ну придется поверить, я больше скажу, я не могу делать проекты параллельно, а начальство хочет. Начальству буква "Ю" на проблемы нашего отдела, не ною, показываю, что да решение с покупкой оперативы классное, но нет. Я не так давно пришел туда, а люди которые там 5+ лет, думаете они не пробовали попросить добавить гигов? Я вам больше скажу у нас вместо SSD стоят HDD.
Миниатюры
Загрузка огромных объемов данных(20гб+) в pandas  
0
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5972 / 3734 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
12.02.2024, 17:30
Выскажу непопулярную идею: обрабатывать данные на самой СУБД. PL/SQL, PL/pgSQL или подобное. Уж на СУБД жмотиться не должны.
0
0 / 0 / 0
Регистрация: 30.01.2024
Сообщений: 3
12.02.2024, 17:53  [ТС]
Тут предлагали использовать DuckDb в связке с питоном, а там и Dask можно подтянуть. Опробовал DuckDb пока выглядит многообещающи.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
12.02.2024, 17:53
Помогаю со студенческими работами здесь

Добавление в бд больших объемов данных
В бд есть 1 таблица, 31 столбец. С помощь php в запросе добавляются данные. Данные берутся не откуда то, а именно в коде рукой пишется, что...

Шифрование больших объемов данных
Здравствуйте. Имеются данные (файлы различных форматов) суммарным весом около 20 гигабайт. Задача зашифровать их максимально быстро, и...

Хранение больших объемов данных
Всем доброго времени суток и всех с Праздником Победы!)) Сразу к делу) Есть программа (точнее сайт на ASP.NET), есть таблица с данными...

Добавление больших объемов данных
Доброго времени суток. Разрабатываю веб-приложение, в качестве бд использую MS SQL для доступа к данным Entity. Мне нужно загрузить 93к...

Обработка больших объёмов данных
Есть выделенная виртуальная память ReadCount=6 000 000 000 Buffer = (U16 *)VirtualAlloc(NULL, ReadCount*4, MEM_COMMIT,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru