np.array большое потребление памяти

@Snowman8526 · Регистрация: 26.09.2017

Студворк — интернет-сервис помощи студентам

кусок данных беру из бд напрямую в panda.dataframe делаю пред обработку и маленькими частями запихиваю в list

Python
1
2
3
sql = pd.read_sql(f'SELECT...', con=engine)
a = []
a.append(sql[i:i+window])

Получается матрица 4974910, 256, 91 в этот момент процесс python потребляет в районе 5 гб памяти
Для tensorflow нужно чтобы данные были в numpy Я и запихиваю всё это в

Python
1
np.array(a, dtype=np.float32)

он просто скажет что у вас не хватает памяти
10% выжирает около 40 гигов

все данные входят в диапазон от 0 до 1

Есть ли способ уменьшить массив? float16 ситуацию не меняет.

@Fudthhh · 04.04.2023, 12:20

Сообщение от Snowman8526

sql = pd.read_sql(f'SELECT...', con=engine)

Загрузили датафрейм, допустим заняли 5гб.

Сообщение от Snowman8526

a = []
a.append(sql[i:i+window])

Разбили этот датафрейм, на части, и запихнули в массив, заняли еще 5 гб.

Сообщение от Snowman8526

np.array(a, dtype=np.float32)

Создали еще один массив, заняли еще 5гб.

Ты понимаешь что вообще делаешь в программе? На этапе подготовки, ты уже занял 15гб места в пустую.

Добавлено через 3 минуты
Тут либо данные подтягивать ленивым способом, либо не создавать кучу не нужных переменных и держать кулачки чтоб тебе хватило места.

@Snowman8526 · 04.04.2023, 13:09 **[ТС]**

Fudthhh, Не совсем так pandas Я использую только для предобработки данных. В цикле он обновляется больше 2000 раз и можно просто пренебречь. np после записи массива занимает больше 40 гигов. это без учёта предыдущих данных. Я просто не понимаю почему np.array занимает в 3.5 раза больше памяти. если бы в 2-а раза вопросов бы не возникло.

Добавлено через 4 минуты
Fudthhh, Вполне возможно что надо сохранять не в list а в pandas.datafreme и после этого преобразовывать. Может np создаёт индексы вдоль и поперёк и можно их как то отключить Я не нашёл не чего в интернете.

@Fudthhh · 04.04.2023, 13:35

Сообщение от Snowman8526

Не совсем так pandas Я использую только для предобработки данных. В цикле он обновляется больше 2000 раз и можно просто пренебречь.

В приведенном коде, он не обновляется, а жестко висит в памяти пока программа работает.

Сообщение от Snowman8526

np после записи массива занимает больше 40 гигов

Ты написал, что получаешь трех мерный массив, размером: 4974910, 256, 91. И возьмем float16 - 2 байта.
А теперь посчитай: 4974910 * 256 * 91 * 2 = ?

@passant · 04.04.2023, 13:36

Вообще-то копирование DataFrame в массив numpy лучше делать вот так:

Python
1
df_n2=df.to_numpy()

или вот так:

Python
1
df_n3=df.to_numpy(copy=True)

в зависимости от того, будете-ли вы создавать поверхностную копию или глубокую.

Даже в последнем случае оказывается, что роста объема практически нет. Легкий эксперимент:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import numpy as np
import pandas as pd
import sys
lt=np.random.normal(size=1000)
df = pd.DataFrame({"A": lt, 
                   "B": lt,
                   "С": lt,})
print('df   :  ',sys.getsizeof(df))
 
df_n2=df.to_numpy()
print('df_n2: ',sys.getsizeof(df_n2))
 
df_n3=df.to_numpy(copy=True)
print('df_n2: ',sys.getsizeof(df_n3))

Результат:

Python
1
2
3
df   :   24144
df_n2:  120
df_n2:  120

@Snowman8526 · 04.04.2023, 13:55 **[ТС]**

passant, Значит надо заполнять в pandas? Я почему-то изначально решил заполнять в list Сегодня протестировать не успею ну если что отпишусь завтра.

@passant · 04.04.2023, 14:33

Что значит "надо заполнять в pandas?". Я не говорил ни про "надо", ни про pandas. Я просто показал, как надо обращаться с памятью. Ну, как минимум - из pandas перегонять прямо в numpy, а не через список. А все остальное - использование сначала Pandas, потом numpy - это ваше личное решение.

@Snowman8526 · 04.04.2023, 14:40 **[ТС]**

passant,

Сообщение от passant

Вообще-то копирование DataFrame в массив numpy лучше делать вот так:

Этой фразой вы говорите что надо заполнять в pandas потому что только у него есть dataframe
Я без каких то претензий говорил. Извините если чем то обидел.

@passant · 04.04.2023, 15:00

Этой фразой я говорю, что если у вас есть DataFrame (почему он у вас есть - я не знаю, это вы так решили) и него скопировать в numpy (опять таки, это вы так решили), то делать это лучше не через первую перегонку в список - с потерей памяти, вторую перегонку в массив - с еще одной потерей памяти, а напрямую, при которой память дополнительно вообще практически не расходуется.

@Snowman8526 · 04.04.2023, 15:24 **[ТС]**

passant, dataframe мне нужен для быстрой предобработки всего фрейма есть лямбда которая скейлит одну строку датафрейма. Питоровскими методами это занимает секунд 20 а в датафрейме секунду на все строки. np с многомерными массивами работает быстрее + reshape. Я почитаю как дозаписывать np.array но на сколько Я помню он выделяет память на оба массива копирует всё это добро и удаляет старый массив.

@passant · 04.04.2023, 16:00

Сообщение от Snowman8526

Я почитаю как дозаписывать np.array но на сколько Я помню он выделяет память на оба массива копирует всё это добро и удаляет старый массив.

Конечно. Массив - что в Python, что в С++, что где угодно - это не та структура, которая "любит" добавление и удаление элементов. Это сделано ради скорости обработки массивов. И выбор между списком и массивом - всегда компромисс между скоростью обработки и расходом памяти. Это не открытие и изучается студентами где-то на втором курсе примерно. И говорит только о том, что ваш скрипт должен в своем алгоритме учитывать эту особенность.

@Fudthhh · 04.04.2023, 16:11

Не по теме:

passant, проблема xy.

@Snowman8526 · 04.04.2023, 16:28 **[ТС]**

passant, Да Я это понимаю что tuple не любит добавлений из за чего он быстрее и меньше весит чем list. Вернёмся к началу разговора Я понимаю что python list имеет большой объём из за того что туда можно записать str int float и всё это в одном списке. Как получается что создание стандартизированного float32 занимает больше места в памяти чем list питора? Может быть из за того что создаётся из листа он больше памяти занимает? Я не знаю и не где такой информации не нашёл.

@passant · 04.04.2023, 18:03

Сообщение от Fudthhh

Не по теме:

passant, проблема xy.

Ага. Очень похоже :-)

Добавлено через 32 минуты

Сообщение от Snowman8526

Да Я это понимаю что tuple не любит добавлений из за чего он быстрее и меньше весит чем list.

Вы о чем вообще??? Где и кто выше писал о tuple ??? Хоть слово???
И по ходу. tuple - не "не любит" дополнения. Он их просто на дух не переносит, т.е. прямо и безоговорочно ЗАПРЕЩАЕТ!

Сообщение от Snowman8526

Как получается что создание стандартизированного float32 занимает больше места в памяти чем list питора?

Еще раз. Вы о чем???

Python
1
2
3
4
5
6
7
lt2 = []
for i in range(100000):
   lt2.append(random.random())
print('lt2 :  ',sys.getsizeof(lt2))
 
np2=np.array(lt2)
print('np2   :  ',sys.getsizeof(np2))

Результат:

Python
1
2
lt2     :   800984
np2   :   800104

Что больше, а что меньше определить сумеете?

Что такое "стандартизированное float32" для меня вообще осталось загадкой.

@Fudthhh · 04.04.2023, 18:22

Не по теме:

passant, мне кажется он не понимает что коллекция из 4974910 * 256 * 91 элементов, будет весить в любом случае очень много, если загонять ее прямиком в память. Скорее всего это обучающий датасет, и он не понимает как реализовать ленивое чтение чтобы тренировать свою модель.

@Snowman8526 · 04.04.2023, 18:28 **[ТС]**

passant,

Сообщение от passant

Что больше, а что меньше определить сумеете?

https://stackoverflow.com/ques... mpy-arrays

Сообщение от passant

Что такое "стандартизированное float32" для меня вообще осталось загадкой.

Это обозначает что каждый элемент массива будет иметь стандартное выделение памяти для float32 это 4кб.
Вы ведёте себя как ребёнок. Если не можете ответить можете перестать писать чушь?

Добавлено через 5 минут
Fudthhh, Я всё понимаю и данные для моего датасета избыточны. Я не понимаю как они помещаются в list python и не помещаются в np для меня это загадка. И Я пришёл узнать мнение умных людей.

@Fudthhh · 04.04.2023, 18:56

Snowman8526, сгенирируй мне массив такого размера 4974910 * 256 * 91 не используя numpy

Добавлено через 37 секунд

Сообщение от Snowman8526

Это обозначает что каждый элемент массива будет иметь стандартное выделение памяти для float32 это 4кб.

Если-бы 4кб....

Добавлено через 2 минуты

Сообщение от Snowman8526

Вы ведёте себя как ребёнок.

Ты пишешь как ребенок, ты не можешь сформулировать задачу, вопросы и не можешь аргументировать свои заявления кодом.

Добавлено через 11 минут

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import numpy
import tracemalloc
 
 
tracemalloc.start()
print(tracemalloc.get_traced_memory())
 
a = [[[.0 for _ in range(20)] for _ in range(20)] for _ in range(20)]
 
print(tracemalloc.get_traced_memory())
tracemalloc.stop()
 
 
tracemalloc.start()
print(tracemalloc.get_traced_memory())
 
b = numpy.zeros((20, 20, 20), numpy.float16)
 
print(tracemalloc.get_traced_memory())
tracemalloc.stop()

python 3.10 x64

Code
1
2
3
4
(0, 0)
(100152, 100680)
(0, 0)
(16168, 16168)

Добавлено через 5 минут
Если тебе не ясно, то вот держи, читай и просвещайся: https://svn.python.org/project... iew=markup

@Snowman8526 · 04.04.2023, 23:16 **[ТС]**

Да немного ошибся не 5 а 13.6 гигов не 4974910 а 4974917

@passant · 05.04.2023, 10:37

Чего?????

Сообщение от Snowman8526

Это обозначает что каждый элемент массива будет иметь стандартное выделение памяти для float32 это 4кб.
Вы ведёте себя как ребёнок. Если не можете ответить можете перестать писать чушь?

И после этого вы будете мне говорить, что я пишу чушь? Вы хоть понимаете, что такое 4КB ????
Про tuple, который у вас откуда-то по дороге возник я вообще молчу.

Сообщение от Snowman8526

Fudthhh, Я всё понимаю и данные для моего датасета избыточны. Я не понимаю как они помещаются в list python и не помещаются в np для меня это загадка. И Я пришёл узнать мнение умных людей.

Я вам показал, что список всегда (!!!!!) занимает больше памяти, чем numpy-массив. Даже если он состоит - по вашей дивной терминологии - из "стандартизированное float32". И я и коллега Fudthhh привели примеры, которые воочию это показывают тем, кто не понимают, как и почему это происходит.

Не нравятся мои ответы и пояснения, не можете их "переварить" - продолжайте упражняться в изобретении терминов и решении проблемы XY самостоятельно. Мне стало не интересно при таком вашем подходе вести дальнейший диалог.

@Fudthhh · 05.04.2023, 11:07

Snowman8526, покажи код инициализации X_train

Новые блоги и статьи Все статьи Все блоги /
http://iceja.net/ математические сервисы iceja 20.01.2026 Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .	http://iceja.net/ сервер решения полиномов iceja 18.01.2026 Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .	Расчёт переходных процессов в цепи постоянного тока igorrr37 16.01.2026 / * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .	Восстановить юзерскрипты Greasemonkey из бэкапа браузера damix 15.01.2026 Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений. anaschu 11.01.2026 https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/	WordPad для Windows 11 Jel 10.01.2026 WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .	Classic Notepad for Windows 11 Jel 10.01.2026 Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .	Почему дизайн решает? Neotwalker 09.01.2026 В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .

@Snowman8526 6 / 6 / 1 Регистрация: 26.09.2017 Сообщений: 68
	04.04.2023, 13:09 [ТС]
	Fudthhh, Не совсем так pandas Я использую только для предобработки данных. В цикле он обновляется больше 2000 раз и можно просто пренебречь. np после записи массива занимает больше 40 гигов. это без учёта предыдущих данных. Я просто не понимаю почему np.array занимает в 3.5 раза больше памяти. если бы в 2-а раза вопросов бы не возникло. Добавлено через 4 минуты Fudthhh, Вполне возможно что надо сохранять не в list а в pandas.datafreme и после этого преобразовывать. Может np создаёт индексы вдоль и поперёк и можно их как то отключить Я не нашёл не чего в интернете. 0

@Snowman8526 6 / 6 / 1 Регистрация: 26.09.2017 Сообщений: 68
	04.04.2023, 13:55 [ТС]
	passant, Значит надо заполнять в pandas? Я почему-то изначально решил заполнять в list Сегодня протестировать не успею ну если что отпишусь завтра. 0

@passant 578 / 411 / 69 Регистрация: 09.01.2018 Сообщений: 1,363
	04.04.2023, 14:33
	Что значит "надо заполнять в pandas?". Я не говорил ни про "надо", ни про pandas. Я просто показал, как надо обращаться с памятью. Ну, как минимум - из pandas перегонять прямо в numpy, а не через список. А все остальное - использование сначала Pandas, потом numpy - это ваше личное решение. 0

@passant 578 / 411 / 69 Регистрация: 09.01.2018 Сообщений: 1,363
	04.04.2023, 15:00
	Этой фразой я говорю, что если у вас есть DataFrame (почему он у вас есть - я не знаю, это вы так решили) и него скопировать в numpy (опять таки, это вы так решили), то делать это лучше не через первую перегонку в список - с потерей памяти, вторую перегонку в массив - с еще одной потерей памяти, а напрямую, при которой память дополнительно вообще практически не расходуется. 0

@Snowman8526 6 / 6 / 1 Регистрация: 26.09.2017 Сообщений: 68
	04.04.2023, 15:24 [ТС]
	passant, dataframe мне нужен для быстрой предобработки всего фрейма есть лямбда которая скейлит одну строку датафрейма. Питоровскими методами это занимает секунд 20 а в датафрейме секунду на все строки. np с многомерными массивами работает быстрее + reshape. Я почитаю как дозаписывать np.array но на сколько Я помню он выделяет память на оба массива копирует всё это добро и удаляет старый массив. 0

@Fudthhh
	04.04.2023, 16:11
	Не по теме: passant, проблема xy. 0

@Snowman8526 6 / 6 / 1 Регистрация: 26.09.2017 Сообщений: 68
	04.04.2023, 16:28 [ТС]
	passant, Да Я это понимаю что tuple не любит добавлений из за чего он быстрее и меньше весит чем list. Вернёмся к началу разговора Я понимаю что python list имеет большой объём из за того что туда можно записать str int float и всё это в одном списке. Как получается что создание стандартизированного float32 занимает больше места в памяти чем list питора? Может быть из за того что создаётся из листа он больше памяти занимает? Я не знаю и не где такой информации не нашёл. 0

@Fudthhh
	04.04.2023, 18:22
	Не по теме: passant, мне кажется он не понимает что коллекция из 4974910 * 256 * 91 элементов, будет весить в любом случае очень много, если загонять ее прямиком в память. Скорее всего это обучающий датасет, и он не понимает как реализовать ленивое чтение чтобы тренировать свою модель. 0

@Snowman8526 6 / 6 / 1 Регистрация: 26.09.2017 Сообщений: 68
	04.04.2023, 23:16 [ТС]
	Да немного ошибся не 5 а 13.6 гигов не 4974910 а 4974917 0

@Fudthhh Модератор 2695 / 1601 / 513 Регистрация: 21.02.2017 Сообщений: 4,210 Записей в блоге: 1
	05.04.2023, 11:07
	Snowman8526, покажи код инициализации X_train 0