Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
6 / 6 / 1
Регистрация: 26.09.2017
Сообщений: 68

np.array большое потребление памяти

04.04.2023, 11:59. Показов 2708. Ответов 25

Студворк — интернет-сервис помощи студентам
кусок данных беру из бд напрямую в panda.dataframe делаю пред обработку и маленькими частями запихиваю в list
Python
1
2
3
sql = pd.read_sql(f'SELECT...', con=engine)
a = []
a.append(sql[i:i+window])
Получается матрица 4974910, 256, 91 в этот момент процесс python потребляет в районе 5 гб памяти
Для tensorflow нужно чтобы данные были в numpy Я и запихиваю всё это в
Python
1
np.array(a, dtype=np.float32)
он просто скажет что у вас не хватает памяти
10% выжирает около 40 гигов

все данные входят в диапазон от 0 до 1

Есть ли способ уменьшить массив? float16 ситуацию не меняет.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
04.04.2023, 11:59
Ответы с готовыми решениями:

Как уменьшить потребление памяти?
b = u = z = for i in u: if u.count(i) < 2: del b for i in b: h = for j in b: if sorted(i)...

Увеличиваем скорость Python и уменьшаем потребление памяти
Если не учитывать, разные советы по увеличению скорости, например замена for на while, то предлагаю знающих людей высказаться, какая из...

Большое потребление памяти приложением
Здравствуйте! Как всегда нужна ваша помощь... Почему происходит ошибка компиляции при увеличении числа N в строке "#define...

25
6 / 6 / 1
Регистрация: 26.09.2017
Сообщений: 68
05.04.2023, 11:21  [ТС]
Студворк — интернет-сервис помощи студентам
Цитата Сообщение от Fudthhh Посмотреть сообщение
Snowman8526, покажи код инициализации X_train
Python
1
2
3
4
5
6
X_train = []
 
X_train.append(scaled[i-window:i])
y_train.append((0, 0, 0, 0, 0, 1))
 
print(type(X_train), type(X_train[0]), type(X_train[0][0]), type(X_train[0][0][0]))
Добавлено через 59 секунд
scaled - уже подготовленный pandas.datafreme

Добавлено через 3 минуты
Python
1
X_train2 = np.array(X_train[:int((len(X_train) / 100) * 5)], dtype=np.float32)
выжерает больше 40 гигов памяти
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
05.04.2023, 11:25
Snowman8526, в tensorflow обычно обработка ведется не со всем датасетом, а небольшими порциями: батчами. Поэтому загружать все сразу в память не имеет смысла, как правило.
0
6 / 6 / 1
Регистрация: 26.09.2017
Сообщений: 68
05.04.2023, 13:00  [ТС]
Цитата Сообщение от u235 Посмотреть сообщение
Snowman8526, в tensorflow обычно обработка ведется не со всем датасетом, а небольшими порциями: батчами. Поэтому загружать все сразу в память не имеет смысла, как правило.
Сейчас Я генетическим алгоритмом ищу удачную сеть и даже 5-10% мне достаточно.

Я читал про генераторы и писал их когда обучал картинки но Я чисто физически не могу сохранить подготовленный датасет. сохранять частями по 5% и загружать 40 гигов в память и обратно во время обучения это капец как долго даже для обучения одной модели.

Если весь датасет каким то образом поместится в 40 гигов Я буду рад)). нет найду другой способ.

Добавлено через 1 час 19 минут
Python
1
X_train2 = pd.DataFrame(X_train)
Python
1
X_train2 = np.array(X_train)
Bash
1
MemoryError: Unable to allocate 863. GiB for an array with shape (4974917, 256, 91) and data type float64
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
05.04.2023, 13:18
Snowman8526, если тебе не нужен весь файл разом, то почему нельзя просто читать его кусками?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy
import pandas
 
 
array = numpy.ndarray((1000, 500), numpy.float16)
dataframe = pandas.DataFrame(array, columns=range(1, 501))
dataframe.to_csv("example.csv", columns=range(1, 501), index=False)
 
 
with pandas.read_csv("example.csv", dtype=numpy.float16, chunksize=500) as dataframes:
    for dataframe in dataframes:
        array = dataframe.to_numpy()
        ...
0
6 / 6 / 1
Регистрация: 26.09.2017
Сообщений: 68
05.04.2023, 13:31  [ТС]
Fudthhh, csv долгий сохранение его то ещё веселье (время сохранения)

Python
1
np.savez_compressed("file", X_train2, y_train2)
Python
1
2
3
4
file = np.load(f'file.npz')
 
X_train2 = file['arr_0']
y_train2 = file['arr_1']
сохраняется в двоичном виде + сжимается. Работает в разы быстрее.

Знаете чувство когда под лопаткой чешется? мне интересно как Я смог сохранить такой объём данных.

Может pandas перезаписывает память и все данные меняются внутри X_train?

Я вполне мог это упустить
0
6 / 6 / 1
Регистрация: 26.09.2017
Сообщений: 68
17.04.2023, 14:33  [ТС]
Разобрался.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import zarr
if not 'za_X_train' in globals():
    X_train2 = np.array(X_train, dtype=np.float32)
    y_train2 = np.array(y_train, dtype=np.int8)
    X_train2 = np.reshape(X_train2, (X_train2.shape[0], X_train2.shape[1], X_train2.shape[2]))
                                
    za_X_train = zarr.array(X_train2, chunks=(100, 256, 91), store='Xfile.zarr')
    za_y_train = zarr.array(y_train2, chunks=(100, 6), store='Yfile.zarr')
                                
    X_train = []
    y_train = []
                            
elif X_train != []:
    X_train2 = np.array(X_train, dtype=np.float32)
    y_train2 = np.array(y_train, dtype=np.int8)
    X_train2 = np.reshape(X_train2, (X_train2.shape[0], X_train2.shape[1], X_train2.shape[2]))
                                
    za_X_train.append(X_train2)
    za_y_train.append(y_train2)
                                
    X_train = []
    y_train = []
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
za_X_train.info
 
Type    zarr.core.Array
Data type   float32
Shape   (4991349, 256, 91)
Chunk shape (100, 256, 91)
Order   C
Read-only   False
Compressor  Blosc(cname='lz4', clevel=5, shuffle=SHUFFLE, blocksize=0)
Store type  zarr.storage.DirectoryStore
No. bytes   465113865216 (433.2G)
No. bytes stored    114050705890 (106.2G)
Storage ratio   4.1
Chunks initialized  49750/49914
Если кто будет обучать для tensorflow вот генератор
https://mahmoudyusof.github.io... generator/
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
from tensorflow.keras.utils import Sequence
 
class DataGenerator(Sequence):
 
  def __init__(self, X_zarr_file, y_zarr_file, output_size, shuffle=False, batch_size=10, ):
    """
    Initializes a data generator object
      :param csv_file: file in which image names and numeric labels are stored
      :param base_dir: the directory in which all images are stored
      :param output_size: image output size after preprocessing
      :param shuffle: shuffle the data after each epoch
      :param batch_size: The size of each batch returned by __getitem__
    """
    self.X_df = zarr.open(X_zarr_file, mode='r')
    self.y_df = zarr.open(y_zarr_file, mode='r')
    self.output_size = output_size
    self.shuffle = shuffle
    self.batch_size = batch_size
    self.on_epoch_end()
    
 
  def on_epoch_end(self):
    self.indices = np.arange(len(self.X_df))
    if self.shuffle:
      np.random.shuffle(self.indices)
 
  def __len__(self):
    return int(len(self.X_df) / self.batch_size)
 
  def __getitem__(self, idx):
    ## Initializing Batch
    #  that one in the shape is just for a one channel images
    # if you want to use colored images you might want to set that to 3
    X = np.empty((self.batch_size, *self.output_size, 1))
    # (x, y, h, w)
    y = np.empty((self.batch_size, 6, 1))
 
    # get the indices of the requested batch
    X = np.array(self.X_df[idx*self.batch_size:(idx+1)*self.batch_size])
    y = np.array(self.y_df[idx*self.batch_size:(idx+1)*self.batch_size])
 
    
 
    return X, y
Тему можно закрывать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
17.04.2023, 14:33
Помогаю со студенческими работами здесь

Большое потребление памяти PostgreSQL
Дано: 1. pg 12.3; 2. настройки дефолтные, за приключением max_connections=500; 3. реальное количество подключений к БД 100-150; ...

Большое потребление памяти с использованием assimp opengl
Использую библиотеку assimp и заметил большое потребление памяти при загрузке небольших моделей с двумя текструрами программа потребляет 60...

Большое потребление памяти при вызове метода
Наблюдаю очень странное поведение Visual Studio 2008. В моём проекте на C# есть один метод, который содержит большое число кода (циклы,...

nginx+php-fpm debian - большое потребление памяти
Больше потребление cached памяти на сервере. (Графиг приложен). mysql, memcached вынесены на отдельный сервер. На этом сервере стоит...

Слишком большое потребление оперативной памяти в простом приложении
Привет. Это простое приложение чтобы делать скриншоты. Скажите почему оно занимает слишком много оперативной памяти? Точнее потребление...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
26
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru