np.array большое потребление памяти

@Snowman8526 · Регистрация: 26.09.2017

Студворк — интернет-сервис помощи студентам

кусок данных беру из бд напрямую в panda.dataframe делаю пред обработку и маленькими частями запихиваю в list

Python
1
2
3
sql = pd.read_sql(f'SELECT...', con=engine)
a = []
a.append(sql[i:i+window])

Получается матрица 4974910, 256, 91 в этот момент процесс python потребляет в районе 5 гб памяти
Для tensorflow нужно чтобы данные были в numpy Я и запихиваю всё это в

Python
1
np.array(a, dtype=np.float32)

он просто скажет что у вас не хватает памяти
10% выжирает около 40 гигов

все данные входят в диапазон от 0 до 1

Есть ли способ уменьшить массив? float16 ситуацию не меняет.

@Snowman8526 · 05.04.2023, 11:21 **[ТС]**

Сообщение от Fudthhh

Snowman8526, покажи код инициализации X_train

Python
1
2
3
4
5
6
X_train = []
 
X_train.append(scaled[i-window:i])
y_train.append((0, 0, 0, 0, 0, 1))
 
print(type(X_train), type(X_train[0]), type(X_train[0][0]), type(X_train[0][0][0]))

Добавлено через 59 секунд
scaled - уже подготовленный pandas.datafreme

Добавлено через 3 минуты

Python
1
X_train2 = np.array(X_train[:int((len(X_train) / 100) * 5)], dtype=np.float32)

выжерает больше 40 гигов памяти

@u235 · 05.04.2023, 11:25

Snowman8526, в tensorflow обычно обработка ведется не со всем датасетом, а небольшими порциями: батчами. Поэтому загружать все сразу в память не имеет смысла, как правило.

@Snowman8526 · 05.04.2023, 13:00 **[ТС]**

Сообщение от u235

Snowman8526, в tensorflow обычно обработка ведется не со всем датасетом, а небольшими порциями: батчами. Поэтому загружать все сразу в память не имеет смысла, как правило.

Сейчас Я генетическим алгоритмом ищу удачную сеть и даже 5-10% мне достаточно.

Я читал про генераторы и писал их когда обучал картинки но Я чисто физически не могу сохранить подготовленный датасет. сохранять частями по 5% и загружать 40 гигов в память и обратно во время обучения это капец как долго даже для обучения одной модели.

Если весь датасет каким то образом поместится в 40 гигов Я буду рад)). нет найду другой способ.

Добавлено через 1 час 19 минут

Python
1
X_train2 = pd.DataFrame(X_train)

Python
1
X_train2 = np.array(X_train)

Bash
1
MemoryError: Unable to allocate 863. GiB for an array with shape (4974917, 256, 91) and data type float64

@Fudthhh · 05.04.2023, 13:18

Snowman8526, если тебе не нужен весь файл разом, то почему нельзя просто читать его кусками?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy
import pandas
 
 
array = numpy.ndarray((1000, 500), numpy.float16)
dataframe = pandas.DataFrame(array, columns=range(1, 501))
dataframe.to_csv("example.csv", columns=range(1, 501), index=False)
 
 
with pandas.read_csv("example.csv", dtype=numpy.float16, chunksize=500) as dataframes:
    for dataframe in dataframes:
        array = dataframe.to_numpy()
        ...

@Snowman8526 · 05.04.2023, 13:31 **[ТС]**

Fudthhh, csv долгий сохранение его то ещё веселье (время сохранения)

Python
1
np.savez_compressed("file", X_train2, y_train2)

Python
1
2
3
4
file = np.load(f'file.npz')
 
X_train2 = file['arr_0']
y_train2 = file['arr_1']

сохраняется в двоичном виде + сжимается. Работает в разы быстрее.

Знаете чувство когда под лопаткой чешется? мне интересно как Я смог сохранить такой объём данных.

Может pandas перезаписывает память и все данные меняются внутри X_train?

Я вполне мог это упустить

@Snowman8526 · 17.04.2023, 14:33 **[ТС]**

Разобрался.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import zarr
if not 'za_X_train' in globals():
    X_train2 = np.array(X_train, dtype=np.float32)
    y_train2 = np.array(y_train, dtype=np.int8)
    X_train2 = np.reshape(X_train2, (X_train2.shape[0], X_train2.shape[1], X_train2.shape[2]))
                                
    za_X_train = zarr.array(X_train2, chunks=(100, 256, 91), store='Xfile.zarr')
    za_y_train = zarr.array(y_train2, chunks=(100, 6), store='Yfile.zarr')
                                
    X_train = []
    y_train = []
                            
elif X_train != []:
    X_train2 = np.array(X_train, dtype=np.float32)
    y_train2 = np.array(y_train, dtype=np.int8)
    X_train2 = np.reshape(X_train2, (X_train2.shape[0], X_train2.shape[1], X_train2.shape[2]))
                                
    za_X_train.append(X_train2)
    za_y_train.append(y_train2)
                                
    X_train = []
    y_train = []

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
za_X_train.info
 
Type    zarr.core.Array
Data type   float32
Shape   (4991349, 256, 91)
Chunk shape (100, 256, 91)
Order   C
Read-only   False
Compressor  Blosc(cname='lz4', clevel=5, shuffle=SHUFFLE, blocksize=0)
Store type  zarr.storage.DirectoryStore
No. bytes   465113865216 (433.2G)
No. bytes stored    114050705890 (106.2G)
Storage ratio   4.1
Chunks initialized  49750/49914

Если кто будет обучать для tensorflow вот генератор
https://mahmoudyusof.github.io... generator/

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
from tensorflow.keras.utils import Sequence
 
class DataGenerator(Sequence):
 
  def __init__(self, X_zarr_file, y_zarr_file, output_size, shuffle=False, batch_size=10, ):
    """
    Initializes a data generator object
      :param csv_file: file in which image names and numeric labels are stored
      :param base_dir: the directory in which all images are stored
      :param output_size: image output size after preprocessing
      :param shuffle: shuffle the data after each epoch
      :param batch_size: The size of each batch returned by __getitem__
    """
    self.X_df = zarr.open(X_zarr_file, mode='r')
    self.y_df = zarr.open(y_zarr_file, mode='r')
    self.output_size = output_size
    self.shuffle = shuffle
    self.batch_size = batch_size
    self.on_epoch_end()
    
 
  def on_epoch_end(self):
    self.indices = np.arange(len(self.X_df))
    if self.shuffle:
      np.random.shuffle(self.indices)
 
  def __len__(self):
    return int(len(self.X_df) / self.batch_size)
 
  def __getitem__(self, idx):
    ## Initializing Batch
    #  that one in the shape is just for a one channel images
    # if you want to use colored images you might want to set that to 3
    X = np.empty((self.batch_size, *self.output_size, 1))
    # (x, y, h, w)
    y = np.empty((self.batch_size, 6, 1))
 
    # get the indices of the requested batch
    X = np.array(self.X_df[idx*self.batch_size:(idx+1)*self.batch_size])
    y = np.array(self.y_df[idx*self.batch_size:(idx+1)*self.batch_size])
 
    
 
    return X, y

Тему можно закрывать

Новые блоги и статьи Все статьи Все блоги /
PhpStorm 2025.3: WSL Terminal всегда стартует в ~ and_y87 14.12.2025 PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .	Access VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.	Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro	Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .	Мысли в слух kumehtar 18.11.2025 Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .	Создание Single Page Application на фреймах krapotkin 16.11.2025 Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .

@u235 5514 / 2867 / 571 Регистрация: 07.11.2019 Сообщений: 4,751
	05.04.2023, 11:25
	Snowman8526, в tensorflow обычно обработка ведется не со всем датасетом, а небольшими порциями: батчами. Поэтому загружать все сразу в память не имеет смысла, как правило. 0