Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42

Pandas: прочитать определенные колонки файла csv

16.02.2022, 11:18. Показов 3050. Ответов 16

Студворк — интернет-сервис помощи студентам
При помощи Python pandas read_csv нужно прочитать файл csv прочитать нужно определенные колонки цена, год, дата. Прочитать нужно сразу в определенном формате цена = вещественный формат, год = целочисленный формат, дата = datatime-формат. Как это правильно сделать используя параметры usecols, parse_dates и dtype.
Python
1
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['posting_date','price','year'])
Как правильно пользоваться этими параметрами негде не могу найти. Подскажите пожалуйста?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.02.2022, 11:18
Ответы с готовыми решениями:

Вам доступен csv файл data.csv, содержащий информацию в csv формате.Напишите функцию read_csv для чтения данных из файла
Вам доступен CSV-файл data.csv, содержащий информацию в csv формате. Напишите функцию read_csv для...

DeprecationWarning: Pyarrow will become a required dependency of pandas in the next major release of pandas
Возникла проблема при импортировании модуля Pandas. При запуске кода выдает следующее:...

Корректная обработка csv файла в pandas
Всем доброго времени суток…. Задача состоит в следующим : Используя библиотеку pandas...

16
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
16.02.2022, 12:25
https://pandas.pydata.org/docs... d_csv.html
https://russianblogs.com/article/3076810055/
Параметр dtype
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
16.02.2022, 12:36  [ТС]
dtype : Type name or dict of column -> type, default None

Тип данных каждого столбца данных. Например: {‘a’: np.float64, ‘b’: np.int32}.

что такое np?
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
16.02.2022, 12:37
AlexsSStep, np -> numpy
...
Python
1
2
3
4
import pandas as pd
from datetime import datetime
 
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['posting_date','price','year'], dtype = [float, int, datetime])
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
16.02.2022, 14:23  [ТС]
TypeError: Field elements must be 2- or 3-tuples, got '<class 'float'>'

Добавлено через 1 час 32 минуты
Python
1
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['price', 'year', 'posting_date'], dtype={['price': object], ['year' : int],['posting_date':datetime]})
Что не правильно здесь написано?
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
16.02.2022, 17:28
AlexsSStep, выложи хотя бы часть файла...
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 08:03  [ТС]
Вот первые 47 строк в файле
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 08:05  [ТС]
вот
Вложения
Тип файла: zip veh_car.zip (40.0 Кб, 3 просмотров)
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
17.02.2022, 12:11
AlexsSStep, как вариант:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import pandas as pd
import numpy as np
 
def convert_int(x):
    return int(x.split('.')[0])
    # или
    # return int(float(x))
 
path_new = 'veh_car.csv'
 
df_new = pd.read_csv(path_new, sep=';',
                     usecols= ['price', 'year', 'posting_date'],
                     parse_dates=['posting_date'],
                     converters={'price' : float,
                            'year' : convert_int})
 
print(df_new)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 13:02  [ТС]
Цитата Сообщение от Gdez Посмотреть сообщение
def convert_int(x):
    return int(x.split('.')[0])
это отбрасывает ноль в дате я так понимаю но нету
Python
1
dtype=
а мне надо прочитать дату после чего вывести месяц
В самом начале вопрос был как считать из файла 3 столбца сразу в определенном формате цена = вещественный формат, год = целочисленный формат, дата = datatime-формат

df_new.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10050 entries, 0 to 10049
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 price 10050 non-null float64
1 year 10014 non-null float64
2 posting_date 10048 non-null object
dtypes: float64(2), object(1)
memory usage: 235.7+ KB

Для первой записи в датафрейме извлеките из posting_date и выведите номер месяца
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
17.02.2022, 13:52
AlexsSStep,
это отбрасывает ноль в дате
Нет
Это переводит строку в целочисленный формат. Применяется к столбцу "year", где нет даты

Добавлено через 1 минуту
Python
1
parse_dates=['posting_date']
Переводит в формат даты при считывании из csv (datetime64)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 14:00  [ТС]
в моем случае не переводит как видно из ИНФО
2 posting_date 10048 non-null object
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
17.02.2022, 15:01
AlexsSStep, Значит в исходном файле (в отличие от представленного) есть пустые значения
Для первой записи в датафрейме извлеките из posting_date и выведите номер месяца
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import pandas as pd
import numpy as np
 
def convert_int(x):
    if len(x) == 0:
        return 0
    return int(x.split('.')[0])
 
def convert_float(x):
    if len(x) == 0:
        return np.nan
    return float(x)
 
 
 
path_new = 'veh_car.csv'
 
df_new = pd.read_csv(path_new, sep=';',
                     usecols= ['price', 'year', 'posting_date'],
                     parse_dates=['posting_date'],
                     converters={'price' :convert_float,
                            'year' : convert_int})
 
df_new['month'] = df_new.posting_date.dt.month
print(df_new)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
18.02.2022, 05:46  [ТС]
Ты меня не слышишь parse_dates=['posting_date'], этого не достаточно чтобы перевести в формат datetime при этом у меня posting_date 10048 non-null object формат строка а не дата вот так звучит задание:

Датафрейм должен содержать:

колонки price, year, posting_date;
posting_date в datatime-формате;
price в вещественном формате;
year в целочисленном формате.
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
18.02.2022, 06:54
AlexsSStep,
Ты меня не слышишь
Это потому, что ты неправильно выложил исходные данные - с ними (даже, "обнулив" несколько значений) всё корректно работает на тобой представленных данных. А что там со всей таблицей, неизвестно - у меня её нет...

Не по теме:

Для перепроверки хотя бы загрузил 47-строчную версию; прогнал код, и посмотрел бы результаты и форматы данных колонок

0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
18.02.2022, 10:42  [ТС]
вот полный список
Вложения
Тип файла: zip vehicles_dataset.zip (9.34 Мб, 3 просмотров)
0
Эксперт Python
8849 / 4501 / 1864
Регистрация: 27.03.2020
Сообщений: 7,317
18.02.2022, 15:13
Лучший ответ Сообщение было отмечено AlexsSStep как решение

Решение

AlexsSStep,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import pandas as pd
import numpy as np
 
def convert_int(x):
    if len(x) == 0:
        return 0
    return int(x.split('.')[0])
 
def convert_float(x):
    if len(x) == 0:
        return np.nan
    return float(x)
 
 
 
path_new = 'vehicles_dataset.txt'
 
df_new = pd.read_csv(path_new, sep=',',
                     usecols= ['price', 'year', 'posting_date'],
                     converters={'price' :convert_float,
                            'year' : convert_int})
df_new.posting_date = pd.to_datetime(df_new.posting_date, utc=True, errors='coerce')
df_new['month'] = df_new.posting_date.dt.month.map(lambda x: int(x) if x==x else 0)
print(df_new)
 
 
# строки исходных данных, приводящих ранее к ошибке
# (пустые ячейки в столбце posting_date)
print(df_new[df_new.month!=df_new.month])
print()
# (пустые ячейки в столбце year)
print(df_new[df_new.year==0])
print()
# (пустые ячейки в столбце price)
print(df_new[df_new.price!=df_new.price])
Чтобы удалить строки с NaT в posting_date:
Python
1
df_new = df_new[df_new.posting_date==df_new.posting_date]
Либо узнать, что с ними (пустыми ячейками) делать
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.02.2022, 15:13
Помогаю со студенческими работами здесь

Pandas, получение данных из файла csv
Приветствую всех программистов! Помогите решить данную задачу. Она простая, как 2+2, но я только...

Не работает вывод csv файл через pandas
В папке data основной паки PyCharmProject лежит файл mnist_train.csv При попытке запустить код ...

Выбор данных из csv в pandas
Всем доброго дня/вечера/ночи. Задача состоит в следующем - 1. С помощью Pandas сгенерировать...

Определить типы данных CSV при загрузке в Pandas
Добрый день! Подскажите как правильно определить типы данных при загрузке из файла в формате CSV...

Pandas и работа с csv файлом
Есть файл films.csv На всякий приложу в его в архиве Задача: Посчитать какого жанра среди...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
17
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru