Pandas и работа с csv файлом

@Veanes · Регистрация: 26.11.2019

Студворк — интернет-сервис помощи студентам

Есть файл films.csv
На всякий приложу в его в архиве films.rar

Задача:
Посчитать какого жанра среди прибыльных фильмов больше всего (Прибыль это revenue минус budget)

Я нашел прибыльные фильмы, а вот найти самый прибыльный жанр у меня не получается, т.к. там в одной только колонке genre может идти вот так: Adventure|Fantasy|Action|Western|Thrille r и у меня не получается разбить их по разным жанрам
Ниже в комментариях над функцией расписал, что я пытаюсь сделать

Помогите решить задачку

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import numpy as np 
import pandas as pd 
 
#Функция подсчета по условию задачи
'''
P.s. В столбце genres такой формат, что в одной ячейке несколько жанров, например: Adventure|Fantasy|Action|Western|Thriller, в следующей строке может быть уже меньше жанров, пример: Crime|Thriller
В теории должна разбивать столбец genres на разные жанры, добавлять в массив только новые жанры, а уже потом считать, какой жанр принес наибольшее кол-во прибыли
 
def income(data):
    arr = []
    for i in range(data['profit'].count()):
        a = data.profit[i]
        s = a.find('|')
        b= a[:s]
        if b not in arr[]:
                
    return data
    
'''
 
data = pd.read_csv('films.csv')
 
#Функция feels() и добавление новой колнки profit, где считается прибыль
def feels(data):
    mas = []
    for i in range(data['budget'].count()):
        mas.append(data.revenue[i] - data.budget[i])
    data.insert(2, "profit", mas, True)
    data = data.sort_values(by='profit', ascending=False)
    data = data.drop(data[data['profit'] <= 0].index)
    data = data[['genres', 'profit']]
    return data
 
#Вызов функции
data = feels(data)
#data = income(data)
 
#Вывод
print(data)

@Gdez · 01.12.2021, 12:36

Veanes, Попробуй

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import pandas as pd
import numpy as np
df = pd.DataFrame({
    'films': ['one', 'two', 'three', 'four'],
    'genres': ['a|c|d', 'b', 'b|c|d', 'a|c'], 
    'profit': [1, 2, -3, 4],
    'budget': [100, 200, 300, 400]
})
#print(df)
 
 
df['genres'] = df['genres'].map(lambda x: x.split('|'))
df = df.explode('genres').reset_index(drop=True)
#print(df)
 
index = pd.MultiIndex.from_frame(df[['films', 'genres']])
df1 = pd.DataFrame(df['profit'].to_list(), index=index)
df1 = df1.unstack(level=-1).sum(0).reset_index()
df1.drop(df1.columns[[0]], axis=1, inplace=True)
df1.columns = ['genres', 'profit']
#print(df1)
 
print(*df1.loc[df1.profit.argmax(),:].values)

@Veanes · 01.12.2021, 15:23 **[ТС]**

Пробовал добавить ваш код в свой, но чего-то не получается
Подскажите, что я здесь сделал не так ?

Столбцы в файле:
(жанр) genres, (бюджет) budget, (кассовые сборы) revenue, (название фильма) original_title

Traceback (most recent call last):
Файл "C:\Users\samky\Desktop\Homework\Python\ 30.11\1.py", строка 28, из <module> df1 = pd.DataFrame(data['profit'].to_list(), index=index)
builtins.NameError: name 'index' is not defined

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import numpy as np 
import pandas as pd 
 
data = pd.read_csv('films.csv')
 
#Функция подсчета по условию задачи
def income(data):
    data['genres'] = data['genres'].map(lambda x: x.split('|'))
    data = data.explode('genres').reset_index(drop=True)
    index = pd.MultiIndex.from_frame(data[['original_title', 'genres']])
    df1 = pd.DataFrame(data['profit'].to_list(), index=index)
    df1 = df1.unstack(level=-1).sum(0).reset_index()
    df1.drop(df1.columns[[0]], axis=1, inplace=True)
    df1.columns = ['genres', 'profit']
    return df1
 
#Функция feels() и добавление новой колнки profit, где считается прибыль
def feels(data):
    mas = []
    for i in range(data['budget'].count()):
        mas.append(data.revenue[i] - data.budget[i])
    data.insert(2, "profit", mas, True)
    data = data.sort_values(by='profit', ascending=False)
    data = data.drop(data[data['profit'] <= 0].index)
    data = data[['original_title', 'genres', 'profit']]
    return data
 
#Вызов функции
data = feels(data)
data = income(data)
 
#Вывод
print(*data.loc[data.profit.argmax(),:].values)

@Gdez · 01.12.2021, 17:26

Veanes,

Python
1
2
3
4
5
6
def income(data):
    data['genres'] = data['genres'].map(lambda x: x.replace(' ', '_').split('|'))
    data = data.explode('genres').reset_index(drop=True)
    df = data.groupby(['genres'])['profit'].agg(['sum']).reset_index()
    df.columns = ['genres', 'profit']
    return df

Новые блоги и статьи Все статьи Все блоги /
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++ 8Observer8 10.03.2026 Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:	Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE 8Observer8 10.03.2026 Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .	Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки Neotwalker 08.03.2026 Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .	Модульная разработка через nuget packages DevAlt 07.03.2026 Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F# DevAlt 06.03.2026 В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .	Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование 8Observer8 05.03.2026 Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .	SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .	SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий 8Observer8 02.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .

Pandas и работа с csv файлом

Решение