Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14

Устранение узкого места в многопоточной программе

06.12.2019, 16:55. Показов 1875. Ответов 3

Студворк — интернет-сервис помощи студентам
Доброго времени суток, столкнулся с узким местом при разработке много поточной программы на питоне.
Программа подсчитывает количество вхождений ключевой фразы в текстовом файле, оба параметра (путь к файлу и ключевая фраза) задаются в командной строке.
Свой личный опыт программирования на других языках говорит о том, что узкое место связано с разделением данных (объект lines) между потоками - а именно то, что объект lines поддерживаем доступ к данным лишь для одного потока в одно и тоже время.
Следовательно была предпринята попытка создать разрезы данных (дополнительные ссылки, в коде отмечено тройным восклицательным знаком после комментария) для каждого потока, но результат не впечатлил.
Исходный код и результаты тестов для одного и четырех потоков приведены ниже по тексту.
Прошу вашего мнения по методу оптимизации данной программы...

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
''' Counting specified key sequence in the specified file
and printing result to the standard output with elapsed time '''
 
import sys
import argparse
import threading
import queue
 
from timeit import default_timer as timer
 
def worker(lines_slice, keyseq, results):
    counter = 0
 
    # подсчет количества совподений в каждой строке
    for line in lines_slice:
        counter += line.count(keyseq)
 
    # сохранение результата подсчета в очереде
    results.put(counter)
 
def main(argv_slice):
    res = 0
 
    # разбор аргументов командной строки
    parser = argparse.ArgumentParser(
        description='Counting key sequence in the file')
 
    parser.add_argument('-f', '--fpath', type=str, required=True,
                        help='File path to reading')
    parser.add_argument('-k', '--keyseq', type=str, required=True,
                        help='Key sequence to counting')
 
    parsed_argv = parser.parse_args(argv_slice)
 
    fpath = parsed_argv.fpath
    keyseq = parsed_argv.keyseq
 
    with open(fpath) as fin:
        start = timer()
 
        # считывание всего содержимого исходного файла
        lines = fin.readlines()
 
        # создание очереди для хранения результатов
        results = queue.Queue()
 
        threads_list = [] # список потоков
 
        lines_slices = [] # список ссылок на данные
 
        threads_count = 1; # 4
 
        thread_part = len(lines) / threads_count
 
        # цикл инициализации и создания потоков выполнения
        for thread_index in range(0, threads_count):
            from_index = thread_index * int(thread_part)
 
            if thread_index != threads_count - 1:
                to_index = from_index + int(thread_part)
            else:
                to_index = len(lines)
 
            # создание дополнительной ссылки на данные для каждого потока !!!
            lines_slices.append(lines[from_index:to_index])
 
            # сохранение дескриптора потока в списке потоков
            threads_list.append(threading.Thread(target=worker,
                                                 args=(lines_slices[thread_index],
                                                       keyseq, results)))
 
            threads_list[thread_index].start()
 
        # ожидание завершения потоков выполнения
        for thread_index in range(0, threads_count):
            threads_list[thread_index].join()
 
        custom_counter = 0
 
        # расчет окончательного результата подсчета
        for thread_index in range(0, threads_count):
            custom_counter += results.get()
 
        elapsed = timer() - start # расчет затраченного времени на вычисление
 
    print('Counter: {}'.format(custom_counter))
    print('Elapsed: {}'.format(elapsed))
    
    return res
 
if __name__ == '__main__':
    sys.exit(main(sys.argv[1:]))
Тест программы с одним потоком:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.7103207
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.4012957
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2991412
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.3099517
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2859836000000002
 
C:\Users\DPC\Desktop>
Тест программы с четырьмя потоками:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2779167
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.297662
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2425295000000003
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.3776079
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.1587539000000002
 
C:\Users\DPC\Desktop>
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
06.12.2019, 16:55
Ответы с готовыми решениями:

Устранение узкого места в многопроцессной программе
Доброго времени суток, столкнулся с узким местом при разработке много процессной программы на питоне. Программа подсчитывает количество...

Поиск "узкого" места и варианты решения
Есть сервер (i3 WS2003 4 Gb RAID5 1Tb 1x1Gbit/s Lan), на нём в общей папке, весом в 18 Гб, лежат 15154 файла. Каждый день с ними работают...

Ошибка в многопоточной программе
Здравствуйте! Есть простая программа, которая выдает список всех папок в заданной папке (включая вложенные) Процесс создания списка...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
06.12.2019, 20:58
Лучший ответ Сообщение было отмечено guarantexcell как решение

Решение

В Python потоки выполняются последовательно. Да. Плохо. Но это жизнь. Почитайте про GIL (кроме Python, те же ограничения и в Ruby, и в Perl и вообще в практически любых интерпретируемых языках, где доступны нативные потоки).
Поэтому для ускорения CPU задач используется мультипроцессность вместо мультипоточности.

P.S. Это не значит, что потоки в Python бесполезны. Они используются для IO-задач, где время ожидания данных превышает время работы с ними. Там они дают эффект улучшения производительности.

Добавлено через 2 минуты
Интерпретатор питона использует внутренний глобальный блокировщик (GIL), который позволяет выполняться только одному потоку. Это сводит на нет преимущества многоядерной архитектуры процессоров. Для многопоточных приложений, которые работают в основном на дисковые операции чтения/записи, это не имеет особого значения, а для приложений, которые делят процессорное время между потоками, это является серьезным ограничением.
https://www.ibm.com/developerw... on_part_9/
1
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14
06.12.2019, 21:05  [ТС]
Хорошо, спасибо за информацию - этого я в книжках не вычитал, буду иметь в виду!
0
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14
07.12.2019, 19:33  [ТС]
Переделал свой код в многопроцессный вид, но результат по моему сохранился прежним.

Ссылка на новую тему: Устранение узкого места в многопроцессной программе
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
07.12.2019, 19:33
Помогаю со студенческими работами здесь

Метод For в многопоточной программе
Почему данный код не компилируется и как исправить ошибку? using System; using System.Threading.Tasks; class...

Умножение матриц в многопоточной программе
class Program { static int value = 50; static void Main(string args) { int firstMatrix =...

Сигналы и слоты в многопоточной программе.
Столкнулся с непонятным мне поведением в следующей ситуации. Есть класс "логгера". Его назначение - получать сообщения в слот,...

Одновременный инкремент в многопоточной программе
Подпрограмма выполняется в многопоточном режиме. i, j - глобальные переменные. Каждый поток инкриминирует j и получает уникальный i. И...

Назначение параметров в многопоточной программе
Ребят от чего зависит вот эти параметры в моей программе? Mythread t1 = new Mythread("Поток 1", 10, t); ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru