Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14

Устранение узкого места в многопоточной программе

06.12.2019, 16:55. Показов 1900. Ответов 3

Студворк — интернет-сервис помощи студентам
Доброго времени суток, столкнулся с узким местом при разработке много поточной программы на питоне.
Программа подсчитывает количество вхождений ключевой фразы в текстовом файле, оба параметра (путь к файлу и ключевая фраза) задаются в командной строке.
Свой личный опыт программирования на других языках говорит о том, что узкое место связано с разделением данных (объект lines) между потоками - а именно то, что объект lines поддерживаем доступ к данным лишь для одного потока в одно и тоже время.
Следовательно была предпринята попытка создать разрезы данных (дополнительные ссылки, в коде отмечено тройным восклицательным знаком после комментария) для каждого потока, но результат не впечатлил.
Исходный код и результаты тестов для одного и четырех потоков приведены ниже по тексту.
Прошу вашего мнения по методу оптимизации данной программы...

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
''' Counting specified key sequence in the specified file
and printing result to the standard output with elapsed time '''
 
import sys
import argparse
import threading
import queue
 
from timeit import default_timer as timer
 
def worker(lines_slice, keyseq, results):
    counter = 0
 
    # подсчет количества совподений в каждой строке
    for line in lines_slice:
        counter += line.count(keyseq)
 
    # сохранение результата подсчета в очереде
    results.put(counter)
 
def main(argv_slice):
    res = 0
 
    # разбор аргументов командной строки
    parser = argparse.ArgumentParser(
        description='Counting key sequence in the file')
 
    parser.add_argument('-f', '--fpath', type=str, required=True,
                        help='File path to reading')
    parser.add_argument('-k', '--keyseq', type=str, required=True,
                        help='Key sequence to counting')
 
    parsed_argv = parser.parse_args(argv_slice)
 
    fpath = parsed_argv.fpath
    keyseq = parsed_argv.keyseq
 
    with open(fpath) as fin:
        start = timer()
 
        # считывание всего содержимого исходного файла
        lines = fin.readlines()
 
        # создание очереди для хранения результатов
        results = queue.Queue()
 
        threads_list = [] # список потоков
 
        lines_slices = [] # список ссылок на данные
 
        threads_count = 1; # 4
 
        thread_part = len(lines) / threads_count
 
        # цикл инициализации и создания потоков выполнения
        for thread_index in range(0, threads_count):
            from_index = thread_index * int(thread_part)
 
            if thread_index != threads_count - 1:
                to_index = from_index + int(thread_part)
            else:
                to_index = len(lines)
 
            # создание дополнительной ссылки на данные для каждого потока !!!
            lines_slices.append(lines[from_index:to_index])
 
            # сохранение дескриптора потока в списке потоков
            threads_list.append(threading.Thread(target=worker,
                                                 args=(lines_slices[thread_index],
                                                       keyseq, results)))
 
            threads_list[thread_index].start()
 
        # ожидание завершения потоков выполнения
        for thread_index in range(0, threads_count):
            threads_list[thread_index].join()
 
        custom_counter = 0
 
        # расчет окончательного результата подсчета
        for thread_index in range(0, threads_count):
            custom_counter += results.get()
 
        elapsed = timer() - start # расчет затраченного времени на вычисление
 
    print('Counter: {}'.format(custom_counter))
    print('Elapsed: {}'.format(elapsed))
    
    return res
 
if __name__ == '__main__':
    sys.exit(main(sys.argv[1:]))
Тест программы с одним потоком:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.7103207
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.4012957
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2991412
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.3099517
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2859836000000002
 
C:\Users\DPC\Desktop>
Тест программы с четырьмя потоками:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2779167
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.297662
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.2425295000000003
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.3776079
 
C:\Users\DPC\Desktop>python keyseqfinder.py -f ".\Всякие записи.txt" -k "Абишев Данияр"
Counter: 396144
Elapsed: 3.1587539000000002
 
C:\Users\DPC\Desktop>
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
06.12.2019, 16:55
Ответы с готовыми решениями:

Устранение узкого места в многопроцессной программе
Доброго времени суток, столкнулся с узким местом при разработке много процессной программы на питоне. Программа подсчитывает количество...

Поиск "узкого" места и варианты решения
Есть сервер (i3 WS2003 4 Gb RAID5 1Tb 1x1Gbit/s Lan), на нём в общей папке, весом в 18 Гб, лежат 15154 файла. Каждый день с ними работают...

Ошибка в многопоточной программе
Здравствуйте! Есть простая программа, которая выдает список всех папок в заданной папке (включая вложенные) Процесс создания списка...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
06.12.2019, 20:58
Лучший ответ Сообщение было отмечено guarantexcell как решение

Решение

В Python потоки выполняются последовательно. Да. Плохо. Но это жизнь. Почитайте про GIL (кроме Python, те же ограничения и в Ruby, и в Perl и вообще в практически любых интерпретируемых языках, где доступны нативные потоки).
Поэтому для ускорения CPU задач используется мультипроцессность вместо мультипоточности.

P.S. Это не значит, что потоки в Python бесполезны. Они используются для IO-задач, где время ожидания данных превышает время работы с ними. Там они дают эффект улучшения производительности.

Добавлено через 2 минуты
Интерпретатор питона использует внутренний глобальный блокировщик (GIL), который позволяет выполняться только одному потоку. Это сводит на нет преимущества многоядерной архитектуры процессоров. Для многопоточных приложений, которые работают в основном на дисковые операции чтения/записи, это не имеет особого значения, а для приложений, которые делят процессорное время между потоками, это является серьезным ограничением.
https://www.ibm.com/developerw... on_part_9/
1
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14
06.12.2019, 21:05  [ТС]
Хорошо, спасибо за информацию - этого я в книжках не вычитал, буду иметь в виду!
0
10 / 6 / 5
Регистрация: 04.04.2017
Сообщений: 14
07.12.2019, 19:33  [ТС]
Переделал свой код в многопроцессный вид, но результат по моему сохранился прежним.

Ссылка на новую тему: Устранение узкого места в многопроцессной программе
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
07.12.2019, 19:33
Помогаю со студенческими работами здесь

Метод For в многопоточной программе
Почему данный код не компилируется и как исправить ошибку? using System; using System.Threading.Tasks; class...

Умножение матриц в многопоточной программе
class Program { static int value = 50; static void Main(string args) { int firstMatrix =...

Сигналы и слоты в многопоточной программе.
Столкнулся с непонятным мне поведением в следующей ситуации. Есть класс "логгера". Его назначение - получать сообщения в слот,...

Одновременный инкремент в многопоточной программе
Подпрограмма выполняется в многопоточном режиме. i, j - глобальные переменные. Каждый поток инкриминирует j и получает уникальный i. И...

Назначение параметров в многопоточной программе
Ребят от чего зависит вот эти параметры в моей программе? Mythread t1 = new Mythread("Поток 1", 10, t); ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .
Настройки VS Code
Loafer 13.04.2026
{ "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru