|
0 / 0 / 0
Регистрация: 12.02.2015
Сообщений: 44
|
|||||||||||
Как правильно работать с типом RDD (Pyspark), хранящим массив из десяти миллионов значений?25.02.2021, 21:11. Показов 3003. Ответов 5
Метки нет (Все метки)
Здравствуйте!
Есть учебная задача: в массиве чисел np.arange(1, number), где number - введенное значение, подсчитать кол-во чисел, являющихся простыми. Number, при этом, должен быть очень большим числом. Я написал для такой задачи код в обычном IDLE, но выполняется он долго. На массив значений от 1 до 10,000,000 высчитывание кол-ва простых чисел из него ведется 512 секунд. Думаю, если перейти к миллиардам - то соответственно и десяти часов не хватит это дело обработать. Я узнал, что существует фреймворк Apache Spark, который легко подключается к Jupyter Notebook и позволяет такое дело высчитывать очень быстро. Я написал код, адаптировав его под Spark:
Далее, переменная our заполняется np.arange(1, number) ourRDD становится переменной типа RDD, содержащей np.arange(1, number) Потом каждая из ячеек массива ourRDD переходит в тело основной функции, и возвращает True или False. Значения False фильтруются, и остаются только True. Получается массив из ячеек True (переменная n). Переменные ourRDD и n, имеющие тип RDD, создались у меня за 62 секунды (я их вывел на экран в print(ourRDD) и print(n)) ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:262 PythonRDD[1] at RDD at PythonRDD.scala:53 --- 63.86521315574646 seconds --- Это неплохо. Но когда я хочу подсчитать количество ячеек в переменной n, дописывая к коду следующее:
Вопрос в следующем. Я знаю, что Apache Spark выполняется для научных вычислений и BigData вычислений, при этом, сами вычисления обещают выполняться весьма быстро. Соответственно, count в моем массиве с уже отобранным кол-вом True значений тоже вроде как не должен выполняться слишком долго. Может, я что-то делаю неправильно или для моей задачи Spark не применим? Или я не указал какие-то настройки, которые нужно было укзаать? Я всего лишь скачал Spark с офиц. сайта, скачал Anaconda с IDE Jupyter, и запустил его. Или мой компьютер слишком слабый и Spark использовать в нем бесполезно (я студент и работаю сейчас на ноутбуке, купленном в 2020 за 20000 рублей)? Помогите, пожалуйста. Отблагодарю! С уважением ко всем пользователям форума и в отдельности прочитавшему этот пост, Виктор (пользователь vitenka95)
0
|
|||||||||||
| 25.02.2021, 21:11 | |
|
Ответы с готовыми решениями:
5
Как работать с массивами более 10 миллионов значений?
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 26.02.2021, 08:08 | |
|
vitenka95, зачем вам перебирать все числа? Перебирайте только нечетные np.arange(1, number, 2), а двойку учитывайте отдельно. Вот уже экономия памяти и времени работы в 2 раза. Также можно исключить из простых чисел числа, заканчивающиеся на 5 (кроме самой 5-ки).
Добавлено через 21 минуту https://stackoverflow.com/ques... 88#3035188 Очень быстрое нахождение простых чисел в диапазоне. 57 ms для 10 000 000.
2
|
|
|
0 / 0 / 0
Регистрация: 12.02.2015
Сообщений: 44
|
|
| 26.02.2021, 16:28 [ТС] | |
|
u235, спасибо огромное за ответ!
По теме с простыми числами - понял, да, очень хорошие примеры. Спасибо. Но я хотел бы еще разобраться со Spark'ом. Почему он в этом случае адекватно не применяется и в каких тогда BigData случаях его применить удобно (желательно в IDE Jupyter). Или может код Спарка здесь как-то по-другому написать. Не знаю в общем, ум раскорячился. В Интернете есть примеры его применения, но какие-то нелепые - типа массива из 4 ячеек. Но так это и обычными способами можно сделать, без Спарка. А хотелось бы именно вот такой крутой результат получить - типа массив 100 миллионов ячеек обработался за минуту. Добавлено через 2 часа 0 минут u235, прошу прощения, а Вы не могли бы подсказать по теме Спарка? :-)
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 26.02.2021, 16:33 | |
|
vitenka95, нет, не приходилось пользоваться..
0
|
|
|
|
||||
| 30.03.2021, 12:05 | ||||
|
Просто загугли что это и подумай какое отношение твой ноут имеет к ним. Добавлено через 26 минут
0
|
||||
|
|
|
| 31.03.2021, 12:11 | |
Сообщение было отмечено vitenka95 как решение
Решение
vitenka95, spark - для удобного раскидывания между компьютерами по сети. У вас заюзано много компьютеров, чтобы имело смысл его использовать?
Тело функции имеет значение. Сдаётся мне, вы каждое число вычисляете отдельно. Используйте решето Эратосфена. И без всякого распараллеливания взлетит.
1
|
|
| 31.03.2021, 12:11 | |
|
Помогаю со студенческими работами здесь
6
Как работать с типом 8204? Как правильно следует ввести массив и работать с его элементами через указатель?
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога
Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
|
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
|
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога
Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
|
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога
Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
|
|
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога
Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
|
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
|
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога
В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
|
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|