|
0 / 0 / 0
Регистрация: 12.02.2015
Сообщений: 44
|
|||||||||||
Как правильно работать с типом RDD (Pyspark), хранящим массив из десяти миллионов значений?25.02.2021, 21:11. Показов 2999. Ответов 5
Метки нет (Все метки)
Здравствуйте!
Есть учебная задача: в массиве чисел np.arange(1, number), где number - введенное значение, подсчитать кол-во чисел, являющихся простыми. Number, при этом, должен быть очень большим числом. Я написал для такой задачи код в обычном IDLE, но выполняется он долго. На массив значений от 1 до 10,000,000 высчитывание кол-ва простых чисел из него ведется 512 секунд. Думаю, если перейти к миллиардам - то соответственно и десяти часов не хватит это дело обработать. Я узнал, что существует фреймворк Apache Spark, который легко подключается к Jupyter Notebook и позволяет такое дело высчитывать очень быстро. Я написал код, адаптировав его под Spark:
Далее, переменная our заполняется np.arange(1, number) ourRDD становится переменной типа RDD, содержащей np.arange(1, number) Потом каждая из ячеек массива ourRDD переходит в тело основной функции, и возвращает True или False. Значения False фильтруются, и остаются только True. Получается массив из ячеек True (переменная n). Переменные ourRDD и n, имеющие тип RDD, создались у меня за 62 секунды (я их вывел на экран в print(ourRDD) и print(n)) ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:262 PythonRDD[1] at RDD at PythonRDD.scala:53 --- 63.86521315574646 seconds --- Это неплохо. Но когда я хочу подсчитать количество ячеек в переменной n, дописывая к коду следующее:
Вопрос в следующем. Я знаю, что Apache Spark выполняется для научных вычислений и BigData вычислений, при этом, сами вычисления обещают выполняться весьма быстро. Соответственно, count в моем массиве с уже отобранным кол-вом True значений тоже вроде как не должен выполняться слишком долго. Может, я что-то делаю неправильно или для моей задачи Spark не применим? Или я не указал какие-то настройки, которые нужно было укзаать? Я всего лишь скачал Spark с офиц. сайта, скачал Anaconda с IDE Jupyter, и запустил его. Или мой компьютер слишком слабый и Spark использовать в нем бесполезно (я студент и работаю сейчас на ноутбуке, купленном в 2020 за 20000 рублей)? Помогите, пожалуйста. Отблагодарю! С уважением ко всем пользователям форума и в отдельности прочитавшему этот пост, Виктор (пользователь vitenka95)
0
|
|||||||||||
| 25.02.2021, 21:11 | |
|
Ответы с готовыми решениями:
5
Как работать с массивами более 10 миллионов значений?
|
|
5515 / 2868 / 571
Регистрация: 07.11.2019
Сообщений: 4,758
|
|
| 26.02.2021, 08:08 | |
|
vitenka95, зачем вам перебирать все числа? Перебирайте только нечетные np.arange(1, number, 2), а двойку учитывайте отдельно. Вот уже экономия памяти и времени работы в 2 раза. Также можно исключить из простых чисел числа, заканчивающиеся на 5 (кроме самой 5-ки).
Добавлено через 21 минуту https://stackoverflow.com/ques... 88#3035188 Очень быстрое нахождение простых чисел в диапазоне. 57 ms для 10 000 000.
2
|
|
|
0 / 0 / 0
Регистрация: 12.02.2015
Сообщений: 44
|
|
| 26.02.2021, 16:28 [ТС] | |
|
u235, спасибо огромное за ответ!
По теме с простыми числами - понял, да, очень хорошие примеры. Спасибо. Но я хотел бы еще разобраться со Spark'ом. Почему он в этом случае адекватно не применяется и в каких тогда BigData случаях его применить удобно (желательно в IDE Jupyter). Или может код Спарка здесь как-то по-другому написать. Не знаю в общем, ум раскорячился. В Интернете есть примеры его применения, но какие-то нелепые - типа массива из 4 ячеек. Но так это и обычными способами можно сделать, без Спарка. А хотелось бы именно вот такой крутой результат получить - типа массив 100 миллионов ячеек обработался за минуту. Добавлено через 2 часа 0 минут u235, прошу прощения, а Вы не могли бы подсказать по теме Спарка? :-)
0
|
|
|
5515 / 2868 / 571
Регистрация: 07.11.2019
Сообщений: 4,758
|
|
| 26.02.2021, 16:33 | |
|
vitenka95, нет, не приходилось пользоваться..
0
|
|
|
|
||||
| 30.03.2021, 12:05 | ||||
|
Просто загугли что это и подумай какое отношение твой ноут имеет к ним. Добавлено через 26 минут
0
|
||||
|
|
|
| 31.03.2021, 12:11 | |
Сообщение было отмечено vitenka95 как решение
Решение
vitenka95, spark - для удобного раскидывания между компьютерами по сети. У вас заюзано много компьютеров, чтобы имело смысл его использовать?
Тело функции имеет значение. Сдаётся мне, вы каждое число вычисляете отдельно. Используйте решето Эратосфена. И без всякого распараллеливания взлетит.
1
|
|
| 31.03.2021, 12:11 | |
|
Помогаю со студенческими работами здесь
6
Как работать с типом 8204? Как правильно следует ввести массив и работать с его элементами через указатель?
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Подключение Box2D v3 к SDL3 для Android: физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
|
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования.
Часть библиотеки BedvitCOM
Использованы. . .
|
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога
SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
|
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога
SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
|
|
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
|
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога
SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
|
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога
Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip"
Извлеките архив и вы увидите. . .
|
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога
Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д.
Сборка примера
Скачайте. . .
|