Форум программистов, компьютерный форум, киберфорум
Наши страницы
SETI25
Войти
Регистрация
Восстановить пароль
Оценить эту запись

Чек-лист Йетти версии 3 для LHC@home

Запись от SETI25 размещена 30.11.2019 в 08:00

Чек-лист Йетти версии 3 для LHC@home (и других проектов на базе виртуальных машин) на вашем ПК.
Запустить задания из CERN на VirtualBox (далее — виртуальная машина/ ВМ) в рамках клиента BOINC не так просто. Вы должны выработать оптимальный баланс на вашем компьютере между несколькими Проектами

Данный чек-лист был впервые разработан для Atlas и предназначен для помощи кранчерам в рамках данного проекта, в то же время его также можно использовать и для других VM-проектов LHC@Home, но в этом случае требования к памяти (и её загрузка) и скриншоты будут отличаться.

Данный чек-лист был последний раз обновлён 06.06.2017 г.

Поскольку чек-лист постоянно обновляется, то из-за этих обновлений может случиться так, что нумерация может измениться (или уже изменилась). Чтобы быть уверенным, что вы указываете / получаете указание на правильный пункт, предлагается ставить номер версии контрольного списка впереди. Таким образом, V3.P5 — Пункт 5 чек-листа версии 3.

Пожалуйста, проверьте этот чек-лист и обязательно проверьте все детали, шаг за шагом, все они важны.


1. Вы используете актуальный BOINC-x64 клиент? В настоящий момент актуальные версии: 7.6.22, 7.6.33 или 7.8.3. На текущий момент 09.08.2018 я запустил тестирование версии 7.12.1 и кажется она работает стабильно. (Напоминаю, статья от 2018 года. В настоящее время текущая версия 7.14.2 работает стабильно).
2. Виртуальная машина VirtualBox
o Виртуальная машина VirtualBox установлена? В настоящее время ВМ версии 5.1.30 работает стабильно, она даже рекомендована командой разработчиков проекта Atlas. Проект Atlas более не работает на VirtualBox версий 4.x;

Пользователи Win10 должны использовать VirtualBox версии 5.1.16 и выше, поскольку было объявлено, что релиз 17xx не будет работать с более старыми версиями VirtualBox;

Сегодня 09.08.2018 г и я работаю в версии 5.2.16 VirtualBox (совместно с версией BOINC 7.12.1) и вроде как она работает стабильно с заданиями Atlas (у меня Win10 1803);

o Используете Hyper-V или Docker? Они пересекаются в работе с VirtualBox и это ведёт к появлению проблем. Их необходимо деактивировать, а ещё лучше удалить.

3. Установите ExtensionPack, соответствующий версии VirtualBox. То есть, если у вас VirtualBox версии 5.1.16, то вы должны установить ExtensionPack для версии 5.1.16. Это позволит вам решить возможные проблемы.

4. Проверьте, включена ли виртуализация в БИОС’е (BIOS) (для Intel — VT-X; для AMD — AMD-v (бывший режим SVM-Mode); для — VIA-vt). Для проверки можно использовать классную утилиту из интернета: загрузите себе LeoMoon CPU-V и проверьте: должно загореться два зелёных ok.

Если вы апгрейдили свой БИОС или апгрейдили память, то вполне может быть, что слетела настройка виртуализации (VT-X / AMD-V / VIA-VT) и поэтому придётся заново её активизировать. Однозначно проверьте следующий пункт.

5. Вы уже пытались в прошлом кранчить в проектах, использующие ВМ и режим VT-X / AMD-V / VIA-VT был выключен? Возможно, что BOINC-клиент это запомнил!

Для того, чтобы это проверить, во-первых: выйдите из BOINC-клиента и убедитесь, что все задания прекращены.

В директории данных проектов БОИНК BOINC_Data-Directory вы найдёте файл client_state.xml. Откройте его обычным редактором и найдите:
<p_vm_extensions_disabled>1</p_vm_extensions_disabled>

Если такой строки нет или значение установлено 0 (ноль), то всё в порядке. В противном случае поменяйте его значение в ноль <p_vm_extensions_disabled>0</p_vm_extensions_disabled> и сохраните файл. Аккуратнее: сохраните его в формате ASCII

Убедитесь, что вы действительно закрыли BOINC-клиент перед тем, как будете вносить какие-либо изменения в файл client_state.xml. В противном случае, BOINC перезапишет все изменения, сделанные вами.

6. Ресурсы компьютера

o Проверьте: достаточно ли у вас оперативной памяти (RAM) для обсчёта заданий Atlas. Каждое задание для одного ядра в Atlas занимает 2,1 Гб оперативной памяти RAM, многоядерные задания (MultiCore-WU) требует 3,0 Гб + 0,9 Гб * кол-во ядер (последнее обновление от 01.08.2018). Так, для обсчёта задания для пяти ядер (5-Core WU) необходимо 7,5 Гб;

[Обновление от 18.09.2018] В настоящее время проект ATLAS выдаёт только многоядерные задания (MultiCoreWUs) даже если вы считаете проект только на одном ядре и в этом случае будет необходимо 3,9 Гб для одного ядра;

Если у вас 8-ядерный процессор и только 8 Гб памяти RAM, BOINC постарается загрузить все восемь ядер, что приведёт к тому, что одна, несколько или все ВМ встанут с комментарием: "задание отложено: ожидается освобождение памяти...";

Если вы увидели сообщение подобное этому, то первое, что вы должны сделать —
— это попробовать запустить одноядерное задание и посмотреть: работает ли оно нормально и т.д. Если вы увидели сообщение "задание отложено: ожидается освобождение памяти..."для задания, которое в настоящий момент считает ваш BOINC-клиент, то необходимо выйти из BOINC-клиента и перезапустить его после некоторой паузы.

В то время как задания Atlas фокусируются на многоядерном исполнении MultiCoreWU, то одно задание может использовать более одного ядра для расчёта. В проекте Atlas имеются задания для использования от одного до восьми ядер на задание. Вы можете установить в настройках project-preferences "Number of Cores" желаемое и максимальное количество ядер на задание по своему усмотрению. Заметьте, что данная настройка будет распространяться только новые задания. В случае необходимости, удалите (Abort) уже загруженные задания.

o Проверьте: достаточно ли места на диске и установите значения в настройках BOINC-клиента, которое он может использовать. Эти параметра можно найти в настройках —Preferences

7. Проверьте: разрешает ли файрвол Windows исходящую и входящую коммуникацию приложениям BOINC.EXE и VBoxHeadless.exe.

8. Проверьте, чтобы ваш антивирус игнорировать директорию данных БОИНК

9. Запускайте только одно задание проекта Atlas, пока не добьётесь его стабильной и успешной работы
..... A) Вы можете заморозить (suspend) другие задания вручную
..... B) Вы можете использовать настройки в файле app_config.xml

10. Atlas подсоединяется в серверам через различные порты как пользователь BOINC. Вам надо открыть следующие порты:
..... HTTP (порт 80)
..... HTTP Proxy (порт 3128)
..... HTTPS (порт 443)
..... XMPP (порт 5222)
..... TCP порт 9094

Вот новая страница, на которой команда проекта делятся официальной информацией: official Information

11. Если все вышеперечисленные пункты в порядке, то по идее вы можете начинать считать в проекте.

12. Для вашего понимания: когда начинается обсчёт задания проекта Atlas, то в первую очередь он подключается ко внешним серверам ЦЕРН (CERN-Servers) чтобы загрузить оттуда актуальные задания (данные). В зависимости от скорости Вашего интернет соединения это может занять некоторое время, которое может сильно отличаться. Именно по этой причине вам необходимо открыть порты, указанные в V3.P10.

13. BOINC-клиент не очень хорошо запускает вместе задания для одного ядра вместе с многоядерными заданиями. Если вы действительно хотите этого, то будьте готовы заморочится и проделать много тяжёлой работы для того, чтобы найти действительно эффективный баланс для вашего компьютера (компьютеров).

Если у вас проблемы с расчётом заданий для Atlas, то было бы неплохо позапускать некоторое время только задания для Atlas, пока вы не убедитесь, что всё работает как должно было.

14. Если вы считаете задание, то в BOINC-клиенте его можно отметить мышкой и посмотреть "Информацию" (Properties) о нём. Интересными пунктами являются "Время ЦП с последней контрольной точки" ("CPU-Time at last checkpoint") по отношению к "Время ЦП" ("CPU-Time"). Для заданий для одного ядра разница должна быть небольшой и составлять от 10 до 20 мин. Пример моих показаний: 01:04:09 против 01:22:26. Эта разница в восемь (8) минут является нормальной. Если разница большая, то что-то не так.

Для многоядерных заданий после начала обсчёта последовательность (пункт nº 12 / V3.P12) "Время ЦП" должен расти гораздо быстрее, чем затраченное время. Так, для 5-ти ядерного задания 1:00:00 час затраченного времени против 04:50:00 часов для процессорного времени — это нормально.

15. В последнее время среди заданий ATLAS я не встречал ни одного стайера среди тысяч обработанных заданий. Мой самый медленный ПК выполнил задание максимум за 12 часов, мой самый быстрый — за 01:04. Обычно задание выполняется за 1 час 40/50 минут.

Примечание: В настоящее время одно задание Atlas содержит 100 работ. Время от времени команда проекта меняет количество работ в зависимости от своих потребностей, так что время обработки может меняться и надо периодически справляться сколько работ содержит одно задание.

16. Если задание начинает считаться нормально, но затем что-то происходит, то это могут быть различные сценарии:

o Сценарий A:

Задание заканчивает считаться через 10 – 20 минут. — скорее всего что-то не так с Вашим компьютером или файрволом.

o Сценарий B:

Задание считается более 20 – 30 минут, однако процессорное время (CPU-Time) показывает только 10 – 20 сек. , Точная причина этого не известна.

В одном случае проблема состояла в идентификации DNS-сервера.

Если вы найдёте причину сего, то это бы послужило нам хорошим подспорьем. Во-первых: попытайтесь сделать резет проекта Atlas (LHC@Home).

Если это помогло, то прекрасно: дайте нам знать.

Если и это не помогло, то попробуйте почистить install, как это описано в последнем пунке

o Сценарий C:

Обсчёт задания прекращается через несколько секунд. В логах написано что-то подобное "Error Code: ERR_CPU_VM_EXTENSIONS_DISABLED"

Вернитесь к пункту № 4 (V3.P4) и № 5 (V3.P5) выше.

o Сценарий D:

Ваши задания зависают с сообщением "postponed: waiting for memory ..." (отложено: в ожидании свободной памяти). В большинстве случаев причиной этого послужило то, что вы попытались запустить многоядерное задание, которое требует больше памяти, чем имеется на вашем компьютере. Приостановите несколько таких заданий, выйдете из BOINC-клиента и убедитесь, что все заданий окончились и затем перезапустите BOINC. Попытайтесь запустить всего лишь одно задание, если увидите, что оно нормально работает, то ещё одно и т.д.

Может вам стоит проверить настройки памяти по ссылке https://lhcathome.cern.ch/lhcathome/pre ... bal&cols=1. Память компьютера в работе ("memory when computer is in use").

o Сценарий E:

Ваши задания считаются, считаются и считаются и у вас уже складывается ощущение, что это мёртвое задание. После этого необходимо зайти в консоль ВМ (см. ниже), кликнуть мыкой внутри консоли и ввести логин-пароль. В качестве логина попробуйте ввести Atlas и нажать <enter>.

Еслит появится приглашение ввести пароль, то это хороший знак и означает, что ВМ ещё жива.

В случае, если не последует приглашение к введению пароля в течение 5 – 10 сек, то скорее всего ВМ упала и её необходимо завершить.
17.
o Ещё один способ проверить задание — это отметить задание в меню TASKS и затем нажать на "Информация" (PROPERTIES) слева.

Появится окно, подобное этому:

На данном примере показано 3-х ядерное задание для. Необходимо проверить:

CPU-Time at last checkpoint
CPU-Time
Elapsed Time

(На русском:
Время ЦП с последней контрольной точки
Время ЦП
Затрачено времени)

Время ЦП (CPU-Time) должно быть примерно "Затрачено времени" ("Elapsed Time") * Кол-во ядер (NumberOfCores) – 15 мин

Если Время ЦП (CPU-Time) что-то около 1 или 2 часов, а Затрачено времени (Elapsed-Time) сильно больше, то задание мертво и его необходимо отменить.

o Ели вам кажется, что всё-таки что-то не так, то можете заглянуть в свою ВМ (Именно для этого и был установлено расширение (extension pack)).
..... Отметьте обсчитываемое задание Atlas в BOINC-клиенте
..... В левом углу выберете "Показать консоль ВМ" ("Show VM Console").
..... Откроется консоль примерно со следующим содержимым (для Atlas 1.44)

Если ваша консоль выглядит также, то всё в порядке и задание должно посчитаться корректно.

Между тем можно посмотреть большее количество информации в консоли. Наведите мышь на консоль, нажмите на окне консоли и нажмите ALT/F2. Вы увидите считающееся задание:

o ATLAS ALT/F2:

o ATLAS ALT/F3: (~ TOP-SCREEN) На этом кэкране показано обсчитывающееся 3-х ядерное задание. Обратите внимание на загрузку ЦПУ в %.

o Пример мёртвого задания ATLAS в окне ALT/F3: оно должно считаться как одноядерное задание, но вы видите оно считается как 8-ми ядерное

o Theory:
Скриншоты для Теории (тип задания)
o CMS ALT/F1:

o CMS ALT/F2:

o CMS ALT/F3: (~ TOP-SCREEN)

o Задание LHCb:

Hardcopy follows

o Задание Alice:

Hardcopy follows

2. Вы можете почистить систему после инсталляции:

o Установить Atlas-Project / LHC@Home в "Не запрашивать задания" ("No New Tasks").
o Закончите (Abort) все задания Atlas/LHC@Home в BOINC-клиенте.
o Выгрузите все посчитанные задания из BOINC-клиента на сервер Atlas/LHC@Home-Server пока список не будет пуст.
o Выйдите из BOINC-клиента.
o Откройте менеджер ВМ VirtualBoxManager и удалите все ВМ (будьте аккуратнее: не удалите свои ВМ и другие например ВМ vLHC или CMS).
o Выйдите из менеджера ВМ VirtualBoxManager.
o Перезагрузите свой ПК.

Теперь вы готовы к новой попытке.

В некоторых случаях необходимо бывает полностью удалить VirtualBox / BOINC, затем перезагрузиться и заново установить VirtualBox / BOINC.
3. Хотите запускать многоядерные задания, но вам не нравится кол-во задействованных ядер?

Не проблема, загляните в эту ветку и уменьшите количество задействованных ядер для заданий.

Всё ещё не работает? Напишите нам о своей проблеме на форуме

Yeti
Нажмите на изображение для увеличения
Название: ATLAS_DEAD_1CORE.jpg
Просмотров: 1414
Размер:	95.7 Кб
ID:	5734

Нажмите на изображение для увеличения
Название: ATLAS_PROPERTIES.jpg
Просмотров: 1620
Размер:	48.5 Кб
ID:	5735

Нажмите на изображение для увеличения
Название: ATLAS_RUN_ALTF3.jpg
Просмотров: 1444
Размер:	96.7 Кб
ID:	5736

Нажмите на изображение для увеличения
Название: atlas1_44VMok.png
Просмотров: 1529
Размер:	9.9 Кб
ID:	5737

Нажмите на изображение для увеличения
Название: AtlasMultiCore1CoreConsole.JPG
Просмотров: 1416
Размер:	71.3 Кб
ID:	5738

Нажмите на изображение для увеличения
Название: CMS_RUN_ALTF1.jpg
Просмотров: 1301
Размер:	88.1 Кб
ID:	5739

Нажмите на изображение для увеличения
Название: CMS_RUN_ALTF2.jpg
Просмотров: 1296
Размер:	103.6 Кб
ID:	5740

Нажмите на изображение для увеличения
Название: CMS_RUN_ALTF3.jpg
Просмотров: 1406
Размер:	92.9 Кб
ID:	5741
Размещено в Без категории
Просмотров 67 Комментарии 0
Всего комментариев 0
Комментарии
 
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.