System Grantów: Różnice pomiędzy wersjami
m |
(→Klaster Prometheus: Poprawiona uwaga o grantach na Prometheusie - tylko grant właściwy) |
||
(Nie pokazano 3 wersji utworzonych przez jednego użytkownika) | |||
Linia 74: | Linia 74: | ||
W takim przypadku należy sprawdzić listę aktywnych SLA komendą <code>plg-show-grants</code>, oraz listę dostępnych partycji komendą <code>sinfo</code> | W takim przypadku należy sprawdzić listę aktywnych SLA komendą <code>plg-show-grants</code>, oraz listę dostępnych partycji komendą <code>sinfo</code> | ||
− | + | '''WAŻNE: Na klastrze obowiązują wyłącznie granty właściwe wynegocjowane w portalu Bazaar (nie ma grantów testowych).''' | |
− | + | === Rozwiązania częstych problemów === | |
− | + | ||
+ | W przypadku większości komunikatów, należy najpierw sprawdzić dostępne granty komendą 'plg-show-grants'. | ||
+ | |||
+ | <pre> | ||
+ | sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits) | ||
+ | </pre> | ||
+ | |||
+ | Powyższy komunikat oznacza, że zasoby (w tym daty obowiązywania) w danym grancie się skończyły (ale pozostały jeszcze zadania działające w tym grancie) LUB grant osobisty nie jest aktywny. | ||
+ | |||
+ | <pre> | ||
+ | srun: error: Unable to allocate resources: Invalid account or account/partition combination specified | ||
+ | </pre> | ||
+ | |||
+ | Powyższy komunikat oznacza, że dany grant nie istnieje lub się skończył. |
Aktualna wersja na dzień 08:16, 10 maj 2016
Poniższe informacje dotyczą wyłącznie użytkowników PLGrid, którzy założyli konto w Portalu PLGrid i ich login zaczyna się od "plg".
Spis treści
Wstęp
Na klastrze Zeus i Prometheus obowiązuje system grantów PLGrid, tzn. aby wykonywać obliczenia na klastrze należy posiadać konto PLGrid oraz aktywny grant (SLA).
SLA wprowadzają ograniczenia na użytkownika w postaci wynegocjowanej liczby godzin obliczeniowej oraz przestrzeni dyskowej, ale równocześnie zapewniają odpowiedni przydział zasobów przez regulacje kolejki zadań w ramach wynegocjowanego priorytetu (wynikającego z czasu trwania grantu oraz liczby godzin).
Dodatkowe informacje o systemie grantów PLGrid:
- http://www.plgrid.pl/oferta/zasoby_obliczeniowe/granty_obliczeniowe
- http://www.plgrid.pl/projekty/plus/o_projekcie/dokumenty/pliki/Granty-obliczeniowe-PL-Grid-zakladanie-negocjacje-v2.4.pdf
- https://docs.cyfronet.pl/pages/viewpage.action?pageId=4260615
Narzędzia plg-show-*
Na klastrach dostępne są 3 narzędzia pozwalające na sprawdzenie obecnie aktywnych SLA, są to:
plg-show-grants
- pokaż moje obecne, aktywne SLAplg-show-grant-details NAZWA_GRANTU
- pokaż szczegóły danego SLA,plg-show-default-grant
- pokaż domyślne SLA ustawione w portalu PLGrid.
SLA domyślne jest ustawiane w portalu PLGrid i jest dodawane do zadań w wypadku nie podania innej nazwy grantu. Jeżeli SLA domyślne nie jest aktywne (lub zablokowane) to zadanie zostanie odrzucone!
Przykłady
Sprawdzanie domyślnego SLA oraz tego czy jest ono aktywne na danym klastrze
[plgtest@zeus plgtest]$ plg-show-default-grant Your default grant information: Grant ID : plgtest2015b Status : ACTIVE (on THIS site)
Sprawdzanie listy aktywnych na danym klastrze SLA:
[plgtest@zeus plgtest]$ plg-show-grants Your active PL-Grid grants on THIS site: +--------------------+------------+------------+--------------------+--------------------+--------------+ | GrantID | Start Date | End Date | Total Walltime [h] | Total Storage [GB] | Group | +--------------------+------------+------------+--------------------+--------------------+--------------+ | plgtest2015b (*) | 2015-08-02 | 2016-02-02 | 1000 | 40 | None | | slanem4 | 2015-01-05 | 2016-01-04 | 600 | 60 | plggtest | | othersla2015 | 2015-01-01 | 2015-12-31 | 2000 | 1 | plggtest2 | | another2015 | 2014-12-15 | 2015-12-31 | 2000 | 2 | plggtest3 | +--------------------+------------+------------+--------------------+--------------------+--------------+ * default grant
Klaster Zeus
Na klastrze Zeus używany jest system kolejkowy TORQUE - w związku z tym w razie błędnego podania nazwy SLA (lub podania nazwy zakończonego lub zablokowanego SLA) zostanie wyświetlony następujący komunikat:
[plgtest@zeus plgtest]$ qsub -I -A test argument-check: This grant ID (test) does not exist or is inactive. argument-check: Job rejected, problem with directive (wrong or empty) [-A test] qsub: Your job has been administratively rejected by the queueing system. qsub: There may be a more detailed explanation prior to this notice.
Klaster Prometheus
Na klastrze Prometheus używany jest system kolejkowy Slurm, z tego powodu komunikaty są inne (w tym wypadku mniej jednoznaczne):
[prometheus][plgtest@login01 ~]$ srun -A test hostname srun: error: Unable to allocate resources: User's group not permitted to use this partition
W takim przypadku należy sprawdzić listę aktywnych SLA komendą plg-show-grants
, oraz listę dostępnych partycji komendą sinfo
WAŻNE: Na klastrze obowiązują wyłącznie granty właściwe wynegocjowane w portalu Bazaar (nie ma grantów testowych).
Rozwiązania częstych problemów
W przypadku większości komunikatów, należy najpierw sprawdzić dostępne granty komendą 'plg-show-grants'.
sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)
Powyższy komunikat oznacza, że zasoby (w tym daty obowiązywania) w danym grancie się skończyły (ale pozostały jeszcze zadania działające w tym grancie) LUB grant osobisty nie jest aktywny.
srun: error: Unable to allocate resources: Invalid account or account/partition combination specified
Powyższy komunikat oznacza, że dany grant nie istnieje lub się skończył.