System Grantów

Z Komputery Dużej Mocy w ACK CYFRONET AGH
Skocz do:nawigacja, szukaj



Poniższe informacje dotyczą wyłącznie użytkowników PLGrid, którzy założyli konto w Portalu PLGrid i ich login zaczyna się od "plg".


Wstęp

Na klastrze Zeus i Prometheus obowiązuje system grantów PLGrid, tzn. aby wykonywać obliczenia na klastrze należy posiadać konto PLGrid oraz aktywny grant (SLA).

SLA wprowadzają ograniczenia na użytkownika w postaci wynegocjowanej liczby godzin obliczeniowej oraz przestrzeni dyskowej, ale równocześnie zapewniają odpowiedni przydział zasobów przez regulacje kolejki zadań w ramach wynegocjowanego priorytetu (wynikającego z czasu trwania grantu oraz liczby godzin).

Dodatkowe informacje o systemie grantów PLGrid:

Narzędzia plg-show-*

Na klastrach dostępne są 3 narzędzia pozwalające na sprawdzenie obecnie aktywnych SLA, są to:

  • plg-show-grants - pokaż moje obecne, aktywne SLA
  • plg-show-grant-details NAZWA_GRANTU - pokaż szczegóły danego SLA,
  • plg-show-default-grant - pokaż domyślne SLA ustawione w portalu PLGrid.

SLA domyślne jest ustawiane w portalu PLGrid i jest dodawane do zadań w wypadku nie podania innej nazwy grantu. Jeżeli SLA domyślne nie jest aktywne (lub zablokowane) to zadanie zostanie odrzucone!

Przykłady

Sprawdzanie domyślnego SLA oraz tego czy jest ono aktywne na danym klastrze

[plgtest@zeus plgtest]$ plg-show-default-grant 
Your default grant information:

Grant ID : plgtest2015b
Status   : ACTIVE (on THIS site)

Sprawdzanie listy aktywnych na danym klastrze SLA:

[plgtest@zeus plgtest]$ plg-show-grants 
Your active PL-Grid grants on THIS site:
+--------------------+------------+------------+--------------------+--------------------+--------------+
| GrantID            | Start Date |  End Date  | Total Walltime [h] | Total Storage [GB] |    Group     |
+--------------------+------------+------------+--------------------+--------------------+--------------+
| plgtest2015b (*)   | 2015-08-02 | 2016-02-02 |               1000 |                 40 |     None     |
| slanem4            | 2015-01-05 | 2016-01-04 |                600 |                 60 | plggtest     |
| othersla2015       | 2015-01-01 | 2015-12-31 |               2000 |                  1 | plggtest2    |
| another2015        | 2014-12-15 | 2015-12-31 |               2000 |                  2 | plggtest3    |
+--------------------+------------+------------+--------------------+--------------------+--------------+
* default grant

Klaster Zeus

Na klastrze Zeus używany jest system kolejkowy TORQUE - w związku z tym w razie błędnego podania nazwy SLA (lub podania nazwy zakończonego lub zablokowanego SLA) zostanie wyświetlony następujący komunikat:

[plgtest@zeus plgtest]$ qsub -I -A test
argument-check: This grant ID (test) does not exist or is inactive.
argument-check: Job rejected, problem with directive (wrong or empty) [-A test]
qsub: Your job has been administratively rejected by the queueing system.
qsub: There may be a more detailed explanation prior to this notice.

Klaster Prometheus

Na klastrze Prometheus używany jest system kolejkowy Slurm, z tego powodu komunikaty są inne (w tym wypadku mniej jednoznaczne):

[prometheus][plgtest@login01 ~]$ srun -A test hostname
srun: error: Unable to allocate resources: User's group not permitted to use this partition

W takim przypadku należy sprawdzić listę aktywnych SLA komendą plg-show-grants, oraz listę dostępnych partycji komendą sinfo

WAŻNE: Na klastrze obowiązują wyłącznie granty właściwe wynegocjowane w portalu Bazaar (nie ma grantów testowych).

Rozwiązania częstych problemów

W przypadku większości komunikatów, należy najpierw sprawdzić dostępne granty komendą 'plg-show-grants'.

sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)

Powyższy komunikat oznacza, że zasoby (w tym daty obowiązywania) w danym grancie się skończyły (ale pozostały jeszcze zadania działające w tym grancie) LUB grant osobisty nie jest aktywny.

srun: error: Unable to allocate resources: Invalid account or account/partition combination specified

Powyższy komunikat oznacza, że dany grant nie istnieje lub się skończył.