Vědecká a výzkumná pracoviště z České republiky, která využívají národní e-infrastrukturu pro vědu a výzkum e-INFRA CZ, mají nově k dispozici nejpokročilejší systém současnosti pro výpočty na poli umělé inteligence NVIDIA DGX H100. Byl instalován v centru CERIT-SC na Masarykově univerzitě v Brně a odborné týmy se do něj budou připojovat prostřednictvím MetaCentra, provozovaného sdružením CESNET. Tato spolupráce výrazně posílí prostředí pro inovativní výzkum a vývoj ve sféře umělé inteligence (AI) a urychlí pokrok v oblastech, jakými jsou strojové učení, analýza velkých dat anebo vývoj AI aplikací.
Kromě toho mohou uživatelé MetaCentra začít využívat dva zcela nové výpočetní clustery (propojení řady počítačů pomocí rychlé sítě). První CESNET zprovoznil v Ústavu molekulární genetiky Akademie věd ČR v Praze-Krči pod názvem TURIN a druhý v Ústavu výpočetní techniky Masarykovy univerzity v Brně pod jménem TYRA.
Systém NVIDIA DGX H100 byl pořízen za 11 milionů korun, pořizovací náklady na clustery TURIN a TYRA přesáhly 20 milionů korun. Obě investice byly spolufinancovány z evropských prostředků.
Systém NVIDIA DGX H100
Řešení NVIDIA DGX H100 nasazené v brněnském CERIT-SC je nejvýkonnějším systémem NVIDIA DGX v naší zemi a prvním zařízením tohoto typu v Evropě. Přináší extrémní výpočetní sílu a inovativní možnosti pro výzkum. Architektura systému umožňuje zpracování obrovských datových objemů a výrazně urychluje výpočetní úlohy. Díky vysoce výkonným paměťovým subsystémům v grafických akcelerátorech poskytuje rychlý přístup k datům a optimalizuje výkon při práci s velkými datovými sadami.
Jednou z výjimečných vlastností NVIDIA DGX H100 je jeho schopnost paralelního zpracování dat, které umožňuje rychlý vývoj a trénování složitých AI modelů.
„Uživatelé tak mohou dosáhnout bezkonkurenční efektivity a odezvy ve svých úlohách spadajících do světa umělé inteligence. Řešení je vybaveno nejnovějšími grafickými procesory NVIDIA H100, které poskytují až desetkrát větší výkon než procesory předchozí generace Ampere A100,“ říká profesor Luděk Matyska, ředitel centra CERIT-SC.
Systém najde uplatnění v mnoha oblastech, například při analýze mluveného slova, při 3D rekonstrukcích obrazu, ale třeba i při odhalování neurodegenerativních onemocnění.
Konfigurace systému NVIDIA DGX H100
• 8 GPU H100 80GB SXM5
• 135 168 CUDA jader
• 640 GB GPU paměti
• 2 TB RAM paměti
• 3,84 TB NVMe pro OS
• 30 TB NVMe pro data
Clustery TURIN a TYRA
Pro dva nové clustery, které zprovoznilo sdružení CESNET, našli vědci jména v elfském jazyce. Pražský cluster TURIN má 52 uzlů, z nichž každý disponuje 64 jádry CPU a 512 GB RAM. Jeho brněnský kolega TYRA je tvořen 44 uzly a jinak má totožnou technickou specifikaci.
„Více než 6 tisíc nových CPU jader vhodným způsobem doplňuje grafické akcelerátory a přispívá k široké nabídce výpočetní kapacity, která uspokojí různorodé potřeby výzkumných týmů. Přímé připojení na národní 100Gb síť a umístění clusterů blíže výzkumným týmům výrazně posiluje naše kapacity pro zpracování dat vyprodukovaných v těchto organizacích,“ říká Miroslav Ruda, vedoucí Oddělení distribuovaných výpočtů ve sdružení CESNET.
Oba clustery jsou osazeny procesory AMD společně s technologií AMD 3D V-Cache. Jde o nejvýkonnější serverové procesory určené pro technické výpočty. Jsou navrženy tak, aby urychlily proces vývoje produktů a zvýšily produktivitu. Systém umožňuje 200krát větší hustotu propojení ve srovnání se současnými 2D technologiemi a více než patnáctkrát větší hustotu propojení ve srovnání s jinými 3D technologiemi využívajícími takzvané pájecí výstupy.
Řešení je vhodné například pro virtualizaci, do hybridního cloudu anebo do softwarově definované infrastruktury.
Konfigurace clusterů TURIN a TYRA
• celkem 6144 jader CPU
• celkem 96 uzlů, každý má 64x AMD EPYC 7543@2.80GHz, 512 GB RAM, 7TiB NVME scratch filesystem
• 10Gb uplink do páteřní sítě CESNET
• integrace do e-infrastruktury CESNET umožňuje bezprostřední přístup k dalším službám, příkladem je přímé napojení na datová úložiště CESNET