Akcelerátory pro provoz umělé inteligence

Aktualizováno 12. června 2026 • Autor: Michal Rybka

Před dvěma lety jsme v tomto článku popisovali technologie, které teprve přicházely: neuroakcelerátory v procesorech notebooků a telefonů, specializované inference karty s přívětivou spotřebou, výkon v okraji sítě dostupný bez pronájmu datového centra. Mezitím se vizualizace proměnily v produkty. Každý nový procesor od Applu, Intelu, AMD i Qualcommu dnes nese vlastní neuroakcelerátor a na pracovním stole kanceláře může stát kompaktní počítač schopný spouštět modely se sto miliardami parametrů při spotřebě odpovídající výkonnějšímu stolnímu počítači.

Umělá inteligence — ^{Ilustrativní fotografie, zdroj: Midjourney}

Neuroakcelerátory jsou teď v každém zařízení
Nová třída výkonných inferenčních akcelerátorů
Kvantizace: proč větší modely vejdou do menší paměti
Od okraje sítě k vlastní infrastruktuře

Seriál AI přichází: seznam článků

Neuroakcelerátory jsou teď v každém zařízení

V původním článku jsme psali, že pro základní provoz AI modelů v dohledné době postačí tenzorové a neuroakcelerátorové jednotky integrované přímo v procesorech. Dnes to platí bez výhrad. Apple M4 nese 16jádrový Neural Engine s výkonem 38 TOPS (bilionů operací za sekundu), Intel Core Ultra 200V přinesl NPU s 48 TOPS, AMD Ryzen AI 300 překonal hranici 50 TOPS s architekturou XDNA 2 a Qualcomm Snapdragon X Elite nabídl 45 TOPS ve svém Hexagon NPU. Zkratka NPU se z technického žargonu stala parametrem, který výrobci uvádějí vedle taktu procesoru a kapacity baterie.

V praxi to znamená, že modely v rozsahu 7 až 14 miliard parametrů — třída, která ještě nedávno vyžadovala cloudový přístup — dnes bez problémů poběží přímo na noteboocích nebo telefonech. Flagmany jako Apple iPhone 16 Pro (čip A18 Pro) nebo Android zařízení se Snapdragonem 8 Elite pohánějí vícejazyčné asistenty, generují obrázky a přepisují záznamy lokálně. Předpověď o 16 GB RAM jako minimálním standardu se splnila: MacBook Pro, Copilot+ PC se Snapdragonem i Windows zařízení s AMD ji přijaly za svou.

Nová třída výkonných inferenčních akcelerátorů

Původní článek stavěl do centra pozornosti Qualcomm Cloud AI 100 Ultra — PCIe kartu s 870 TOPS výkonem, 128 GB vlastní paměti a spotřebou 150 wattů. Qualcomm tento produkt od té doby nasadil v serverech zákazníků i cloudových infrastrukturách a prokázal, že energeticky úsporná inference bez gravitace tradičních grafických karet je životaschopná. Ale to nejdramatičtější se odehrálo jinde.

NVIDIA přišla s architekturou Grace Blackwell, která propojuje CPU a GPU do jednoho celku sdílejícího velkou sjednocenou paměť. Nejnázorněji se to projevuje v NVIDIA DGX Spark — kompaktním počítači o rozměrech 15 × 15 × 5 cm a hmotnosti 1,2 kg, postaveném na čipu GB10 Grace Blackwell.

Za 240 wattů dostanete 20 CPU jader, 128 GB sjednocené paměti a výkon přesahující 1 petaFLOP ve čtyřbitové přesnosti. Zařízení zapojené do běžné zásuvky zvládá modely se 100 a více miliardami parametrů — výkon, který dříve vyžadoval rack GPU karet s příkonem v kilowattech.

DGX Spark a RTX Spark: dva různé produkty

DGX Spark je hotový osobní AI superpočítač na čipu GB10 Grace Blackwell — zařízení, které si firma koupí a postaví na stůl nebo do serverovny. RTX Spark je platforma NVIDIA pro notebooky a malé desktopy s Windows; první zařízení od Microsoftu, ASUS, Dell, HP, Lenovo a MSI přijdou na podzim 2026.

V datacenterovém pásmu se jako standard prosadily NVIDIA H100 a H200, které dnes provozuje prakticky každý velký cloudový poskytovatel. AMD přišlo s MI300X se 192 GB HBM3 paměti jako alternativou pro velké modely, kde rozhoduje paměťový objem více než čistý výpočetní výkon.

Kvantizace: proč větší modely vejdou do menší paměti

Paralelně s vývojem hardwaru proběhla tichá revoluce v softwaru. Technikou zvanou kvantizace — přejít ze šestnáctibitové reprezentace vah modelu na čtyřbitovou — se podařilo dramaticky snížit paměťové nároky při zachování přijatelné kvality výstupu.

Kolik paměti model skutečně potřebuje?

Model s 32 miliardami parametrů vyžaduje ve standardní přesnosti FP16 přibližně 64 GB paměti. Ve čtyřbitové kvantizaci (Q4) klesnou jeho nároky zhruba na 20 GB. Model se 70 miliardami parametrů, který by jinak potřeboval 140 GB, se vejde přibližně do 40 GB.

Díky tomu DGX Spark se svými 128 GB sjednocené paměti v Q4 obslouží modely se 100 miliardami parametrů — kapacita, která dříve vyžadovala server se specializovanými kartami a patřičným zázemím.

Kvantizace s sebou nese kompromisy: model ve čtyřbitové přesnosti může při detailní právní analýze nebo práci s číselnými nuancemi pracovat méně přesně. Pro interní chatboty, vyhledávání v dokumentech nebo zákaznické asistenty je ale rozdíl v praxi minimální. Frontier schopnosti sestupují rychle po žebříku zařízení.

Od okraje sítě k vlastní infrastruktuře

Výkonnostní skok nezůstal jen technologickým faktem — stal se i obchodním argumentem. Firma, která dříve musela zvažovat pronájem cloudového výkonu, dnes může za srovnatelnou jednorázovou investici spustit vlastní inferenční server v kanceláři.

Přidala se ale vrstva argumentů, která v roce 2024 nebyla zdaleka tak viditelná. Špičková cloudová AI inference je soustředěna v rukou několika amerických poskytovatelů a stala se předmětem zájmu vlád. V červnu 2026 jsme byli svědky toho, jak přední AI laboratoř musela ze dne na den reagovat na vládní exportní směrnici — a výpadek se dotkl i platících zákazníků, kteří sami nebyli stranou žádného sporu.

Inference hardware provozovaný pod vlastní střechou takový scénář proměňuje z provozní krize na dílčí nepříjemnost: model, který běží na vašem serveru, nepřestane fungovat kvůli rozhodnutí v jiné jurisdikci. Odolnost vůči tomuto druhu přerušení je přitom příjemný bonus k primárnímu ekonomickému argumentu — nevzniká žádný dodatečný náklad, protože se o ní rozhodnete ze stejných důvodů jako o samotné infrastruktuře.

Co je inference a jak se liší od tréninku?

Trénink AI modelu — fáze, kdy se model učí z dat — vyžaduje extrémní výkon a probíhá v datových centrech s tisíci GPU. Inference je spouštění hotového natrénovaného modelu: zadáte dotaz, model vrátí odpověď. Inference je radikálně méně náročná, a právě proto dnes probíhá i na noteboocích, telefonech nebo kancelářských serverech. Akcelerátory popisované v tomto článku jsou akcelerátory pro inferenci — ne pro trénink.

Co je kvantizace a kdy ji použít?

Kvantizace snižuje přesnost, s níž jsou uloženy váhy modelu — například ze šestnáctibitových čísel na čtyřbitová. Tím se dramaticky snižuje potřebná paměť a zvyšuje rychlost generování. Pro interní asistenty, vyhledávání v dokumentech nebo zákaznický chatbot je čtyřbitová kvantizace (Q4) obvykle dobrý kompromis. U výstupů s právní nebo finanční odpovědností se doporučuje ověřit kvalitu na konkrétních vzorcích — zjednodušení číselných detailů se v laboratorním testu ne vždy projeví.

Jaký je rozdíl mezi DGX Spark a RTX Spark?

DGX Spark je hotový osobní AI superpočítač od NVIDIA — samostatné zařízení dostupné již nyní. RTX Spark je technologická platforma: čip a architektura, na jejichž základě budou výrobci jako Microsoft, ASUS, Dell nebo Lenovo stavět notebooky a malé desktopy s Windows. První RTX Spark zařízení jsou plánovaná na podzim 2026.

Mohlo by vás zajímat

Akcelerátory pro AI inference prošly za dva roky transformací: z více méně speciálního serverového hardwaru se staly standardní součástí notebooků, telefonů i kancelářských počítačů. Nové architektury se sjednocenou pamětí a technika kvantizace umožnily, aby kompaktní zařízení zvládalo modely, pro které bylo dříve třeba pronajmout cloudový server. Otázka „kde AI inference běží" přestala být čistě technická a stala se strategicky důležitou — a hardware, který ji umožňuje provozovat pod vlastní střechou, je dnes dostupnější než kdykoli předtím.

AI servery Knihy o umělé inteligenci

AI akcelerátory

Michal Rybka

Michal Rybka je publicista a nadšenec s 20 lety zkušeností v IT a gamingu. Je kurátorem AlzaMuzea a YouTube kanálu AlzaTech. Napsal několik fantasy a sci-fi povídek, které vyšly v knižní podobě, a pravidelně pokrývá páteční obsah na internetovém magazínu PCTuning.