← Zpět na komunitu
Vývoj AI

Cerebras spustil bilionový model Kimi K2.6 sedmkrát rychleji než GPU cloudy

Cerebras dosáhl bezprecedentní rychlosti v běhu bilionového AI modelu Kimi K2.6, výrazně překonávající výkon běžných GPU cloudů.

Cerebras spustil bilionový model Kimi K2.6 sedmkrát rychleji než GPU cloudy

Společnost Cerebras Systems oznámila významný pokrok v oblasti hardwaru pro umělou inteligenci, když úspěšně spustila čínský open-weight model Kimi K2.6 s bilionem parametrů. Tento model běžel na jejich wafer-scale architektuře s rychlostí 981 tokenů za sekundu, což je výkon, který byl nezávisle ověřen firmou Artificial Analysis. Dle dostupných informací žádný z poskytovatelů GPU cloudu se k tomuto výkonu zatím nepřiblížil, což staví Cerebras do pozice významného hráče v segmentu inference.

Tato novinka přichází v době, kdy se trh s AI hardwarem dynamicky vyvíjí a hledá efektivnější řešení pro rostoucí nároky velkých jazykových modelů. Výkon Cerebrasu je obzvláště relevantní, neboť přímo útočí na trh inference, který je v současnosti do značné míry dominován architekturami jako je NVIDIA Blackwell. Potenciál wafer-scale architektury, která se liší od tradičních multi-GPU řešení, se tak ukazuje jako konkurenceschopná i pro ty největší a nejnáročnější AI modely. Týden po největším tech IPO roku 2026 je to jasný signál, že alternativní hardwarové přístupy získávají na síle.

Nová generace inference hardwaru

Inference, tedy aplikace již natrénovaných AI modelů, představuje pro podniky stále rostoucí nákladovou položku a technologickou výzvu. S nárůstem komplexnosti a velikosti modelů, jako je Kimi K2.6, se požadavky na výpočetní výkon stávají extrémními. Výkon dosažený společností Cerebras naznačuje, že nová generace inference hardwaru by mohla přinést zásadní změny. Rychlejší zpracování tokenů znamená nejen efektivnější provoz, ale také reálnou možnost nasazení složitějších AI agentů a systémů v produkčním prostředí s nižší latencí a potenciálně i nižšími provozními náklady. Tato efektivita může být klíčová pro firmy, které chtějí plně využít potenciál generativní AI a automatizace.

Technologie wafer-scale architektury, na které Cerebras staví, integruje obrovské množství výpočetních jader na jediném čipu, což eliminuje úzká hrdla spojená s komunikací mezi více samostatnými GPU jednotkami. Tento přístup umožňuje efektivnější využití výpočetního výkonu a datové propustnosti, což se projevuje v dosahovaných rychlostech. Pro organizace, které se potýkají s vysokými náklady a omezenou dostupností špičkového AI hardwaru, představuje tento vývoj nadějnou alternativu k současným řešením. Dle VentureBeat AI by se tak mohla urychlit adopce AI v oblastech, kde byla dříve omezena právě technickými a finančními bariérami.

Co to znamená pro vaši firmu

Zdroj VentureBeat AI →