← Zpět na komunitu
Vývoj AI

EMO model: Nový přístup k modularitě v AI

Allen Institute představil EMO, nový model typu Mixture-of-Experts, který od základu podporuje emergentní modularitu.

EMO model: Nový přístup k modularitě v AI

Vývoj velkých jazykových modelů (LLM) v posledních letech zaznamenal významný pokrok, zejména v oblasti architektury Mixture-of-Experts (MoE). Tyto modely dosahují vysokého výkonu díky kombinaci mnoha menších „expertů“, z nichž každý se specializuje na určitý typ vstupních dat nebo úkolů. Tradiční přístupy k MoE však často vyžadují explicitní nastavení a řízení těchto specializací, což může být komplexní a náročné.

Nová práce z Allen Institute, prezentovaná na Hugging Face Blogu, přináší zásadní inovaci v této oblasti. Model nazvaný EMO (který stojí na principu „pretraining mixture of experts for emergent modularity“) mění klasický recept MoE tím, že umožňuje expertům během pretrainingu samovolně tvořit specializace na konkrétní úkoly a datové domény. Tento přístup je označován jako „emergentní modularita“.

Princip emergentní modularity

Hlavní myšlenkou EMO je, že architektonické a tréninkové mechanismy modelu jsou navrženy tak, aby podporovaly přirozenou dekompozici úkolů a datových vzorců mezi jednotlivé experty. Namísto toho, aby byli experti explicitně přiřazeni k určitým funkcím nebo datovým typům, model se učí tyto specializace vytvářet sám během procesu učení. To znamená, že model může objevit a využít specializace, které by pro lidského návrháře nemusely být zřejmé.

Výsledky prezentované v blogovém příspěvku ukazují, že tento přístup přináší měřitelné benefity. EMO, i když je trénován od základu s důrazem na tuto emergentní modularitu, dokáže dosáhnout výkonu srovnatelného s klasickým, stejně velkým „dense“ modelem (tedy modelem bez MoE architektury), avšak s výrazně nižšími výpočetními náklady během inference. Jinými slovy, pro získání stejného výsledku potřebuje EMO podstatně méně výpočetního výkonu při spouštění.

Dostupnost a reprodukovatelnost

Allen Institute klade velký důraz na transparentnost a podporu open-source komunity. Kód i předtrénované váhy (checkpoints) modelu EMO jsou veřejně dostupné na platformě Hugging Face. Kromě toho AllenAI uvolňuje i detaily o tréninkových bězích, což umožňuje dalším výzkumníkům a vývojářům reprodukovat výsledky a dále na modelu stavět.

Tato otevřenost je klíčová pro další rozvoj AI technologií. Umožňuje firmám experimentovat s pokročilými modely bez nutnosti masivních investic do vlastního vývoje od nuly a zároveň podporuje rychlejší inovace v celém ekosystému.

Co to znamená pro vaši firmu

Zdroj Hugging Face Blog →