OpenMythos in stava na Recurrent-Depth Transformer: Zakaj morajo AI arhitekti biti pozorni

Nedavni članek 36Kr, ki je bil prvotno ponatisnjen iz QbitAI, je ojačal oblikovalsko idejo, ki bi jo AI arhitekti morali že zdaj natančno opazovati: morda naslednji koristni pridobitek skaliranja ne izhaja samo iz skladanja več edinstvenih plasti transformerjev, temveč iz večkratne zanke manjšega jedra transformerja s krmiljeno rekurentnostjo.

Ta članek je navdihnjen z angleškim prispevkom 36Kr ”22-Year-Old Reverse-Engineers and Open-Sources Mythos Architecture with MoE and Attention Mechanisms Inspired by DeepSeek”, ki ga tam pripisuje QbitAI. Opira se tudi na Prairie idr., Scaling Laws For Stable Looped Language Models, Kohli idr., Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers, in Kye Gomezov repozitorij OpenMythos na GitHubu. Spodnja analiza je izvirna.

OpenMythos, Kye Gomezova odprta implementacija v PyTorch, to arhitekturno hipotezo pretvori v nekaj dovolj konkretnega za testiranje. Izrecno je okvirjen kot neodvisna, špekulativna rekonstrukcija in ne trditev o katerem koli lastniškem sistemu Anthropic. Ta pridržek je pomemben. Toda repozitorij je še vedno dragocen, ker premakne pogovor od govorice k preglednem inženiringu.

Zankajte k plasti transformerjev L-krat namesto skladanja kL. Enaka dejanska globina, delček parametrov. OpenMythos je odprta PyTorch implementacija te hipoteze Recurrent Depth Transformer. Parcae (Prairie idr.) kaže, da zankan model z 1,3 milijarde parametrov doseže 87,5 % kakovosti standardnega transformerja dvakrat njegove velikosti. Usmerjanje MoE in Multi-Latent Attention delujeta znotraj zanke. Povezava Claude Mythos je špekulativna, toda repozitorij vam omogoča, da jo testirate namesto razpravljate.

Ta povzetek zajame navdušenje, toda globlja tehnična zgodba je bolj zanimiva od mitologije okrog tega imena. Resnično vprašanje je, ali postajajo recurrent-depth transformerji resna arhitekturna možnost za sisteme sklepanja, prilagodljive računanju.

Zakaj je to zdaj pomembno

Mainstream vzorec skaliranja zadnjih let je bil znan: povečati parametre, povečati podatke, povečati učne FLOPs. Ta pristop deluje, a hkrati povečuje pomnilniški odtis, kompleksnost učenja in strošek strežbe.

Zančne arhitekture ponujajo drugačen kompromis. Namesto povečevanja globine z dodajanjem več edinstvenih plasti povečujejo dejansko globino z večkratno uporabo manjšega bloka skozi več iteracij. Število parametrov ostane bližje manjšemu bloku, medtem ko se računanje skalira s številom iteracij zanke.

Za AI arhitekte je to pomembno, ker začne ločevati dve stvari, ki ju konvencionalni transformerji navadno pretirano tesno vežejo skupaj: pomnilniški odtis in globino sklepanja.

Kaj OpenMythos dejansko implementira

OpenMythos ni le »ista plast, ki se ponavlja«. Na podlagi javnih implementacijskih opomb združuje več idej v en sklop:

  • blok Prelude, ki enkrat obdela vhod
  • rekurentni blok, ki se večkrat zanka
  • blok Coda, ki enkrat obdela končno skrito stanje
  • redko usmerjanje Mixture-of-Experts znotraj rekurentnega bloka
  • zamenljive variante pozornosti, vključno z MLA in GQA
  • eksplicitni nadzor nad številom zank med sklepanjem

To je pomembno, ker rekurentnost sama po sebi ni celotna hipoteza. Arhitektura kombinira deljenje uteži po globini, pogojno računanje prek MoE in latentno iterativno izpopolnjevanje znotraj istega skeleta modela.

Arhitektura v bolj razumljivem tehničnem jeziku

Standardni transformer se obnaša kot dolg cevovod. Žetoni vstopijo, preidejo skozi mnoge različne parametrizirane plasti in nato ustvarijo logite.

Recurrent-depth transformer to pretvori v krmiljeno zanko. Model kodira vhod, zažene deljeni blok nad skritim stanjem, posodobljeno skrito stanje vrne nazaj v isti blok, ta postopek nekajkrat ponovi in šele nato ustvari izhod. Ideja je izpopolniti isti latentni prikaz skozi več prehodov namesto dodeliti različno parametrizirano plast za vsako fazo računanja.

Zato ljudje to opisujejo kot »več razmišljanja brez več parametrov«. To ni čarovnija, je pa smiselni oblikovalski premik.

Zakaj je prispevek Parcae pomemben

Prairie idr. v Scaling Laws For Stable Looped Language Models obravnavajo zgodovinsko šibkost zančnih modelov: nestabilnost. Če se skrita stanja večkrat vnesejo skozi isti blok brez trdnega nadzora, se rezidualna dinamika lahko poruši in učenje divergira.

Pomemben prispevek Parcae ni le to, da se zanka. Zanko naredi bolj stabilno z omejevanjem rekurentne dinamike, z obravnavo postopka posodabljanja kot dinamičnega sistema in z nadzorom spektralnega vedenja parametrov vbrizgavanja.

To je pomembno, ker brez stabilnosti recurrent-depth transformerji ostanejo akademske radovednosti. S stabilnostjo postanejo nekaj, kar arhitekti lahko resno primerjajo in potencialno uvajajo.

Empirični naslov je vredno navesti previdno. Parcae poroča, da zankan model z 1,3 milijarde parametrov v preučevanem okolju doseže do 87,5 odstotkov kakovosti konvencionalnega transformerja, ki je približno dvakrat večji. To ni enaka kakovost pri polovici parametrov, a je vseeno presenetljiv rezultat učinkovitosti.

Zakaj je prispevek o implicitnem sklepanju pomemben

Kohli idr. v Loop, Think, & Generalize pritiskajo na drugačno vprašanje. Ali rekurentnost spremeni vedenje sklepanja, ne le učinkovitost parametrov?

Odgovor se zdi pritrdilen. Prispevek preučuje sistematično posploševanje in ekstrapolacijo globine, dve področji, na katerih navadni transformerji pogosto niso uspešni. Recurrent-depth transformerji delujejo bolje, zlasti ko jim je dana večja rekurentnost med sklepanjem.

To kaže, da zanka ni le trik za kompresijo. Morda je tudi boljši računalniški substrat za sestavljanje znanih dejstev in pravil v nove večstopenjske verige sklepanja.

Zakaj latentno zankanje ni enako veriga misli

Ta točka se zlahka zabriše, a je pomembna. Veriga misli eksternalizira sklepanje v žetone. Model vmesne korake zapiše v okno konteksta, kar poveča število žetonov in naredi sled sklepanja vidno.

Recurrent-depth transformer opravi dodatno delo znotraj skritega stanja. Lahko interno iterira in odgovor odda šele po več latentnih prehodih izpopolnjevanja. To pomeni globlje notranje računanje brez zahteve, da model serializira vsak korak v besedilo.

Za sistemske načrtovalce to ustvarja potencialno privlačno pot do skaliranja računanja med testom z manj žetonskim stroškom.

Kje MoE in MLA ustrezata zasnovi

OpenMythos postane bolj zanimiv, ker rekurentni blok ni čisto gost in enoten.

MoE znotraj zanke: Redko usmerjanje pomeni, da vsaka zanka ne sme aktivirati iste notranje poti. Tudi če je zunanji blok deljen po utežeh, se aktivna množica strokovnjakov lahko razlikuje med iteracijami. To daje sistemu verjetno mešanico iterativne globine in pogojne specializacije.

MLA znotraj zanke: Če model zažene pozornost večkrat znotraj istega naprej potujočega procesa, postane učinkovita pozornost še bolj pomembna. Kateri koli mehanizem pozornosti, ki zmanjša pritisk KV ali izboljša učinkovitost računanja, se kopiči skozi iteracije zanke.

Zato bi morali to arhitekturo obravnavati kot sistemski sklop, ne le trik rekurentnosti.

Natančnejši način izjave argumenta o parametrih

Hype fraza je navadno nekako »enaka globina, pol parametrov«. To je memorabilno, a preveliko poenostavljanje.

Boljša tehnična izjava je: recurrent-depth transformerji lahko aproksimirajo večjo dejansko globino z manj edinstvenimi parametri, toda kakovost je odvisna od recepture učenja, stabilnosti rekurentnosti, zasnove usmerjanja, proračuna podatkov in strategije zanke med sklepanjem. Dosedanji dokazi podpirajo močne pridobitke učinkovitosti, ne pa univerzalnega izreka, da zankanje dominira nad standardnimi transformerji v vsakem režimu.

Kaj bi morali AI arhitekti naslednje preučiti

  1. Resnični kompromisi računanja: Število parametrov se lahko zmanjša, a aktivni FLOPs na žeton se lahko povečajo z več iteracijami zanke.
  2. Stabilnost učenja v velikem obsegu: Teoretični mehanizmi stabilnosti še vedno potrebujejo validacijo pod pogoji porazdeljenega učenja v velikem obsegu.
  3. Razporejanje sklepanja: Fiksna globina zanke je preprosta, toda adaptivna rekurentnost je verjetno tam, kjer se bodo pojavili največji praktični pridobitki.
  4. Vedenje usmerjanja skozi iteracije: Če se strokovnjaki razlikujejo po koraku zanke, se blok morda obnaša bolj kot stopenjski računalniški graf kot čisto ponavljanje.
  5. Pragi prerazmišljanja: Več rekurentnosti ni vedno bolje. Prednosti ekstrapolacije globine prihajajo z načinom napake prerazmišljanja, če so zanke potisnjene predaleč.

Moje stališče o povezavi Mythos

Povezava Mythos je zanimiva, a še vedno špekulativna. To je v redu. Resnična vrednost OpenMythos ni, da dokazuje govorico. Vrednost je, da pakira resni arhitekturni razred v pregledljivo implementacijo PyTorch, ki jo inženirji lahko neposredno testirajo.

To premakne pogovor od mitologije k inženiringu, kjer mu je pravo mesto.

Zaključek

Najpomembnejša stvar o OpenMythos ni blagovna znamka. Je, da naredi smiselno arhitekturno vprašanje konkretno.

Ali lahko dobimo bolj koristno globino sklepanja z zankanjem manjšega jedra transformerja, stabilizacijo rekurentnosti in kombiniranjem tega z redkim usmerjanjem in učinkovito pozornostjo?

Odgovor ni povsem rešen. Toda med rezultati stabilnosti in skaliranja Parcae, ugotovitvami implicitnega sklepanja Kohlija idr. in odprto implementacijo, ki jo je mogoče dejansko profilirati, so recurrent-depth transformerji zapustili kategorijo perifernih idej.

Za AI arhitekte je to že dovolj razloga za pozornost.

Delite ta članek
Previous Post Next Post

Sorodne objave

Article

Drift AI: Tacitni rizik v kritičnih sistemih

Read →

Article

Štirje načini, kako AI agenti odpovedo pri visokih tveganjih

Read →

Article

Vaš AI agent deluje v razvoju. V produkciji postane drag.

Read →

Sorodne storitve

Service

EU AI Akt – Pripravljenost in implementacija

Izvedi več →

Service

Razvoj modelov AI po meri

Izvedi več →
Miloš Cigoj
Miloš Cigoj Ustanovitelj, Excellence Consulting  ·  Operativna odličnost in strategija AI

Vas zanima ta tema?

Pomagamo organizacijam pri krmarjenju skozi zahtevne regulatorne in tehnološke izzive. Pogovorimo se.

Stopite v stik