Memory Sparse Attention: Zakaj bi 100M žetonov spomina lahko spremenilo agentni AI

V generativnem AI trenutno obstaja čuden vzorec. Modeli so vse boljši pri sklepanju, boljši pri uporabi orodij in boljši pri produciranju uglajenih izhodov. Toda mnogi sistemi se še vedno obnašajo kot briljantni ljudje z zelo slabim spominom.

Za mene je to eno od resničnih ozkih grl za valovi agentov. Načrtovanje se izboljšuje. Orkestracija se izboljšuje. Ekosistemi orodij se izboljšujejo. Spomin je še vedno šibka točka.

Temelji na članku MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens. Analiza spodaj je moja lastna interpretacija, zakaj je to pomembno.

Novi članek o Memory Sparse Attention (MSA) je zanimiv ravno zato, ker dolgega spomina ne obravnava kot kozmetično nadgradnjo kontekstnega okna. Obravnava ga kot arhitekturni problem: kako ohraniti notranji spomin modela pri masivnem obsegu brez plačevanja normalnih kvadratičnih stroškov pozornosti in brez kolapsa natančnosti, ko kontekst raste?

Če ta linija dela vzdrži, naslednji skok v agentnem AI morda ne bo prišel od še enega majhnega izboljšanja pri merilih sklepanja, temveč od tega, da modeli dobijo spomin, ki se ne razpade, ko postane časovni horizont nalog dolg.

Zakaj je dolg spomin še vedno težek problem

Klasična pozornost transformatorjev je brutalno draga pri obsegu. Polna pozornost zagotavlja odlično kakovost, toda njeni stroški slabo rastejo z dolžino zaporedja. Zato v praksi celo zelo močni sistemi z dolgim kontekstom še vedno živijo v svetu, merjenem v sto tisočih ali morda milijon žetonov, ne pa v resničnih razponih življenjskega spomina.

Vsaka rešitev ima svojo ceno:

  • RAG in agenti z zunanjim spominom dobro razširijo shrambo, toda pridobivanje spomina je običajno ločeno od generiranja. To pomeni, da cilj pridobivanja in cilj sklepanja nista popolnoma usklajena.
  • Linearna pozornost in rekurentni modeli stanj se računalniško bolje razširijo, toda stiskajo zgodovino v omejene latentne stanje in pogosto izgubijo natančnost, ko se horizont razširi.
  • Spomin na osnovi parametrov lahko informacije globoko ponotranji, toda ni čist odgovor na dinamičen, posodobljiv, vseživljenjski spomin. Povzroča tudi katastrofalno pozabljanje.

MSA je prepričljiv, ker poskuša ohraniti najboljše dele latentnega stanja spomina, medtem ko se izogiba normalnim kapacitetnim padcem.

Kaj MSA dejansko spremeni

Na visoki ravni MSA nadomesti gosto pozornost nad celotno banko spomina z dokumentno osnovanim mehanizmom redke pozornosti, ki ostane diferencialen in nauljiv od konca do konca.

Ideja je bolj tehnična kot standardni cevovod pridobi-nato-beri. Model projicira skrita stanja v normalne ključe in vrednosti, hkrati pa uči usmerjevalne projekcije za izbor spomina. Dokumenti so razrezani na kose, nato stisnjeni s kosom povprečnega združevanja v usmerjevalne reprezentacije. Ob sklepanju poizvedba uporablja projekcijo usmerjevalnega poizvedovalnika za ocenjevanje ustreznih kosov in aktivacijo le redke podmnožice za pozornost.

To je pomembno iz dveh razlogov:

  1. Sistem ostane nauljiv od konca do konca. Izbor spomina ni ločen semantični iskalni aparat, priklopljen ob modelu.
  2. Strošek postane bistveno bližje linearnemu. Model ne plačuje večkrat stroškov goste pozornosti nad nepomembno zgodovino.

Arhitekturni detajli, ki se mi zdijo najpomembnejši

1. Redko pridobivanje znotraj sklada pozornosti

To je verjetno osrednja poteza. MSA ohranja spomin v latentnem prostoru modela namesto da bi celoten problem pretvorila v zunanjo besedilno pridobivanje. To pomeni, da se ustreznost nauči bližje lastni reprezentacijski geometriji modela, ne le prek ločene podobnosti vdelave.

Za agente je to zelo pomembna razlika. Zunanji spomin deluje, toda pogosto se obnaša kot iskalni sistem, priklopljen na sklepalnika. MSA poskuša narediti samega sklepalnika bolj nativnega za spomin.

2. RoPE na ravni dokumenta za ekstrapolacijo

Članek kombinira globalno in dokumentno ravni pozicijsko obravnavo. To je subtilno, toda pomembno. Eden od razlogov, zakaj ekstremna ekspanzija konteksta ne uspe, je, da ravnanje s pozicijo postane nestabilno daleč zunaj režima usposabljanja.

Mešana strategija RoPE podjetja MSA je zasnovana tako, da se model lahko usposablja na bistveno manjših oknih — v članku okoli 64k — in vseeno ekstrapolira na obsege spomina do 100M žetonov. To ni le priročni trik. Je to, kar naredi celotno zgodbo o usposabljanju ekonomsko realistično.

3. Stiskanje KV predpomnilnika plus Memory Parallel

Članek poroča o sklepanju s 100M žetoni na 2 × A800 GPU-jih s stiskanjem KV predpomnilnika v kombinaciji s strategijo sklepanja Memory Parallel. To je eden od naslovnih trditev in tudi eden od razlogov, zakaj članek priteguje pozornost.

Brez kakšne verodostojne sistemske zgodbe članki z ogromnim kontekstom pogosto ostanejo akademsko zanimivi, a operativno nepomembni. Tukaj avtorji vsaj poskušajo pokazati, da arhitektura spomina deluje pod verjetnimi omejitvami uvajanja in ne le v miselnem eksperimentu.

4. Prepletanje spomina za sklepanje z več koraki

Dolg spomin ni koristen, če model lahko obnavlja le izolirane dejstva. Resnično agentno delo pogosto zahteva povezovanje razpršenih dokazov prek mnogih dokumentov, sej ali stanj.

Predlagani mehanizem Memory Interleaving je namenjen ravno tukaj: sinhronizaciji in integraciji segmentov spomina, tako da model lahko izvaja sklepanje z več koraki prek oddaljenih delov konteksta. Če je ta mehanizem robusten, obravnava eno od klasičnih slabosti naivnih sistemov z dolgim kontekstom — in sicer, da samo pridobivanje ni dovolj.

Zakaj so rezultati meritev pomembni

Najmočnejša trditev v članku ni le, da MSA doseže 100M žetonov. Je, da degradacija kakovosti od 16K do 100M žetonov ostane pod 9 %. To je zelo agresivna trditev. Če vzdrži pod širšim nadzorom, je to velika stvar.

Avtorji prav tako poročajo, da MSA prehiti vrhunske LLM-je z dolgim kontekstom, močne osnove RAG in osnove agentov z zunanjim spominom pri dolgocontekstnem vprašanju in odgovoru ter vrednotenju v slogu iskanja igle v kupu sena.

Kar mi je všeč tukaj, je uokviritev. Ne trdijo magije. Trdijo nekaj bolj koristnega: kapaciteta spomina se lahko loči od stroškov sklepanja dovolj, da je spomin v vseživljenjskem obsegu tehnično izvedljiv.

Zakaj bi to lahko bilo posebej pomembno za agente

Večina agentov odpove na dolgočasne načine, preden odpove na dramatične načine. Izgubijo kontinuiteto nalog. Pozabijo, zakaj je bila sprejeta odločitev pred tremi koraki. Pridobijo napačno staro opombo. Povzamejo kaj, kar pozneje postane kritično. Zdrsnejo, ker je spomin plitek, razpršen ali preveč grobo zunanjiziran.

Če to plast dobro rešimo, postane več stvari bistveno bolj realističnih:

  • Dolgorazponsko delo brez stalnega ročnega povzemanja.
  • Personalizirani asistenti, ki ohranijo stabilen kontekst uporabnika brez neskončnega polnjenja pozivov.
  • Digitalni dvojčki in simulacijski sistemi, ki lahko ohranijo zgodovinsko stanje namesto da ga vsakič znova reconstituirajo iz lossy cevovoda pridobivanja.
  • Agenti za podjetniško znanje, ki sklepajo prek let strukturiranega in nestrukturiranega operativnega spomina z nižjimi stroški orkestracije.

Zato menim, da si raziskave spomina zaslužijo več spoštovanja, kot jih dejansko dobijo v mainstream razpravi o AI. Všeč so mi demos sklepanja. Razumem. Toda v produkciji je trajni spomin pogosto manj bleščeča omejitev, ki odloča o tem, ali sistem ostane koristen po tretjem dnevu.

Na kaj bi še pozorno pazil

Tega še ne bi pretiravali. Je še vedno članek, ne zrel industrijski standard. In zgodba o merilih, čeprav je močna, je še vedno večinoma osredotočena na dolgocontekstno vprašanje in odgovor, robustnost pridobivanja in sintetične stresne teste spomina.

Ostajajo odprta vprašanja:

  • Kako se MSA obnaša pod neurejenim, neprekinjeno posodabljivim podjetniškim spominom namesto z urejenimi merili?
  • Kakšne so politike pisanja, prepisovanja in higiene spomina za resnične agente, ki se stalno kopičijo?
  • Koliko operativne kompleksnosti se pojavi, ko je to integrirano v produkcijske servirne sklope?
  • Ali zgodba o kakovosti ostane močna, ko naloge vključujejo načrtovanje, uporabo orodij in posledice dejanj, ne le pridobivanje odgovorov?

Kljub temu pa so to prava naslednja vprašanja. So bistveno boljša vprašanja od tistih, ali je dolg spomin sploh pomemben. Jasno je, da je.

Moje stališče

Menim, da ta članek kaže v zelo resno smer. Področje AI je porabilo veliko energije za to, da modeli v trenutku razmišljajo trše. To je pomembno. Toda splošno namenska agenti morajo tudi zapomniti skozi čas brez pretvarjanja vsakega delovnega toka v neroden trik pridobivanja.

MSA je zanimiv, ker nakazuje pot, kjer spomin ni le večji medpomnilnik. Postane razširljiva, naučljiva arhitekturna plast z dovolj stabilnostjo natančnosti, da ostane koristna pri skrajnih horizontih.

Če se ta trajektorija nadaljuje, potem da: ko bomo smiselno rešili problem spomina, bodo agenti in generativni AI nasploh morda naredili naslednji velik skok. Ne zato, ker spomin sam ustvarja inteligenco, temveč ker šibek spomin tiho ozko grli skoraj vsako obliko trajne inteligence, ki jo želimo od teh sistemov.

Zaključna opomba

Rad bi povedal tudi nekaj preprostega, kar tehnično pisanje pogosto pozabi povedati: to je težko delo in je pomembno. Raziskovalci, ki delajo na razširljivem spominu, učinkoviti pozornosti, natančnosti pridobivanja in dolgorazponskem sklepanju, delajo na enem od strukturno najpomembnejših problemov v AI.

Zaslužijo si zahvalo za to.

Prejšnja objavaNaslednja objava

Sorodne objave

Article

Drift AI: Tacitni rizik v kritičnih sistemih

Read →

Article

Štirje načini, kako AI agenti odpovedo pri visokih tveganjih

Read →

Article

Vaš AI agent deluje v razvoju. V produkciji postane drag.

Read →

Sorodne storitve

Service

EU AI Akt – Pripravljenost in implementacija

Izvedi več →

Service

Razvoj modelov AI po meri

Izvedi več →
Miloš Cigoj
Miloš Cigoj Ustanovitelj, Excellence Consulting  ·  Operativna odličnost in strategija AI

Vas zanima ta tema?

Pomagamo organizacijam pri krmarjenju skozi zahtevne regulatorne in tehnološke izzive. Pogovorimo se.

Stopite v stik