Google DeepMind je izdal Gemma 4 12B, ki predstavlja temeljni premik v tem, kako večmodalni modeli umetne inteligence obdelujejo vizualne informacije. Za razliko od tradicionalnih pristopov, ki se zanašajo na težke, vnaprej naučene vizualne enkoderje, Gemma 4 ta ozko grlo v celoti odpravlja—kar omogoča izjemno hitro delovanje brez povezave na potrošniški strojni opremi.
Ključna inovacija? Arhitektura brez enkoderjev, ki neposredno obdeluje surove slikovne pike skozi en sam sloj linearne projekcije, kar omogoča glavnemu jezikovnemu jedru, da samostojno opravlja vse vizualne in zvočne sklepanja.
Tradicionalni večmodalni modeli dodajajo vizualne enkoderje jezikovnim modelom. Gemma 4 odpravlja dodatek—neposredno obdeluje surove slikovne pike skozi isto transformersko arhitekturo, ki obdeluje besedilo.
Običajni sistemi večmodalne umetne inteligence sledijo znanim vzorcem: veliki jezikovni model (LLM) je povezan s posebnimi, specializiranimi enkoderji za različne modalnosti. Tipična postavitev lahko vključuje:
Ta pristop ustvarja več težav:
Gemma 4 12B ubira radikalno drugačno pot. Namesto uporabe težkovizualnega enkoderja obdeluje slike z izjemno preprosto mehanizmom:
Model razdeli vhodne slike na 48×48 slikovne pike. Vsaka pika nato gre skozi en sam sloj linearne projekcije, ki preoblikuje surove podatke slikovnih pik, da ustrezajo formatu žtonov besedila LLM. Ta projekcijski sloj vsebuje le 35 milijonov parametrov—v primerjavi z 550M+ v tradicionalnih vizualnih enkoderjih.
To je 16-kratna zmanjšanje števila parametrov samo za vizualno komponento.
Ko so projicirane, te "vizualni žtoni" tečejo skozi isto transformersko arhitekturo, ki obdeluje besedilo. Glavni 12B parametrični jezikovni jedro opravlja vse sklepanje—bodisi jezikovno, vizualno ali zvočno—neposredno znotraj svoje poenotene arhitekture.
| Komponenta | Tradicionalno | Gemma 4 |
|---|---|---|
| Vizualna obdelava | 550M+ parametrov | 35M parametrov |
| Stopnje obdelave | Enkoder → Projekcija → LLM | Projekcija → LLM |
| Združevanje modalnosti | Pozno/Eksplicitno | Naravno/Implicitno |
| Izvajljivost na napravi | Omejena | Odlična |
Posledice te arhitekture segajo daleč onkraj akademskega zanimanja. Z odpravo ozkega grla vizualnega enkoderja Gemma 4 12B doseže nekaj izjemnega: pravo zmogljivost večmodalne umetne inteligence na napravi.
Zgodnje primerjave in demonstracije kažejo, da Gemma 4 12B izvaja večmodalne naloge pri hitrostih, za katere se je prej štello, da so nemogoče za robno namestitev:
Izboljšave učinkovitosti se prenašajo skozi celotno cevovod sklepanja:
V pristopu Gemme 4 je nekaj globoko elegantnega. S tem ko obravnava vizualne informacije kot le še eno zaporedje žtonov—po minimalnem koraku projekcije—arhitektura sprejema temeljno moč transformatorja: mekanizmi pozornosti enako dobro delujejo na katerem koli žtoniziranem vhodu.
Sloj linearne projekcije v bistvu pravi: "Ne predobdeluj slike. Samo preoblikuj jo, da jo transformator lahko razume." To je nasprotje tradicionalnega pristopa, ki pravi: "Izvleci visokonivojske značilnosti iz slike s specializiranim omrežjem, nato pa te značilnosti podaj jezikovnemu modelu."
Gemma 4 razširja isto filozofijo tudi na zvok. Surovi zvočni valovi ali spektrogrami so podobno projicirani v prostor žtonov, kar omogoča istemu poenotenemu jedru, da obvlada prepoznavanje govora, razumevanje zvoka in medmodalno sklepanje brez posebnih govornih enkoderjev.
Ta arhitekturni premik ima več pomembnih posledic:
Z omogočanjem večmodalne umetne inteligence na napravi Gemma 4 znižuje vstopno oviro. Aplikacije, ki so prej zahtevale infrastrukturo v oblaku, zdaj lahko tečejo povsem na uporabniških napravah—kar izboljšuje zasebnost, zmanjšuje zakasnitev in odpravlja odvisnost od omrežja.
Učenje poenotenega modela je samo po sebi preprostejše kot učenje in usklajevanje ločenih enkoderjev. Ekipa Gemme se lahko osredotoči na skaliranje in izboljševanje ene same arhitekture, namesto da upravlja kompleksnost več predhodno naučenih komponent.
Ko vizija in jezik delita iste sloje obdelave od najzgodnejših stopenj, se model lahko razvije bogatejše medmodalne predstavitve. Ni "prevajalskega sloja" med modalnostmi—so resnično integrirane.
Pričakujemo, da bodo drugi razvijalci modelov sledili temu vzorcu. Pristop "brez enkoderjev" lahko postane privzeti za nove večmodalne arhitekture, podobno kot je prvotna transformerska arhitektura postala temelj modernega NLP.
Nobena arhitektura ni popolna. Nekateri premisleki za Gemma 4 12B:
Gemma 4 12B predstavlja več kot postopno izboljšavo—gre za paradigmatski premik v arhitekturi večmodalne umetne inteligence. Z odpravo vizualnih enkoderjev in neposredno obdelavo surovih slikovnih pik skozi linearno projekcijo je Google DeepMind ustvaril model, ki dosega izjemno zmogljivost tam, kjer je najpomembneje: na napravah, ki jih ljudje dejansko uporabljajo.
Za razvijalce to pomeni gradnjo večmodalnih aplikacij brez odvisnosti od oblaka. Za uporabnike to pomeni umetno inteligenco, ki se odzove takoj, hkrati pa ohrani njihove podatke zasebne. Za industrijo je to načrt za naslednjo generacijo učinkovitih, sposobnih sistemov umetne inteligence.
Brezenkoderska prihodnost je tu. In izjemno hitro teče.
Pomagamo organizacijam pri navigaciji po kompleksnih izzivih arhitekture in namestitve umetne inteligence. Pogovorimo se.
Stopite v stik