V zadnjih nekaj letih je bila privzeta arhitektura za »AI nad dokumenti« skoraj samoumevna: razdelite korpus na delčke, ustvarite vdelava, shranite vektorje, pridobite najboljše ujemanje po metodi top-k, nato pa prosite model, da odgovori iz pridobljenega konteksta.
Ta vzorec je koristen. Postaja pa preozek za nekatere agentne delovne tokove.
Nova študija, Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction, izpostavlja namerno neugodno točko: če je AI sistem agent in je korpus na voljo kot surove datoteke, morda najboljši iskalni vmesnik ni vedno model vdelav ali vektorski indeks. Včasih je to preprosto zmožnost neposrednega iskanja po korpusu.
Brez modela vdelav. Brez vektorskega indeksa. Samo neposreden dostop do dokumentov in agent, ki zna iskati, pregledovati, izboljševati in verificirati.
Neposredna interakcija s korpusom (DCI) spreminja iskalni vmesnik: agent dela z korpusom neposredno in v zanko sklepanja vključuje iskanje in pregledovanje datotek.
Kaj neposredna interakcija s korpusom (DCI) spreminja
Neposredna interakcija s korpusom, ali DCI, je preprosta ideja z velikimi implikacijami. Namesto da agentu damo en iskalni API, ki vrne razvrščen seznam odlomkov, DCI agentu omogoča dostop do surovega korpusa prek navadnih orodij: grep ali ripgrep, branje datotek, navigacija po imeniku, ukazi lupine in majhni skripti.
To zveni skoraj primitivno v primerjavi z modernimi semantičnimi iskalnimi skladi. Toda primitivni vmesnik je natanko tista točka. Vmesnik za iskanje iz ukazne vrstice je sestavljiv. Agent lahko poišče točno frazo, pregleda okoliški kontekst, združi dve šibki namigi, prešteje pojavitve, znova poišče z izboljšano hipotezo in nato preveri, ali dokazi dejansko podpirajo odgovor.
Tradicionalno iskanje to interakcijo stisne v en ozek korak: poizvedba noter, razvrščen seznam ven. Če je koristna namig zgodaj filtrirana, je model v nadaljnjem morda nikoli ne vidi. Boljše sklepanje po dejstvu ne more obnoviti dokazov, ki niso bili nikoli izpostavljeni.
Zakaj vektorsko iskanje lahko postane ozko grlo
Vektorsko iskanje je močno, ko je problem semantična podobnost: »poišči odlomke, ki so podobni temu vprašanju«. Toda resnične preiskave pogosto zahtevajo več kot podobnost.
- Natančne omejitve: imena izdelkov, regulativne klavzule, nizi napak, datumi, ID-ji, imena datotek in neobičajne fraze.
- Kombinacije šibkih namigov: več izrazov, ki posamezno niso odločilni, a skupaj postanejo koristni.
- Večstopenjsko odkrivanje: poišči eno entiteto, jo preglej, odkrij drugo entiteto, nato iskaj znova.
- Lokalna verifikacija: preberi vrstice pred in za ujemanjem, da razumeš, ali so dokazi dejansko relevantni.
Sistem iskanja top-k lahko podpre nekatere od teh zahtev, toda ni naravna ustreznost. Želi vračati kandidate. Agent pa pogosto želi izvesti preiskavo.
Trditev v študiji ni, da so vdelava zastarele
Praktična lekcija je bolj subtilna. Študija ne dokazuje, da so vektorske baze podatkov neuporabne. Gosto iskanje, redko iskanje in ponovno razvrščanje so še vedno smiselni za številne velike, statične, za potrošnike namenjene ali na zakasnitev občutljive sisteme.
Pomembna trditev je, da kakovost iskanja ni odvisna le od modela iskalnika, ampak od vmesnika, ki ga prejme agent. Če agent zna sklepati, iskati in revidirati svoj načrt, potem lahko bogatejši vmesnik razkrije dokaze, ki jih fiksen korak podobnosti skrije.
Avtorji to idejo imenujejo ločljivost iskalnega vmesnika. Konvencionalni iskalnik navadno izpostavlja dokumente ali delčke. DCI agentu omogoča delovanje pri višji ločljivosti: poti datotek, natančna ujemanja, lokalni razponi, števci, omejitve in nadaljnja iskanja.
Zakaj je to pomembno za podjetniške sisteme znanja
Mnoga podjetja gradijo interne AI asistente nad politikami, SOP-i, datotekami tveganj, tehnično dokumentacijo, zapisniki sestankov, revizijskimi zapisi, specifikacijami izdelkov in kodnimi repozitoriji. Ti korpusi niso vedno čisti, statični ali idealno razdelljivi na delčke. Vsak dan se spremenijo. Vsebujejo tabele, imena datotek, navzkrižne reference, okrajšave in točno besedilo, ki je pomembno.
V takih okoljih je DCI privlačen, ker zmanjšuje predpostavke o infrastrukturi. Ni obveznega cevovoda za vdelava. Ni gradnje indeksa brez povezave pred prvim koristnim vprašanjem. Ni zastarelega vektorskega skladišča, ki tiho odteka od trenutnega stanja dokumentov.
Za regulirane ekipe ali ekipe, ki so občutljive na kakovost, to ni majhen operativni detail. Zmožnost pregleda točnega izvornega besedila, sledenja iskalni poti in verifikacije lokalnega konteksta je pogosto bolj dragocena kot poliran semantičen odgovor, ki težko razloži, kako je našel svoje dokaze.
Arhitekturna implikacija: iskanje postane orodna plast
DCI kaže na drugačen oblikovni vzorec. Namesto da bi iskanje obravnavali kot skrito plast pred-obdelave, obravnavajte dostop do korpusa kot orodno plast, ki jo agent lahko namerno uporablja.
- Začnite s korpusom takšnim, kakršen je. Datoteke, mape, izvozi, dnevniki, markdown, PDF-ji, pretvorjeni v besedilo, in strukturirani podatki so lahko vsi preiskovana sredstva.
- Izpostavite natančne iskalne primitive. Natančno ujemanje, regex, filtri metapodatkov, branje datotek in majhni skripti niso zastareli. So nadzorovani iskalni instrumenti.
- Pustite agentu iterirati. Vrednost izhaja iz zank iskanje, pregled, izboljšanje in verifikacija, ne iz ene popolne začetne poizvedbe.
- Ohranjajte dokaze opazljive. Sistem mora ohraniti, kaj je bilo iskano, kaj je bilo odprto in katero besedilo je podprlo zaključek.
- Dodajte semantično iskanje, kjer pomaga. Vektorsko iskanje je lahko še vedno eno od orodij med drugimi, ne edina pot do znanja.
Kje bo DCI verjetno dobro deloval
DCI je posebej relevanten, ko agent deluje nad omejenim, a bogatim korpusom in ko so natančni dokazi pomembni.
- Programska oprema in inženirski repozitoriji: koda, vstopnice, dnevniki, zahteve, oblikovalne opombe in poročila o incidentih.
- Kakovostna in regulativna dokumentacija: SOP-i, datoteke upravljanja tveganj, zapisi klinične evalvacije, revizijske sledi in tehnične datoteke.
- Interne raziskovalne knjižnice: prispevki, zapiske, eksperimenti, tržne analize in zapisi odločitev.
- Baze znanja za podporo strankam: kjer so natančne različice izdelkov, besedilo napak in procesne formulacije pomembne.
Je manj privlačen, ko je korpus ogromen, oddaljen, nestrukturiran na sovražne načine ali ko mora biti zakasnitev odziva izjemno predvidljiva. V teh primerih se cevovodi za indeksiranje in iskanje še vedno splačajo.
Upravljavski vidik
Tu je tudi upravljavska lekcija. Ko so AI sistemi uporabljeni v resnih poslovnih procesih, ne smemo le spraševati, ali je končni odgovor verjeten. Vprašati moramo, ali je sistem imel dober način za iskanje, ohranjanje in pregled dokazov.
Korak iskanja v črni škatli lahko oteži izpodbijanje izbora dokazov. DCI tega problema ne reši samodejno, toda preiskavo naredi bolj vidno. Iskalni ukazi, odprte datoteke in lokalni kontekst je mogoče zabeležiti in pregledati. To je koristno za validacijo, odpravljanje napak in revizijsko sledljivost.
Moje stališče
Najbolj zanimiv del DCI ni, da uporablja grep. Je v tem, da agenta obravnava kot aktivnega raziskovalca, ne kot pasivnega potrošnika odlomkov top-k.
To se ujema s smerjo, v katero se premikajo AI sistemi. Ko agenti postanejo boljši pri načrtovanju in rabi orodij, omejevalni dejavnik pogosto ni samo jezikovni model. Je vmesnik, ki mu ga damo. Ozek vmesnik producira ozke dokaze. Bogatejši vmesnik omogoča boljšo preiskavo.
Za poslovne voditelje je zaključek praktičen: ne začenjajte vsakega projekta asistenta za znanje z nakupom vektorske baze podatkov in razglasitvijo rešene arhitekture. Najprej vprašajte, kakšne dokaze mora agent najti, kako natančno mora biti iskanje, kako pogosto se korpus spreminja in kako bo iskalna pot verificirana.
Zaključek
Neposredna interakcija s korpusom (DCI) je koristni opomnik, da iskanje ni le izbira modela. Je problem oblikovanja vmesnika.
Iskanje z vdelavami ostaja dragoceno. Toda za agentne sisteme, ki delujejo nad lokalnimi, razvijajočimi se, z dokazi bogatimi korpusi, je neposredno iskanje po surovih dokumentih morda preprostejše, bolj pregledno in včasih močnejše. Prihodnost iskanja verjetno ne bo »vektorji ali grep«. Bodo agenti s pravim mešanjem orodij, ki za določeno delo uporabljajo pravi vmesnik.
In občasno bo pravi vmesnik sumljivo podoben terminalu.