Recimo, da gradite sistem za zaznavanje groženj. Imate varnostne dnevnike, nekaj telemetrije in nekaj poročil o obveščanju groženj. Vaši podatki so nepopolni. Ne vidite celotnih napadnih verig. Kar imate, je bolj zbirka fragmentov — tukaj ogrožena poverilnica, tam sumljiv IP, morda ID tehnike iz ogrodja ATT&CK, če ste srečni. Vaša naloga je povezati te fragmente in rekonstruirati verjetne napadne poti, tudi ko večina vmesnih korakov manjka.
Točno ta problem naj bi reševala vgradnja grafov znanja (KGE). Varnostne incidente modelirate kot graf, za zapolnitev vrzeli uporabite napovedovanje povezav in dobite okvir za anticipativno obrambo. Vsaj v teoriji. V praksi pa se skoraj takoj poruši, ko ga usmerite na napredne trajne grožnje.
Zakaj APT ruši modele grafov znanja
APT so dolgotrajni, usklajeni kibernetski napadi. Napredujejo počasi, se premikajo med sistemi in ostanejo skriti tedne ali mesece. Podatkov o njih je malo, ker večina nikoli ni javno deljenih. Toda problem seže globlje od tega, da je primerov malo.
Standardni modeli KGE predpostavljajo, da ima graf strukturno gostoto. Potrebujejo dovolj povezanih poti, da se iz njih učijo. APT grafi nimajo niti tega. En korak napada je morda phishing e-pošta. Nato nič dva dni. Nato dogodek eskalacije privilegijev z naključnega IP naslova. V smislu grafov te odvisnosti niso le premalo zastopane — sistematično so odsotne. Model se iz njih nikoli ne uči, zato jih nikoli ne nauči zaznavati.
Osnovno vprašanje ni le, da so grafi majhni. Strukturno so pomanjkljivi na načine, ki uničijo predpostavke večine metod vgradnje. Tudi napredni modeli kot ComplEx ali DistMult tega ne morejo popraviti, ker je njihov učni signal vezan na strukturo grafa, ne na domensko semantiko. Vrzeli so skoncentrirane natanko tam, kjer model potrebuje najtežje delo — eskalacija privilegijev, bočno gibanje, eksfiltracija.
APT-ST-AN: Dva problema, ena arhitektura
Ekipa Univerze za elektronsko znanost in tehnologijo na Kitajskem je pristopila drugače. Namesto da bi spremenili model, so spremenili graf. Njihov sistem, APT-ST-AN, obravnava dve ločeni napaki: premalo pozitivnih primerov in premalo koristnih negativnih.
1. del: Prostorsko-časovno sklepanje o atributih (ST)
APT napadi imajo strukturo. Odvijajo se skozi čas, po določenih sistemih, pogosto s ponovljivimi zaporedji. Če ena tehnika praviloma sledi drugi, ima ta odnos napovedno vrednost. APT-ST-AN to zajame z uvedbo novega tipa relacije, imenovanega »next« (naslednji). Časovno zaporedje kodira neposredno v graf. Torej, če tehnika A tipično predhodi tehniki B, ju poveže rob »next«.
Te relacije so izvlečene iz ogrodja MITRE ATT&CK, projekta Attack Flow in lahkotnega sistema rudarjenja pravil, imenovanega AnyBURL. AnyBURL odkriva logične vzorce iz obstoječih trojk — če tehnika A pogosto predhodi B v več kampanjah, ta vzorec postane pravilo. Sklepljeni robovi iz teh pravil nato postanejo nove pozitivne trojke v grafu.
Učinek je pomemben. Osnovni graf znanja v tej študiji je imel okoli tri tisoč trojk. Po uporabi prostorsko-časovnega sklepanja je zrasel na skoraj sedem tisoč. To ni šum ali izmišljeni podatki. Je sklepana struktura, izpeljana iz opazljivih vzorcev v resničnem obveščanju groženj. Model ima zdaj precej večjo semantično pokritost za posploševanje med sklepanjem.
2. del: Nasprotničino negativno vzorčenje (AN)
Vsak model KGE med učenjem potrebuje negativne primere — namerno napačne trojke, ki kontrastirajo z resničnimi. Brez njih se model ne more naučiti razlikovati verjetnih povezav od neverjetnih. Večina sistemov uporablja naključno negativno vzorčenje. Toda v redkih grafih so naključno izbrane napačne trojke očitne in trivialne. Ne zagotavljajo koristnega učnega signala.
APT-ST-AN nadomešča naključne negative z nasprotničnimi in sintetičnimi trdimi negativi. Postopek ima tri stopnje:
- Nasprotničino generiranje: Sistem uporabi FGSM — metodo hitrega znaka gradienta — da rahlo zmoti vgradnje entitet v smeri gradienta izgube. To ustvari primere, ki izgledajo verjetno, a so zagotovo napačni. Težko jih zavrniti, težko pravilno razvrstiti.
- Sintetično mešanje: Resnične pozitivne trojke se na ravni lastnosti mešajo z njihovimi nasprotničnimi različicami. Mešanica je nagnjena k nasprotničnemu delu, da se izognemo generiranju primerov, ki so preblizu resničnim pozitivnim.
- Filtriranje: Kosinusna podobnost se uporabi za ohranitev le najbolj informativnih sintetičnih negativov — tistih, ki so dovolj blizu pozitivni porazdelitvi, da so zahtevni, a jasno niso veljavni robovi.
Rezultat je množica negativnih primerov, ki model sili k ostrejšim odločitvenim mejam. V kombinaciji z obogatenimi pozitivnimi primeri iz modula ST ima model zdaj tako več, od česar se učiti, kot tudi težji optimizacijski cilj.
Ali deluje?
Avtorji so APT-ST-AN ocenili na več manjših grafih znanja, s poudarkom na resničnih scenarijih APT. Rezultati so bili dosledni. APT-ST-AN je presegel tako klasične modele, kot sta TransE in RotatE, kot domenske referenčne vrednosti, zasnovane za varnostne grafe. Vsak modul je prispeval merljivo — komponenta ST je sama po sebi izboljšala rezultate, dodajanje komponente AN pa je zmogljivost dvignilo še više.
Izboljšave so se obdržale ne le na varnostno-domenskih zbirkah podatkov, temveč tudi na javnih referenčnih vrednostih iz filma in literature. To je pomembno, ker kaže, da se pristop posploši. Ni le prilagojena rešitev za eno določeno strukturo grafa.
Kaj lahko iz tega vzamete
Če gradite infrastrukturo, ki se opira na prediktivno modeliranje nad redkimi grafi znanja — ne le v varnosti, temveč v kateri koli domeni, kjer popolna vidnost podatkov ni nikoli na voljo — ta prispevek ponuja več prenosljivih idej.
- Sekvenčne relacije dodajajo resnično vrednost. Večina grafov znanja obravnava robove kot ravna, neurejena dejstva. Toda v obveščanju groženj, preiskavah goljufij ali bioloških signalnih poteh je vrstni red pomemben. Kodiranje »to pogosto sledi onemu« kot eksplicitni tip roba je lahkotno in razberljivo.
- Trdi negativi so vredni truda. Naključno negativno vzorčenje je še vedno privzeto v večini produkcijskih cevovodov KGE. V redkih grafih je to znatna zamudena priložnost. Nasprotničini in sintetični negativi lahko smiselno preoblikujejo optimizacijski prostor.
- Rudarjenje pravil je poceni obogatitev. AnyBURL rudari logične vzorce iz grafovske strukture z majhno računsko obremenitvijo. Če je gostota robov težava v vašem grafu, lahko sklepanje na podlagi pravil ustvari visoko-zaupne pozitivne primere brez ročnega označevanja. To deluje za katero koli domeno z lokalnimi vzročnimi ali časovnimi vzorci.
- Pristop se razširi na druge domene. Osnovna ugotovitev — da je mogoče skrito vzročno strukturo obnoviti s sekvenčnim sklepanjem in nasprotničnim vzorčenjem — velja povsod, kjer celoten graf ni nikoli viden. Zaporedja finančnih goljufij, omrežja tveganj v dobavnih verigah, verige medicinskih dogodkov. Ista načela veljajo.
Zaključek
APT-ST-AN je ciljni odgovor na specifičen strukturni problem: kaj naredite, ko je vaš graf znanja preveč redek za zanesljivo učenje? Odgovor je obogatiti obe strani učnega signala — več smiselnih pozitivnih primerov s sekvenčnim sklepanjem, težje negative z nasprotničnim konstruiranjem. Rezultat je model vgradnje, ki lahko naredi koristne napovedi, tudi ko mu podatki dajo zelo malo, s čimer bi delal.
Če želite poglobiti v celotne rezultate ablacij ali podrobnosti postopka pridobivanja prostorsko-časovnih pravil, je prispevek objavljen v reviji Array (DOI: 10.1016/j.array.2025.100404).
Reference