Tehnični pregled obveznega razkritja podatkov za usposabljanje UI v EU
Evropska komisija je 24. julija 2025 objavila končni osnutek »Pojasnjevalnega obvestila in predloge za javni povzetek vsebine usposabljanja«, dokumenta, ki operacionalizira ključno zahtevo po preglednosti iz akta EU o UI (Uredba (EU) 2024/1689). Ta dokument ni zgolj smernica; ima pomembno pravno vrednost in vzpostavlja obvezni okvir poročanja za vse ponudnike modelov splošnonamenskega UI (GPAI), ki se dajejo na trg EU.
Ta pregled ponuja poglobljeno tehnično analizo obvestila in predloge ter pojasnjuje obveznosti, pomen ključnih pojmov in zasnovo okvira poročanja.
Kaj prinaša obvezna predloga za razkritje podatkov za usposabljanje UI?
Evropska komisija je pravkar razkrila ključni košček sestavljanke za vsakogar, ki razvija ali uvajalzira UI v Evropi. 24. julija 2025 je objavila novo predlogo, ki določa, kako morajo podjetja poročati o podatkih, ki jih uporabljajo za usposabljanje svojih modelov splošnonamenskega UI. To ni le še ena plast birokracije; je temeljni korak k preglednosti in osrednja sestavina prelomnega akta EU o UI.
Za vodilne v industriji razumevanje tega razvoja ni neobvezno. Neposredno vpliva na vašo strategijo UI, načrt za doseganje skladnosti in upravljanje tveganj. Tukaj je pregled tega, kaj to pomeni za industrijo.
O čem govori dokument?
Dokument je pojasnjevalno obvestilo in standardizirana predloga Evropske komisije. Podrobno opredeljuje obveznosti za vse ponudnike modelov splošnonamenskega UI v skladu s členom 53(1)(d) akta EU o UI. Cilj je preprost: ustvariti preglednost glede vsebine, ki se uporablja za usposabljanje teh zmogljivih modelov.
Sam akt o UI, ki je začel veljati 1. avgusta 2024, vzpostavlja harmonizirane predpise za umetno inteligenco s posebnimi obveznostmi za ponudnike modelov splošnonamenskega UI. Te zahteve po preglednosti bodo začele veljati 2. avgusta 2025.
Kakšen je namen tega obveznega razkritja?
Glavni cilj je povečati preglednost iz več ključnih razlogov:
- Varovanje intelektualne lastnine: Namen je pomagati imetnikom pravic, zlasti imetnikov avtorskih pravic, ugotoviti, ali je bila njihova vsebina uporabljena pri usposabljanju modela UI, kar jim omogoča uveljavljanje svojih pravic v skladu z zakonodajo EU.
- Uveljavljanje varstva podatkov: Povzetek pomaga pri uveljavljanju predpisov o varstvu podatkov, kot je GDPR, s pojasnjevanjem, kateri podatki so bili zbrani, vključno s podatki, pobranimi iz interneta ali zbranimi v interakcijah z uporabniki.
- Zagotavljanje temeljnih pravic: Preglednost glede podatkov za usposabljanje lahko pomaga razvijalcem v nadaljnji verigi oceniti raznolikost podatkov in ublažiti pristranskosti ter s tem spoštovati temeljne pravice, kot je prepoved diskriminacije.
- Spodbujanje poštene konkurence: Osvetljuje, ali so modeli usposobljeni na podlagi drugih javno dostopnih modelov UI ali lastniških uporabniških podatkov, kar lahko pomaga preprečiti učinke zaklepanja na trgu.
Kaj mora storiti vaše podjetje?
Če vaše podjetje ponuja model splošnonamenskega UI na trgu EU – tudi brezplačen in odprtokodni – morate pripraviti in javno objaviti podroben povzetek uporabljenih podatkov za usposabljanje. Ta povzetek mora slediti predlogi Komisije in biti na voljo na vašem spletnem mestu ter v distribucijskih kanalih modela ob dajanju na trg.
Predloga je razdeljena na tri glavne razdelke:
- Splošne informacije: Vključuje identifikacijo ponudnika in specifičnih modelov, ki jih povzetek zajema, skupaj z odvisnostmi modela, če je zgrajen na drugem modelu UI. Razkriti morate tudi vrste podatkov (modalitete, kot so besedilo, slika, zvok) in okvirno velikost podatkov za usposabljanje v širokih razponih.
- Seznam virov podatkov: To je jedro razkritja in zahteva celovit pregled izvora vaših podatkov za usposabljanje. Vključuje:
- Javno dostopne nabore podatkov: navesti morate »velike« javne nabore podatkov. Nabor podatkov se šteje za »velikega«, če presega 3 % skupne velikosti vseh javnih naborov podatkov, ki se uporabljajo za to modaliteto.
- Zasebne nabore podatkov tretjih oseb: za podatke, licencirane od imetnikov pravic, je razkritje omejeno. Za druge zasebne, javno neznane nabore podatkov je potreben splošni opis.
- Podatki, pobrani s spletnih virov: opisati morate používane spletne pajke, obdobje zbiranja in vrsto pobrane vsebine. Ključnega pomena je, da navedete povzetek najpomembnejših domenskih imen. Za večino podjetij to pomeni prvih 10 % domen po velikosti vsebine; za MSP je to prvih 5 % ali prvih 1.000 domen, kar je manj.
- Uporabniški podatki: opisati je treba podatke, zbrane v interakcijah uporabnikov z vašimi storitvami ali produkti.
- Sintetični podatki: če je bil vaš model usposabljen z AI-generiranimi podatki (npr. z destilacijo modela), morate navesti modele UI, ki so bili uporabljeni za ustvarjanje teh podatkov.
- Vidiki obdelave podatkov: Ta razdelek zahteva opis ukrepov za spoštovanje pravice imetnikov avtorskih pravic do »odklopa« iz izjeme za rudarjenje besedil in podatkov ter korakov za odstranitev nezakonite vsebine iz vaših podatkov za usposabljanje.
Časovnice in uveljavljanje: kaj pričakovati
- Datum začetka veljavnosti: Obveznost priprave povzetka se uporablja od 2. avgusta 2025.
- Obstoječi modeli: Za obstoječe modele na trgu pred tem datumom morajo dobavitelji objaviti povzetke najpozneje do 2. avgusta 2027.
- Posodobitve: Povzetek je treba posodabljati vsaj enkrat na šest mesecev, kadar se model dodatno usposablja na novih podatkih, ali prej, če obstaja »bistveno pomembna posodobitev«.
- Uveljavljanje: Skladnost bo od 2. avgusta 2026 nadzoroval Urad za UI. Neskladnost ni mala stvar. Globe lahko dosežejo 3 % skupnega letnega prometa organizacije po svetu ali 15 milijonov EUR, kar je višje.
Razlaga ključnih pojmov in zaščitnih ukrepov
Dokument skrbno uravnoteži preglednost in zaščito legitimnih interesov ponudnikov.
- Poslovne skrivnosti: Predloga je zasnovana tako, da je »splošno celovita«, ne pa »tehnično podrobna«, da se izognemo razkritju konkurenčno občutljivih informacij. To se uresničuje z različnimi ravnmi zahtevanih podrobnosti. Na primer:
- Za komercialno licencirane podatke je potrebno minimalno javno razkritje, saj so imetniki pravic stranke v sporazumih.
- Zasebne, nelicencirane nabore podatkov je treba navesti le, če so že javno znani.
- Natančna »mešanica in sestava virov podatkov« ni zahtevana – le splošne informacije o velikosti podatkov po modalitetah.
- Izjema za rudarjenje besedil in podatkov (TDM): To se nanaša na člen 4 Direktive EU o avtorskih pravicah (2019/790), ki dovoljuje rudarjenje besedil in podatkov za kakršen koli namen, pod pogojem, da imetniki pravic niso izrecno »odklonili« ali si pridržali pravic v strojno berljivi obliki. Razdelek 3.1 predloge to neposredno obravnava z zahtevo, da ponudniki opišejo ukrepe za spoštovanje teh pridržkov pravic. To je ključna vez med aktom o UI in obstoječo zakonodajo EU o avtorskih pravicah.
- Destilacija modela: Omenjena v kontekstu sintetičnih podatkov – postopek, pri katerem se manjši, bolj specializiran model UI (»učenec«) usposablja na izhodnih podatkih večjega, bolj kompleksnega modela (»učitelja«). Obvestilo zahteva razkritje, kateri modeli GPAI so bili za to uporabljeni, da se prepreči izogibanje obveznostim preglednosti.
- Uveljavljanje: Skladnost ni neobvezna. Urad za UI ima pooblastilo za preverjanje točnosti predloženih povzetkov in lahko nalaga korektivne ukrepe. Neskladnost lahko privede do hudih glob v višini do 3 % skupnega letnega prometa ponudnika po svetu ali 15.000.000 EUR, kar je višje.
Tehnična razčlenitev predloge za poročanje
V nadaljevanju sledi podrobna razlaga obvezne predloge.
Predloga za javni povzetek vsebine usposabljanja
Različica povzetka: [Ponudnik vnese različico s povezavami do prejšnjih različic] Zadnja posodobitev: DD/MM/LL
Razdelek 1: Splošne informacije
Ta razdelek služi za identifikacijo ponudnika in modelov, ki jih povzetek zajema.
| Polje |
Zahteva |
| 1.1 Identifikacija ponudnika |
|
| Ime in kontaktni podatki ponudnika: |
[Ime in kontaktni podatki ponudnika] |
| Ime in kontaktni podatki pooblaščenega zastopnika: |
[Velja le, če je ponudnik s sedežem izven Unije] |
| 1.2. Identifikacija modela |
|
| Versioned ime(na) modela: |
Navedite enolični identifikator za model(e) ali različico(e) (npr. Llama 3.1-405B). Isti povzetek se lahko uporabi za več modelov, če je njihova vsebina usposabljanja enaka. |
| Odvisnosti modela: |
Če model spreminja ali fino nastavi drug model GPAI, navedite ime izvirnega modela in povezavo do njegovega povzetka. |
| Datum dajanja modela na trg Unije: |
[Datum dajanja na trg] |
1.3. Modalitete, skupna velikost podatkov za usposabljanje in druge značilnosti
Ta del ponuja splošen pregled sestave podatkov za usposabljanje.
| Modaliteta |
Izberite modalitete v podatkih za usposabljanje, kolikor so prepoznavne |
Velikost podatkov za usposabljanje (za vsako izbrano modaliteto izberite razpon, v katerega spada ocenjena skupna velikost podatkov za to modaliteto; dinamični nabori podatkov so lahko izključeni iz ocene) |
Vrste vsebine (za vsako izbrano modaliteto podajte splošen opis vrste vsebine v podatkih za usposabljanje) |
| ☐ Besedilo |
☐ Manj kot 1 milijarda žetonov ☐ Od 1 milijarde do 10 bilijonov žetonov ☐ Več kot 10 bilijonov žetonov Oz. navedite velikost v drugi enoti |
Primeri možnih vrst vsebine vključujejo leposlovna in poučna besedila, znanstvena besedila, tiskovne publikacije, pravne in uradne dokumente, komentarje na družbenih omrežjih, izvorno kodo. |
| ☐ Slika |
☐ Manj kot 1 milijon slik ☐ Od 1 milijona do 1 milijarde slik ☐ Več kot 1 milijarda slik |
Primeri možnih vrst vsebine vključujejo fotografijo, vizualna umetniška dela, infografike, slike z družbenih omrežij, logotipe, blagovne znamke. |
| ☐ Zvok |
☐ Manj kot 10.000 ur ☐ Od 10.000 do 1 milijona ur ☐ Več kot 1 milijon ur |
Primeri možnih vrst vsebine vključujejo glasbene kompozicije in posnetke, zvočne knjige, radijske oddaje in podkaste, zasebno zvočno komunikacijo. |
| ☐ Video |
☐ Manj kot 10.000 ur ☐ Od 10.000 do 1 milijona ur ☐ Več kot 1 milijon ur |
Primeri možnih vrst vsebine vključujejo glasbene videospote, filme, televizijske oddaje, nastope, videoigre, videoodseke, novinarske videoposnetke, videe z družbenih omrežij. |
| ☐ Drugo |
Navedite modaliteto in okvirno velikost/enoto |
|
| Polje |
Zahteva |
| Najnovejši datum pridobivanja/zbiranja podatkov za usposabljanje modela: |
Navedite najnovejši datum zbiranja/pridobivanja podatkov za usposabljanje modela: MM/LLLL Poleg tega navedite, ali se model po tem datumu neprekinjeno usposablja na novih ali dinamičnih podatkih. |
| Opis jezikovnih značilnosti skupnih podatkov za usposabljanje: |
Kjer je primerno, opišite jezike v podatkih za usposabljanje (npr. besedilo, videoposnetki ali govor), s posebnim poudarkom na uradnih jezikih EU. |
| Druge relevantne značilnosti skupnih podatkov za usposabljanje: |
Kjer so takšne informacije zlahka dostopne in v obsegu, v katerem so relevantne in izvedljive, opišite druge relevantne značilnosti skupnih podatkov za usposabljanje, kot so nacionalne/regionalne ali demografske posebnosti podatkov. |
| Dodatni komentarji (neobvezno): |
Ponudniki lahko prostovoljno razkrijejo tudi druge relevantne informacije (npr. metodologije stiskanja ali tokenizacije za izračun velikosti podatkov, frekvenco/stopnjo vzorčenja za zvočno ali video vsebino). |
Razdelek 2: Seznam virov podatkov
To je najpomembnejši razdelek za preglednost, ki podrobno opisuje specifično poreklo podatkov za usposabljanje.
2.1. Javno dostopni nabori podatkov
To zajema vnaprej pripravljene nabore podatkov, ki so jih sestavile tretje osebe in so jih brezplačno dale na voljo javnosti (npr. v javnih repozitorijih).
| Polje |
Zahteva |
|
Najnovejši datum pridobivanja/zbiranja podatkov za usposabljanje modela:
|
Navedite najnovejši datum zbiranja/pridobivanja podatkov za usposabljanje modela: MM/LLLL
Poleg tega navedite, ali se model po tem datumu neprekinjeno usposablja na novih ali dinamičnih podatkih.
|
|
Opis jezikovnih značilnosti skupnih podatkov za usposabljanje:
|
Kjer je primerno, opišite jezike v podatkih za usposabljanje (npr. besedilo, videoposnetki ali govor), s posebnim poudarkom na uradnih jezikih EU.
|
|
Druge relevantne značilnosti skupnih podatkov za usposabljanje:
|
Kjer so takšne informacije zlahka dostopne in v obsegu, v katerem so relevantne in izvedljive, opišite druge relevantne značilnosti skupnih podatkov za usposabljanje, kot so nacionalne/regionalne ali demografske posebnosti podatkov.
|
|
Dodatni komentarji (neobvezno):
|
Ponudniki lahko prostovoljno razkrijejo tudi druge relevantne informacije (npr. metodologije stiskanja ali tokenizacije za izračun velikosti podatkov, frekvenco/stopnjo vzorčenja za zvočno ali video vsebino).
|
2.2. Zasebni javno nedostopni nabori podatkov, pridobljeni od tretjih oseb
Ta razdelek je razdeljen na dve kategoriji za zaščito poslovnih občutljivosti.
2.2.1. Nabori podatkov, komercialno licencirani s strani imetnikov pravic ali njihovih zastopnikov
|
Ali ste za usposabljanje modela uporabili javno dostopne nabore podatkov?
|
☐ Da ☐ Ne
|
|
Če da, navedite modaliteto(e):
|
☐ Besedilo ☐ Slika ☐ Video ☐ Zvok ☐ Drugo
|
|
Seznam velikih javno dostopnih naborov podatkov:
|
Za vsak »velik« nabor podatkov (definiran kot >3 % skupne velikosti podatkov za to modaliteto iz javnih naborov podatkov) navedite njegovo ime in povezavo za dostop. Če povezava ni na voljo, podajte splošen opis.
|
|
Splošen opis drugih javno dostopnih naborov podatkov, ki niso navedeni zgoraj:
|
Podajte splošen opis njihove vsebine, vključno z vrstami modalitet, naravo vsebine (npr. osebni podatki, z avtorskimi pravicami zaščiteni) in jezikovnimi značilnostmi.
|
2.2.2. Zasebni nabori podatkov, pridobljeni od drugih tretjih oseb
To zajema zasebne nabore podatkov od posrednikov podatkov ali drugih tretjih oseb, ki niso licencirani neposredno od imetnikov pravic.
|
Ali ste sklenili transakcijski komercialni licenčni sporazum(e) z imetnikom(i) pravic ali njihovimi zastopniki?
|
☐ Da ☐ Ne
|
|
Če da, navedite modaliteto(e) vsebine, ki jo zajemajo zadevni nabori podatkov:
|
☐ Besedilo ☐ Slika ☐ Video ☐ Zvok ☐ Drugo
|
|
Opomba: Tukaj ni potrebnih nadaljnjih podrobnosti o naborih podatkov za zaščito zaupnih poslovnih sporazumov.
|
|
2.3. Podatki, pridobljeni s spletnih virov z uporabo spletnih pajkov
To zahteva celovit pregled lastnih aktivnosti zbiranja podatkov ponudnika.
| Polje |
Zahteva |
Opombe |
| Ali so bili spletni pajki uporabljeni s strani ponudnika ali v njegovem imenu? |
☐ Da ☐ Ne |
|
| Če da, navedite ime(na)/identifikator(je) spletnih pajkov: |
|
[Ime/ID używanych spletnih pajkov] |
| Namen(i) spletnih pajkov: |
|
[Pojasnite namen dejavnosti pajkanja] |
| Splošen opis delovanja spletnih pajkov: |
|
Opišite, kako so se spletni pajki obnašali, npr. spoštovanje robots.txt, plačnih zidov, CAPTCHA itd. |
| Obdobje zbiranja podatkov: |
Od MM/LLLL do MM/LLLL |
|
| Celovit opis vrste vsebine in spletnih virov, po katerih se je pajkalo: |
Opišite vrsto vsebine (geografske, jezikovne značilnosti) in spletna mesta (npr. novice, blogi, družbena omrežja, forumi, vladni portali). |
|
| Povzetek najpomembnejših domenskih imen, po katerih se je pajkalo: |
To je ključna zahteva. Ponudniki morajo navesti domenska imena najvišje ravni, iz katerih je bila pridobljena vsebina. Prag je prvih 10 % vseh domen po velikosti vsebine. Za MSP je to zmanjšano na prvih 5 % ali 1000 domen, kar je manj. Ta seznam je mogoče zagotoviti kot datoteko za prenos. |
|
2.4. Uporabniški podatki
To zajema podatke, zbrane v interakcijah uporabnikov z lastnimi storitvami in produkti ponudnika.
|
Ali so bili podatki iz interakcij uporabnikov z modelom UI (npr. vnos uporabnika in pozivi) uporabljeni za usposabljanje modela?
|
☐ Da ☐ Ne
|
|
Ali so bili podatki, zbrani v interakcijah uporabnikov z drugimi storitvami ali produkti ponudnika, uporabljeni za usposabljanje modela?
|
☐ Da ☐ Ne
|
|
Če da, podajte splošen opis storitev ali produktov ponudnika, ki so bili uporabljeni za zbiranje uporabniških podatkov:
|
[Splošen opis storitev/produktov]
|
|
Vrsta zajete modalitete:
|
☐ Besedilo ☐ Slika ☐ Video ☐ Zvok ☐ Drugo
|
2.5. Sintetični podatki
To se nanaša na podatke, ki jih je ustvaril drug model UI, zlasti z destilacijo modela ali tehnikami usklajevanja.
|
Ali so bili sintetični podatki, ki jih je ustvarila UI, ustvarjeni s strani ponudnika ali v njegovem imenu za usposabljanje modela?
|
☐ Da ☐ Ne
|
|
Če da, modaliteta sintetičnih podatkov:
|
☐ Besedilo ☐ Slika ☐ Video ☐ Zvok ☐ Drugo
|
|
Če da, navedite model(e) splošnonamenskega UI, ki so bili uporabljeni za generiranje sintetičnih podatkov, če so na voljo na trgu:
|
Navedite ime modela(-ov) GPAI in po možnosti povežite na njihove povzetke.
|
|
Informacije o drugih modelih UI, vključno z lastnimi modeli UI ponudnika, ki niso na voljo na trgu:
|
Zagotovite informacije o drugih uporabljenih modelih UI, vključno s splošnim opisom njihovih podatkov za usposabljanje v obsegu, potrebnem za imetnike pravic in za preprečitev izogibanja.
|
2.6. Drugi viri podatkov
Kategorija za vse, kar ni zajeto zgoraj, kot so izvenspletni viri ali lastnoročno digitalizirana gradiva.
|
Ali so bili za usposabljanje modela uporabljeni viri podatkov, ki niso opisani v razdelkih 2.1 do 2.5?
|
☐ Da ☐ Ne
|
|
Če da, podajte opisni opis teh virov podatkov in podatkov:
|
[Opisni opis]
|
Razdelek 3: Vidiki obdelave podatkov
Ta zadnji razdelek obravnava politike in ukrepe v zvezi s pravno skladnostjo.
3.1. Spoštovanje pridržka pravic iz izjeme ali omejitve za rudarjenje besedil in podatkov
Ali ste podpisnik Kodeksa ravnanja za modele splošnonamenskega UI, ki vključuje zaveze o spoštovanju pridržkov pravic iz izjeme ali omejitve TDM? ☐ Da ☐ Ne
Opišite ukrepe, izvedene pred usposabljanjem modela za spoštovanje pridržkov pravic iz izjeme ali omejitve TDM pred zbiranjem podatkov in med njim... Opišite protokole za odklon in rešitve, ki jih spoštuje ponudnik ali tretje osebe, od katerih so bili pridobljeni nabori podatkov.
3.2. Odstranitev nezakonite vsebine
To se nanaša na ukrepe za odstranitev nezakonite vsebine (npr. gradivo spolnega izkoriščanja otrok, teroristična vsebina) iz podatkov za usposabljanje.
Splošen opis sprejetih ukrepov: [Opišite splošne ukrepe, kot so črne liste, ključne besede, klasifikatorji na podlagi modelov, brez razkritja poslovnih skrivnosti].
Zaključek
Ta podroben okvir pomeni bistveni premik v upravljanju UI – od načel k konkretnim, uveljavljenim obveznostim. Za vodje IT bo skladnost zahtevala natančno dokumentacijo dobavne verige podatkov in robustne notranje procese upravljanja.
Na splošno je ta nova obveznost poročanja osrednji operativni in strateški izziv. Abstraktno razpravo o podatkih za usposabljanje UI pripelje na tla kot konkretno vprašanje skladnosti. Podjetja v IT industriji, zlasti graditelji splošnonamenskega UI, morajo začeti skrbno slediti svoji dobavni verigi podatkov. Čeprav to ustvarja administrativno breme, daje priložnost za gradnjo zaupanja in dokazovanje volje do razvoja UI etično in zakonito. Čas nepreglednih podatkov za usposabljanje se v EU izteka. Čas za pripravo je zdaj.