Mikä on sisällönkoulutuksen yhteenvetomalli? 

Euroopan komissio julkaisi hiljattain selittävä ilmoitus ja mallipohja auttaakseen yleiskäyttöisten tekoälymallien (GPAI) tarjoajia tiivistämään mallien kouluttamiseen käytetyn sisällön. Mallipohja tukee GPAI-palveluntarjoajia heidän velvoitteidensa täyttämisessä 53 artiklan mukaisesti. EU:n tekoälylaki, tekemällä yhteenvedon kaikkien GPAI-mallien koulutuksessa käytetystä sisällöstä julkisesti saataville.  

Ratkaisevasti se edustaa myös uutta askelta kohti luottamuksen rakentamista tekoälyyn lisäämällä läpinäkyvyyttä asetuksen tavoitteiden mukaisesti. 

Vaikka mallipohjan avulla toimitettu GPAI-mallia koskeva yhteenveto on julkisesti saatavilla, komissio on ottanut huomioon liikesalaisuuksien ja luottamuksellisten liiketoimintatietojen suojaamisen tarpeen. Selityksessä selvennetään, että tiivistelmän tulisi olla "yleisesti ottaen kattava eikä teknisesti yksityiskohtainen, jotta oikeutettujen etujen omaavien osapuolten, mukaan lukien tekijänoikeuksien haltijoiden, on helpompi käyttää ja valvoa oikeuksiaan unionin lainsäädännön nojalla". 

Osa yksi: Yleistä tietoa 

Mallipohjan ensimmäinen osa sisältää yleisiä tietoja GPAI-palveluntarjoajasta ja -mallista, mukaan lukien tarjoajan yhteystiedot, versioidun GPAI-mallin nimen, mallin riippuvuudet ja päivämäärän, jona malli saatettiin unionin markkinoille. Palveluntarjoajien on eriteltävä koulutustiedoissa esiintyvät menetelmät siltä osin kuin ne ovat tunnistettavissa, mukaan lukien: 

  • teksti 
  • Kuva 
  • Audio- 
  • Video 
  • Muut 

Palveluntarjoajien on eriteltävä harjoitusdatan koko valitsemalla vaihteluvälejä kunkin modaliteetin arvioidun kokonaisdatakoon rajoissa. Heidän on myös kuvattava kunkin valitun modaliteetin sisältötyypit, esimerkiksi: 

  • Kaunokirjallisuusteksti 
  • Tietokirjallisuusteksti 
  • Tieteellinen teksti 
  • Valokuvaus 
  • Kuvataideteokset 
  • Kuvaajat 
  • Sosiaalisen median kuvat 
  • Musiikkisävellykset 
  • Äänikirjat 
  • Yksityinen ääniviestintä 
  • Musiikkivideoita 
  • Elokuvat 
  • TV-ohjelmat 
  • Videopelit 
  • Sosiaalisen median videot. 

Lopuksi palveluntarjoajien on jaettava mallikoulutuksen tiedonkeruun tai -hankinnan viimeisin päivämäärä sekä kaikki lisätiedot koulutustiedon keräämisestä. 

Toinen osa: Tietolähteet 

Mallipohjan toisessa ja suurimmassa osiossa palveluntarjoajien on eriteltävä GPAI-mallin kouluttamiseen käytetyt tietolähteet. Organisaatioiden tulee määrittää kussakin osiossa kyseisten tietojoukkojen kattaman sisällön modaliteetti tai modaliteettit ja sitten vastata tiettyihin kysymyksiin kunkin tietolähdetyypin osalta. 

Tässä osiossa termi ”tietojoukko” luokitellaan yhdeksi, valmiiksi pakatuksi tietojoukoksi; samasta valmiiksi pakatusta kokoelmasta suodatettua ja esikäsiteltyä tietoa ei tule pitää uutena tietojoukkona, joka olisi julkistettava erikseen. Jos tietojoukko kuuluu useampaan kuin yhteen luokkaan, palveluntarjoajien tulee valita asiaankuuluvin luokka. 

GPAI-palveluntarjoajien on annettava tietoja mallin kouluttamiseen käytetyistä tietojoukoista: 

  • Julkisesti saatavilla olevat tietoaineistot 
  • Kolmannen osapuolen kokoamat tietoaineistot ovat julkisesti saatavilla ilmaiseksi, ja ne ovat helposti ladattavissa kokonaisuutena tai ennalta määritellyissä osissa. 
  • Kolmansilta osapuolilta saadut yksityiset, ei-julkisesti saatavilla olevat tietoaineistot 
  • Oikeudenhaltijoiden tai heidän edustajiensa kaupallisesti lisensoimat tietojoukot. 
  • Muilta kolmansilta osapuolilta hankitut yksityiset tietojoukot. 
  • Verkkolähteistä indeksoitu ja kaavittu data 
  • Indeksoitu, kaavittu data tai muulla tavoin verkosta koottu data, pois lukien jo käsitellyt julkisesti saatavilla olevat datajoukot.  
  • Käyttäjän aika 
  • Palveluntarjoajan kaikkien palveluiden ja tuotteiden keräämät käyttäjätiedot, lukuun ottamatta käyttäjien kaupallisten sopimusten perusteella lisensoimia tietoja tai asiakastietoja, mallien hienosäätöä varten tiettyihin tarkoituksiin. 
  • Synteettisen tekoälyn tuottama data  
  • Mallin kouluttamiseksi toisen mallin tuotosten perusteella luotu data, kuten tekoälypalaute vahvistusoppimisen kautta, pois lukien tekoälymallien käyttö datan puhdistamiseen tai rikastamiseen. 
  • Muut tietolähteet 
  • Data, joka ei kuulu mihinkään edellisistä luokista, esim. offline-lähteistä kerätty data, itse digitoitu media, palveluntarjoajan tilaamat ihmisten merkitsemät datajoukot. 

Kolmas osio: Tietojenkäsittelyn näkökohdat 

Mallipohjan kolmannessa osiossa keskitytään toimenpiteisiin, joita palveluntarjoaja on toteuttanut tunnistaakseen ja noudattaakseen digitaalisten sisämarkkinoiden tekijänoikeutta koskevan direktiivin 4 artiklassa säädetyn tekstin- ja tiedonlouhintaa koskevan poikkeuksen tai rajoituksen mukaisia ​​oikeudenpidätyksiä. Näiden toimenpiteiden tulisi myös olla yhdenmukaisia ​​palveluntarjoajan tekijänoikeuspolitiikan kanssa, kuten EU:n tekoälylain 53 artiklassa edellytetään.  

Tämä sisältää kuvauksen toimenpiteistä, jotka palveluntarjoaja on toteuttanut ennen mallikoulutusta TDM-poikkeuksen tai -rajoituksen mukaisten oikeuksien varausten kunnioittamiseksi: 

  • Tiedonkeruuta edeltävät ja sen aikana toteutetut toimenpiteet 
  • Palveluntarjoajan noudattamat kieltäytymisprotokollat ​​ja -ratkaisut 
  • Kolmannet osapuolet, joilta tietoaineistot on hankittu, noudattavat kieltäytymisprotokollia ja -ratkaisuja. 

GPAI-palveluntarjoajien on annettava yleinen kuvaus toimenpiteistä, joita ne ovat toteuttaneet välttääkseen tai poistaakseen unionin lainsäädännön vastaista laitonta sisältöä koulutusdatasta. Niiden ei kuitenkaan tarvitse paljastaa erityisiä tietoja sisäisistä liiketoimintatavoistaan ​​tai liikesalaisuuksistaan. 

Lopuksi mallipohja sisältää valinnaisen osion, jossa palveluntarjoajat voivat jakaa muita asiaankuuluvia tietoja mallin koulutusta edeltävistä tai sen jälkeen tehdyistä tietojenkäsittelytoimenpiteistä. 

Seuraavat vaiheet 

GPAI-palveluntarjoajien on tärkeää tarkastella olemassa olevaa GPAI-mallidokumentaatiota ja -prosesseja. Mallin käyttöä varten organisaatioiden tulisi varmistaa selkeä sisäinen näkyvyys tietojoukkojen lähteisiin, tietojoukkojen modaliteettiin, kokoihin ja sisältötyyppeihin sekä olemassa oleviin tiedonkäsittelymenetelmiin.  

Parhaiden käytäntöjen, kuten tekoälyn hallintaohjeissa esitettyjen, toteuttaminen standardi ISO 42001 Eettisen tekoälynhallintajärjestelmän (AIMS) rakentaminen voi myös auttaa lisäämään läpinäkyvyyttä, vähentämään tekoälyyn liittyvää riskiä, ​​varmistamaan selkeän dokumentaation ja rakentamaan luottamusta organisaatioon ja sen tekoälymalleihin.