Tekoäly löytää tiensä kaikkeen kissanläppäistä "älykkäisiin" takapihagrilleihin – etkä tietenkään voi avata mitään modernia yritysohjelmistoa näkemättä jonkinlaista tekoälyapulaista, joka toimii suurella kielimallilla (LLM). Mutta koska teknologiaa on vaikea välttää, meidän pitäisi ehkä miettiä, kuinka ihmiset voivat käyttää sitä väärin.

Emme puhu siitä, kuinka verkkorikolliset voivat käyttää suuria kielimalleja (LLM) tietojenkalasteluviestien kirjoittamiseen tai verkkosivustojen hakkerointiin. Pikemminkin pohdimme, kuinka hyökkääjät voisivat vaarantaa lailliset tekoälyjärjestelmät varastaakseen tietoja, levittääkseen väärää tietoa tai jopa lähettääkseen koneita hukkaan.

LLM:issä piilevät haavoittuvuudet

Yksi yleisimmistä tällaisista hyökkäyksistä sisältää nopean manipuloinnin. Hyökkääjät ovat osoittaneet, kuinka erilaisten LLM-yritysten turvakaiteet (tunnetaan nimellä jailbreaking) kiertää käyttämällä tekniikoita, kuten roolileikkejä ja jopa syömällä hölynpölyä.

Nopealla pistoksella voidaan tehdä muutakin kuin saada LLM toimittamaan ohjeet laittomista toimista tai kirjoittamaan tietojenkalasteluviestejä. Tutkijat ovat käyttäneet niitä tietojen suodattamiseen. Esimerkiksi tekoälyturvayhtiö PromptArmor huijasi Slackin tekoälyavustaja vuotaa salaisuuksia, kuten API-avaimia yksityisiltä kanavilta.

Nopea suunnittelu luo mahdollisuuksia datavarkauksille. Tekoälyjärjestelmät voivat vahingossa paljastaa arkaluontoisia tietoja virheiden tai suunnitteluvirheiden kautta. Joskus nämä voivat olla häiriöitä, kuten ChatGPT-virhe vuotanut käyttäjien yksityiset tiedot, mukaan lukien maksutiedot, maaliskuussa 2023. Muissa hyökkäyksissä käytetään nopeaa injektointia harhaanjohtavilla taktiikoilla, kuten tekstin muuttamista siten, että haitallinen kehote taivuttelee LLM:n luovuttamaan tietoja, mutta se on ihmisuhreille käsittämätöntä.

Joissakin skenaarioissa tutkijat saattavat pystyä käyttämään nopeaa suunnittelua paljastaakseen mallin alkuperäiset harjoitustiedot. Mallin käänteishyökkäyksessä vastustaja voi kysellä LLM:ää käyttämällä vastauksia päätelläkseen asioita koulutustiedoista ja lopulta kääntää osan tiedoista jälkikäteen.

Jotkut ovat ehdottaneet mallin inversion käyttöä kasvojentunnistusmallien harjoittamiseen käytettyjen kuvien läheisten likiarvojen poimimiseksi. Tämä vaarantaa arkaluonteisten tai haavoittuvien henkilöiden tunnistamisen tai luvattoman pääsyn resursseihin.

Sen ei tarvitse olla vain tekstipohjaisia ​​syötteitä, jotka tuottavat haitallisia tuloksia. Kuvilla ja muilla tiedoilla voi myös olla haitallisia vaikutuksia tekoälyyn. Esimerkiksi tutkijat ovat pakottaneet itseohjautuvat autot jättämään huomioimatta stop-merkkejä lisäämällä niihin tarroja ja nähdä stop-merkkejä, joita ei ole paikalla projisoi muutaman kehyksen mainostaululle – molemmilla voi olla katastrofaalisia seurauksia tiellä.

Myrkytys ylävirtaan

Vaihtoehtoisesti hyökkääjät voivat peukaloida tekoälyn työnkulkuja edelleen alkupäässä myrkyttämällä dataa, josta tekoälyjärjestelmät oppivat. Tämä voi muuttaa mallin käyttäytymistä ja saastuttaa lopputuloksia. Jotkut näistä hyökkäyksistä tehdään taloudellisista tai poliittisista syistä. Tutkijat kehittivät yhden työkalun, Belladonna, auttaa taiteilijoita hienovaraisesti muuttamaan digitaalisia kuviaan lisäämällä näkymättömiä pikseleitä protestina tekijänoikeudella suojattua materiaalia koskevaa LLM-koulutusta vastaan. Tämä saa kuvien luontiohjelmat tuottamaan arvaamattomia tuloksia.

Tietomyrkytyksen ei tarvitse olla laajalle levinnyt, jotta sillä olisi vaikutusta, ja kun sitä sovelletaan tiettyihin tietokokonaisuuksiin, kuten lääketieteellisissä järjestelmissä käytettyihin, tulokset voivat olla katastrofaalisia. Yksi tutkimus löytyi että vain 0.001 %:n koulutustokeneiden muuttaminen lääketieteellisellä väärällä tiedolla lisäsi merkittävästi lääketieteellisten virheiden todennäköisyyttä.

Tekoälyn tunkeutuessa jokapäiväiseen elämään järjestelmien kompromissien mahdollisuus vaikuttaa yhteiskuntaan kasvaa. Viisas hyökkääjä voi tehdä kaiken disinformaation luomisesta onnettomuuksien aiheuttamiseen tiellä, vaikuttaa turvallisuuden kannalta kriittisiin päätöksiin esimerkiksi lääketieteen aloilla tai estää tekoälyä havaitsemasta vilpillisiä tapahtumia.

AI-mallien suojaaminen

Mahdollisuudet tekoälyn kompromissiin ovat niin laajat – ja niiden seuraukset riittävän laajat –, että monipuolinen lähestymistapa tekoälyn hallintaan on ratkaisevan tärkeää. ISO 42001, kansainvälinen standardi tekoälyn hallintajärjestelmille, noudattaa kokonaisvaltaista lähestymistapaa, joka sisältää muun muassa tekoälyn organisatorisen kontekstin ja johtajuuden. Se sisältää myös suunnittelun, tuen, toiminnan sekä jatkuvan arvioinnin ja parantamisen. Se määrää teknisten eritelmien kehittämisen, mukaan lukien tietoturvan ja tietojen laadun, sekä tietoturvaprotokollien dokumentoinnin, jotta voidaan suojautua uhilta, kuten tietomyrkytyksiä ja mallin inversiohyökkäyksiä vastaan.

Hallitukset ovat ryhtyneet asettamaan tekoälylle turvallisuusrajoituksia. EU:n tekoälylaki velvoittaa korkean riskin järjestelmien vaatimustenmukaisuuden arvioinnin, joka sisältää vielä kehitteillä olevien testausvaatimusten noudattamisen. Yhdysvalloissa National Institute of Standards and Technology (NIST) oli jo AI Risk Management Framework (RMF) ennen kuin Bidenin hallinto julkaisi tekoälyn turvallisuutta koskevan toimeenpanomääräyksensä 14110 lokakuussa 2023 (nyt Trumpin hallitus on kumonnut). Tämä vaati täydentävän generatiivisen tekoälyn riskinhallintaresurssin, joka on NIST julkaistu viime kesäkuussa.

Toisin kuin NISTin AI RMF, ISO 42001 on sertifioitavissa. Ja vaikka NIST keskittyy voimakkaasti tekoälyjärjestelmien turvallisuuteen, ISO 42001 tutkii niiden roolia laajemmassa liiketoimintaympäristössä.

Miksi tekoälyn hallinnolla on nyt merkitystä

Tämänkaltaisista kehyksistä tulee yhä tärkeämpiä, kun perustavanlaatuisten LLM-mallien tarjoajat kilpailevat tarjotakseen uusia ominaisuuksia, jotka hämmästyttävät kuluttajia. Näin tehdessään ne lisäävät tekoälymallien hyökkäyspintaa, jolloin tietoturvatutkijat voivat löytää uusia hyötyjä. Esimerkiksi yritykset, kuten OpenAI ja Google, ovat ottaneet LLM-yrityksiinsä käyttöön pitkän aikavälin muistiominaisuudet, joiden avulla he voivat tutustua käyttäjiin läheisemmin ja tuottaa parempia tuloksia. Tämä antoi tutkijalle Johann Rehbergerille mahdollisuuden käyttää nopeaa injektiota kasvi vääriä pitkäaikaisia ​​muistoja Googlen Gemini LLM:ssä.

Tekoälymallien turvallisuutta kannattaa myös tutkia kyberhygienian perusasioissa. Tammikuussa 2025 tutkijat paljastivat kiinalaisen LLM DeepSeek -säätiön tietomurron, joka valloitti yleisön mielikuvituksen korkealla suorituskyvyllään. Tietomurron syyllä ei ollut mitään tekemistä nopean suunnittelun, mallin inversion tai minkään maagisen tekoälyn ominaisuuksien kanssa; se johtui a julkisesti esillä oleva pilvitietokanta sisältää chat-historian ja käyttäjätiedot. Tekoälyn uudessa jännittävässä maailmassa jotkin vahingollisimmista haavoittuvuuksista ovat masentavan vanhan koulukunnan haavoittuvuuksia.