ai kontradiktoriset uhkat -blogi

Tärkeitä poimintoja NIST:n uusista vastakkaisia ​​tekoälyuhkia koskevista ohjeista

Tekoälyssä (AI) on käsite, jota kutsutaan "linjaukseksi", joka varmistaa, että tekoälyjärjestelmä noudattaa aina ihmisen aikomuksia ja arvoja. Mutta mitä tapahtuu, jos joku vaarantaa tekoälyjärjestelmän tehdäkseen jotain, mitä sen tekijät eivät halunneet?

Esimerkkejä tästä uhkaamisesta, joka tunnetaan nimellä kontradiktorinen tekoäly, vaihtelevat kasvojentunnistusjärjestelmiä tahallisesti pettävien meikkien käyttämisestä autonomisten autojen huijaamiseen tien poikki ajamiseen. Se on potentiaalisen riskin alue tekoälyjärjestelmien rakentajille ja heidän käyttäjilleen, mutta suuri osa sitä koskevasta tutkimuksesta on edelleen akateemista.

Tammikuussa Yhdysvaltain kansallinen standardi- ja teknologiainstituutti (NIST) julkaisi asiakirjan, jossa yritettiin tislata tätä tutkimusta. Se on ollut pitkä projekti. Ensimmäinen luonnos Vastakkainen koneoppiminen: Hyökkäysten ja lievennysten taksonomia ja terminologia ilmestyi vuonna 2019. Tämä uusin versio on viimeinen, ja se voi olla tärkeä perusasiakirja tekoälykehittäjille, jotka haluavat rakentaa lievennyksiä tuotteisiinsa.

Neljä hyökkäystyyppiä

Taksonomia jakaa kontradiktoriset tekoälyhyökkäykset useisiin luokkiin:

1) Väärinkäyttöhyökkäykset

Nämä tapahtuvat ennen kuin mallikoulutus edes alkaa manipuloimalla tietoja ennen sen keräämistä – syöttämällä mallille vääriä tai manipulatiivisia tietoja, jotka on suunniteltu vaikuttamaan sen tuloksiin. Toisin kuin muut, tämä hyökkäysmuoto on ainutlaatuinen generatiivisille tekoälyjärjestelmille (GenAI).

Olemme jo nähneet innovatiivisia esimerkkejä tästä taistelussa henkistä omaisuutta GenAI:ssa. Belladonna, Chicagon yliopiston tutkijoiden projekti, on työkalu, jolla taiteilijat ja kuvittajat voivat muokata töitään hienovaraisesti verkossa muuttamatta katsojien visuaalista kokemusta.

Nightshaden muutokset saavat GenAI-koulutusmallit tulkitsemaan väärin siinä olevia esineitä (se voi esimerkiksi pitää lehmää leivänpaahtimena). Tämä hämmentää GenAI-malleja, jotka luottavat harjoitustietoihin "uuden" taideteoksen. Nightshade käsittelee sitä, mitä tiimi näkee luvattomaksi tietojen varastamiseksi koulutustarkoituksiin, tekemällä siitä taloudellisesti ongelmallista GenAI-yrityksille.

2) Myrkytyshyökkäykset

Ne koskevat myös tekoälyn koulutusprosessia, mutta tavalla, joka tarkoituksella turmelee jo kerättyä dataa lopullisen koulutusmallin vääristämiseksi. Voisimme kuvitella, että joku hakkeroi visuaalista dataa, jota käytetään autonomisten ajoneuvojen kouluttamiseen, ja muuttaa tai merkitsee virheellisesti stop-merkkien kuvia ja muuttaa ne vihreiksi valoiksi.

3) Väistämishyökkäykset

Vaikka tekoälymalli on koulutettu tarkasti oikeille tiedoille, hyökkääjät voivat silti kohdistaa tekoälyjärjestelmään sen käyttöönoton jälkeen. Kiertohyökkäys kohdistuu päättelyprosessiinsa – uuden datan analysointiin opetetun mallin avulla – manipuloimalla uutta dataa, jota tekoälymallin oletetaan tulkitsevan. Autonomista ajoa koskevassa esimerkissämme joku saattaa lisätä merkintöjä kadulla oleviin pysäytyskyltteihin, jotka estävät ajoneuvoa tunnistamasta niitä ja kehottaa jatkamaan ajamista.

4) Tietosuojahyökkäykset

Jotkut hyökkäykset koskevat tietojen keräämistä sen sijaan, että vääristyvät mallin tulkinta siitä. Tietosuojahyökkäys kyselee tekoälymallia johtopäätösvaiheen aikana kerätäkseen arkaluonteisia tietoja sen koulutustiedoista. Tutkijat ovat jo keksinyt tapoja puhua OpenAI:n GPT-3.5 Turbo- ja GPT4-malleista luopumaan muiden käyttäjien sähköpostiosoitteista.

Kuinka lieventää näitä hyökkäyksiä

NIST-asiakirja tarjoaa teknisiä lieventäviä toimenpiteitä tämän tekoälyn väärinkäytön torjumiseksi. Näihin kuuluu kontradiktorinen koulutus, jossa datatieteilijät lisäävät koulutussarjaan tietoja, jotka estävät kiertohyökkäykset. Näillä on kuitenkin tyypillisesti kompromisseja esimerkiksi koulutusmallin tarkkuudessa, asiakirja myöntää ja kuvailee ratkaisuja näihin kompromisseihin "avoimina kysymyksinä".

Epäselvät lieventämistoimenpiteet vahvistavat tämän asiakirjan asemaa tutkimuksena akateemisesta työstä, joka koskee kontradiktorista tekoälyä ja sen tislaamista yksityiskohtaiseksi taksonomiaksi, jonka avulla ihmiset voivat varmistaa, että he kuvaavat samoja asioita puhuessaan näistä ongelmista. Se ei ole opas harjoittajille vastustaakseen kilpailevaa tekoälyuhkaa, varoittaa Nathan VanHoudnos, vanhempi koneoppimisen tutkija ja laboratorion johtaja Carnegie Mellonin yliopiston Software Engineering Instituten CERT-osastosta.

Laajemman kontekstin luominen

"Uskon, että nyt, kun he ovat tehneet kovan työn taksonomian kokoamiseen, olisi tilaa saada enemmän harjoittelijoihin keskittyvälle oppaalle", hän kertoo ISMS.online-sivustolle. "Asioita, jotka haluaisin nähdä tällaisessa oppaassa, ei olisi pelkästään koneoppimiskerroksen huomioiminen, vaan koko tekoälyjärjestelmän pino."

Tämä pino ulottuu tietokerroksen ulkopuolelle ulottuen taustalla olevasta GPU-laitteistosta pilviympäristöihin, joissa se toimii, ja tekoälyjärjestelmissä käytettyihin todennusmekanismeihin, hän selittää.

NIST on jo ryhtynyt merkittäviin toimiin auttaakseen tekoälyn toteuttajia antamalla käytännön neuvoja. Instituutti, joka loi Luotettavan ja vastuullisen tekoälyn resurssikeskuksensa maaliskuussa 2023, julkaisi AI Risk Management Framework tammikuussa 2023 yhdessä pelikirjan kanssa, joka on suunniteltu auttamaan hallitsemaan kaikkia tekoälyn aiheuttamia yksilöllisiä, organisaatioita ja sosiaalisia riskejä.

Helmikuun alussa 2024 NIST julkaisi RFI:n, koska se haki apua Valkoisen talon lokakuussa 2023 antaman toimeenpanomääräyksen mukaisten velvollisuuksien täyttämiseksi tekoälyn turvallisesta, suojatusta ja luotettavasta kehittämisestä ja käytöstä. Tämä sisältää tekoälyn auditointiominaisuuksien ja ohjeiden kehittäminen AI red teaming -toiminnalle.

Vaikka NIST:n tiedot kilpailevasta tekoälystä ovat tähän mennessä akateemisempia, VanHoudnos viittaa muihin täydentäviin resursseihin. MITERillä on sen Tekoälyjärjestelmien vastakkainen uhkamaisema (Atlas) Aloite, joka kerää todellisia tekniikoita kilpailevan tekoälyn hyökkäysketjun eri vaiheissa tiedustuksesta törmäykseen.

- AI Risk and Vulnerability Alliance, joka on tekoälyn tutkijoiden avoimen lähdekoodin yritys, sisältää myös tekoälyn haavoittuvuuksien taksonomia sekä tietokanta tietyistä hyökkäystyypeistä, jotka liittyvät tähän taksonomiaan (esim. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). Keskeinen ero AVID-taksonomian ja NIST:n välillä on, että se kartoittaa muodollisesti tekniset haavoittuvuudet korkeampiin riskeihin sellaisilla aloilla kuin turvallisuus (esim. tietovuodot), etiikka (esim. väärät tiedot) ja suorituskyky (esim. tietoongelmat tai yksityisyyteen liittyvät vaikutukset).

Vastakkaisten haasteiden yhdistäminen näihin korkeampiin riskeihin on keskeinen osa uutta työtä tekoälyyn liittyvien vaarojen tutkimiseksi, VanHoudnos ehdottaa. Loppujen lopuksi tekoälyn epäonnistumisen yhteiskunnalliset vaikutukset – joko tahallisesti tai muutoin – ovat valtavat.

"Tekoälyjärjestelmien suurin riski on niiden aiheuttama tahaton vahinko", VanHoudnos selittää. Se voi vaihdella vahingossa valehtelee asiakkaille asti epäoikeudenmukaisesti syyttämässä ihmisiä veropetoksesta ja hallituksen kaataminen tai taivutella henkilöä tappamaan itsensä.

Tässä yhteydessä hän mainitsee myös turvallisuuden ja kehittyvän teknologian keskuksen, joka on yrittänyt luokitella ja virallistaa nämä vahingot raportissaan Rakenteen lisääminen tekoälyvaurioon.

Lisää töitä vielä tehtävänä

NIST-dokumentti on kattava katsaus alan termeistä ja tekniikoista, ja se toimii hyödyllisenä täydennyksenä työhön, jossa jo dokumentoidaan kiistanalaisia ​​tekoälyriskejä ja haavoittuvuuksia alueella. VanHoudnos on kuitenkin huolissaan siitä, että meillä on vielä tehtävänä näiden riskien omaksumisessa ammatinharjoittajan näkökulmasta.

"Vasta viime kesänä ihmiset alkoivat todella ottaa vakavasti ajatus siitä, että tekoälyn tietoturva on kyberturvallisuutta", hän päättää. "Kesti hetken, ennen kuin he ymmärsivät, että tekoäly on vain sovellus, joka toimii verkkoon liitetyissä tietokoneissa, mikä tarkoittaa, että se on CISO:n ongelma."

Hän uskoo, että alalla ei vieläkään ole vankkaa menettelykehystä kontradiktoristen vastatoimien toteuttamiseksi. Niiden välillä CMU ja SEI seisovat AI Security Incident Response Team (ASIRT), kansallisille turvallisuusorganisaatioille ja puolustusteollisuudelle suunnattu aloite, joka keskittyy tutkimaan ja kehittämään muodollisia lähestymistapoja tekoälyjärjestelmien suojaamiseksi vihollisilta.

Tällainen ponnistus ei voi tulla tarpeeksi pian, varsinkin kun otetaan huomioon NIST:n väite, jonka mukaan "ei ole vielä olemassa idioottivarmaa menetelmää tekoälyn suojaamiseksi harhaanjohtamiselta". Jälleen kerran joudumme todennäköisesti loputtomaan taisteluun vihollisten kanssa suojellessamme tekoälyjärjestelmiämme kumouksilta. Mitä nopeammin aloitamme tosissaan, sen parempi.

ISMS.online tukee nyt ISO 42001 -standardia - maailman ensimmäistä tekoälyn hallintajärjestelmää. Napsauta saadaksesi lisätietoja