Tankespioner og KI kan stjele vår språklige gullreserve

Eystein Hanssen leder av Forfatterforbundet

DEBATT: Kunstig intelligens (KI) lever av godt innhold, og støvsuger internettet for blant annet litteratur. Og det er ikke bare teknologimiljøer som er interessert i litterære åndsverk.

Prosessen hvor KI-roboter samler inn, indekserer og fordøyer data kalles «scraping». Blant det som skrapes inn er litterære åndsverk, uten at denne innsamlingen er klarert med rettighetshaverne. Vi forfattere reagerer naturligvis sterkt. En gruppe engelskspråklige forfattere har gått til sak mot Open AI, selskapet bak ChatGPT, fordi forfatterne mener roboten er trent på deres åndsverk uten deres, eller forlagets, tillatelse.

Content is King

Alle i mediebransjen har hørt en executive et-eller-annet si «content is king». Sjelden er det mer sant enn nå: KI må fores med enorme mengder innhold for å kunne fungere godt. Et dokumentert eksempel på en slik stor mengde informasjon er datasettet Books3, som en god stund har vært tilgjengelig for å trene store språkmodeller i KI. Books3 inneholder verk fra en rekke kjente forfattere som Stephen King, Margaret Atwood og Jonathan Franzen. Mellom 170 000 og 200 000 titler er identifisert. Lite av dette er klarert med rettighetshaverne.

Det er ikke annet enn naturlig at KI-debatten fram til nå har vært dominert av opphavernes krav om kontroll over hva deres åndsverk blir brukt til. Men et grunnleggende problem er hvordan alle disse verkene i det hele tatt har blitt tilgjengelige for KI-skraperne.

Alle skraper – over alt

KI-skrapere er det etter hvert en del av. De er slett ikke bare amerikanske, men også kinesiske, russiske, iranske og nord-koreanske. Fellesnevneren er at de er ute etter alt de kommer over, og de opererer over alt hvor de kan komme til. For eksempel kan de skrape informasjon inne i skyløsninger. «Skyen» er egentlig ikke noe annet enn summen av all lagring. OneDrive, iCloud, Dropbox, Google Drive etc. er eksempler på skylagring.

Forfattere og forlag lagrer data på slike steder alle som én. Og vi sender manusene til hverandre på e-post. Du kan vedde svigermoren din på at det er KI-skrapere som snuser rundt på e-postservere.

Skaden har allerede skjedd

Den opphavsrettslige skaden er et faktum. Hadde litteraturfeltet tatt datasikkerhet mer på alvor, ville vi kanskje ha kunnet redusere omfanget. Men nå må vi innse at teknologien er her, og at dataene er slukt. Det blir bortimot umulig å bevise hvor dataene i de store datasettene opprinnelig ble hentet fra, selv om opphaveren identifiseres. Alle som håndterer og lagrer opphavsrettslig beskyttede verk, har slik sett et medansvar for situasjonen vi har havnet i. KI vil ikke spy ut igjen kunnskap etter en rettsavgjørelse; den har allerede lært. KI er teknologi i utvikling, treningen som finner sted i dag er basert på gårsdagens trening.

Likevel er det aldri for sent å ta grep. For litteraturfeltet kan vi identifisere i hvert fall tre sentrale problemområder knyttet til KI hvor vi nå må ta grep: Opphavsrett, det jeg vil kalle tankespionasje og persondata.

Opphavsretten

Med norske øyne ser innsamling og bruk av opphavsrettslig beskyttede verk ut som tjuveri. I en amerikansk kontekst er det nødvendigvis ikke like klart. Advokater argumenterer for såkalt fair use, som for eksempel beskytter det å kopiere et verk i satire eller kommentarsammenheng, eller i utdanningsøyemed. På mange måter har vi noe lignende i Norge med tvangslisens, som for eksempel gir staten rett til å bruke litterære verk til eksamensoppgaver eller tilby disse til svaksynte. Det er behov for å gå opp definisjoner i lovverk på nytt. Kan KI defineres inn i eksisterende begreper, eller trenger vi nye?

Tankespionasje

Begrepet tankespionasje kan virke som science fiction og konspirasjon. Men ta utgangspunkt i litteraturens rolle i et vestlig demokrati, hvor forfatteren er en fritenker og samfunnskommentator. Vi produserer nye tanker. Og nettopp nye tanker er skremmende for alle som vil beskytte bestående maktstrukturer, slik vi særlig finner i totalitære regimer. Det spiller ingen rolle om nye tanker er formidlet som sakprosa, fiksjon, lyrikk, dramatikk eller journalistikk. Det er skribentens kritiske tanke og hens evne til å formidle denne til leserne, som oppfattes som en trussel mot det bestående. I Kina opplever allerede forfattere at manus sensureres, eller i verste fall låses helt, mens de skriver i et kinesisk skybasert skriveprogram.

Om en nasjon har vilje til å sensurere sine egne forfattere, er det grunn til å tro at det også fins en tilsvarende vilje til å sensurere andre. Til det trengs store mengder litteratur på andre språk. Om vi tillater oss å tenke videre her, fins det en skremmende logikk: KI gir teknologiske etterretningsstormakter som Kina muligheten av å sanke litteratur på andre språk i den hensikt å bedrive global overvåking og påvirkning. Det en norsk forfatter skriver på sitt tastatur på skriveloftet kan våre et ufrivillig bidrag til global overvåking og sensur. Kina har betydelige kapasiteter på KI. Her kan du lese Kinas AI-program.

Persondata

Den tredje området vi skal vær aktsomme på, er personinformasjon knyttet til forfattere og andre aktører på vårt felt. Alle forlag, og alle organisasjoner, har forfattere blant sine medlemmer og i sine staller som kan være av interesse for aktører som opererer på vegne av mindre demokratiske, eller totalitære regimer. Organisasjonen jeg jobber i har logget og sporet innbruddsforsøk fra blant annet Kina, Russland og Iran. Dette er land vi må forvente driver aktiv digitaletterretning mot norske organisasjoner. Like rimelig er det å anta at det samme er tilfellet med forlag og enkeltpersoner i bransjen. Hvor godt rustet er vi til å håndtere slikt?

Også forskningsmiljøene er utsatt

Klassekampen skrev lørdag 26. august om miljøet Norw AI ved NTNU, som nå utvikler Nor GPT, og denne prosessens enorme behov for innmating av tekst for å trene en norsk språkmodell. Man er i dialog med forleggerne. Gyldendals Einar Ibenholt svarte ansvarlig i samme artikkel at disse rettighetene har ikke forlagene mulighet til å gi. Godt er det.

NTNU har sine sikkerhetsmessige svin på skogen. Blant annet har de samarbeidet med kinesiske forskere tilknyttet kinesiske forsvarsuniversiteter. Bevisstheten rundt informasjons- og kunnskapsdeling kunne vært bedre ved institusjonen som skal håndtere vårt språklige gull.

Vær så god – skrap mitt nye manus

En bransje som fortsatt sender e-poster med ukrypterte manus til hverandre – jeg har syndet selv – framstår som totalt uforberedt på den data- og hackertrusselen vi står overfor. Hvor mange av aktørene på litteratturfeltet har IT-systemer som gir tilstrekkelig vertikal sikkerhet mellom brukere og nettside, eller dypere inn i systemene? Flere hacker-angrep i Norge de siste årene synes å ha utnyttet nettopp denne typen svakheter. Og hvor mange har sperret sine systemer for KI-skrapere? Hvor mange blant oss forfattere bruker krypterte skyløsninger for å lagre våre manus?

KI utgjør for vårt felt i bunn og grunn en trussel om industrispionasje. Grovt kan vi skille ut to typer aktører som bedriver slik aktiviteter: Kommersielle konkurrenter som ønsker et konkurransefortrinn, og etterretningsaktører som ønsker innsikt.

Med det kappløpet vi nå ser om å utvikle og bruke kunstig intelligens best og mest effektivt, må litteraturfeltet over på et helt annet nivå i forståelsen og utøvelsen av datasikkerhet. Hele vår næringskjede er utsatt. Vi må gå i oss selv: Har vi gjort det vi kan for å sikre vår språklige gullreserve – og posisjonen litteraturen har i vårt demokrati?

EYSTEIN HANSSEN