Lovløse språkmodeller?

Bjørgulv Vinje Borgundvaag (foto: C-F Wesenberg)

DEBATT: Det er helt avgjørende at vi i Norge fortsetter å respektere folks rett til eget intellektuelt arbeid når rammeverket for norske språkmodeller utvikles, skriver Bjørgulv Vinje Borgundvaag i Forleggerforeningen.

Norske språkmodeller trenger strategi og penger, skriver kommentator Joachim Lund i Aftenposten 27.10. Men hvilke tekster skal trene de norske språkmodellene? Internasjonalt har noe som startet som et idealistisk prosjekt endt opp som en forretningsmodell delvis basert på tyveri av åndsverk. Også norske forfattere er frastjålet åndsverk, og Forleggerforeningen sender nå støttebrev til amerikanske forfattere og forleggere til rettsprosessen.

I Danmark kan forlagene reservere seg mot såkalt høsting eller dataskraping, for å sikre rettighetene til forfattere og forlag. I Norge er EU-direktivet som behandler text and data mining (TDM) fortsatt ikke innført, men Forleggerforeningen har både i den foreløpige høringen i 2016 og i svaret på Kulturdepartementets ytterligere 74 spørsmål til saken i 2021 sagt tydelig ifra: rettigheter skal respekteres.

Norske språkmodeller må mates med norskspråklige treningsdata for å bli gode. Forskningsmiljøene ønsker seg mer data, og helt konkret ønsker de seg tilgang til opphavsrettslig beskyttede tekster. Nasjonalbiblioteket var tidlig ute med digital utvikling og har allerede gjort store norske tekstsamlinger tilgjengelige, også i datasettet Norsk kolossalt korpus (NCC), som kan brukes til å trene språkmodeller. Korpuset finnes også i en plussversjon der norske forfatteres opphavsrettsbeskyttede åndsverk er lagt inn.

Et felles europeisk rettslig rammeverk for bruk av kunstig intelligens skal komme i AI act, et fremtidig direktiv som etter EØS-avtalen også skal gjennomføres i norsk rett. Den store utfordringen er at dette vil bli innført flere år etter at generative språkmodeller er utviklet og forretningsmodeller for kunstig intelligens har etablert seg. Norske forleggere, gjennom den europeiske forleggerforeningen (FEP), avkrever nå EUs lovgivere åpenhet om treningsdata for generative KI-modeller, i en felles uttalelse med europeiske bokhandlere (FEIB) og forfattere (EWC). For andre lands generative KI-modeller er utviklet på en ugjennomsiktig og urettferdig måte, med tyveri av millioner av opphavsrettsbeskyttede bøker uten tillatelse fra forfattere eller forlag.

At forfattere og forlag skriver og utgir norskspråklige læremidler og litteratur i alle sjangre er en bærebjelke for norsk språk, kultur og konkurransekraft. I vårt høyteknologiske samfunn med høyt kostnadsnivå er kunnskap og kompetanse i en solidarisk samfunnsmodell vårt fremste fortrinn. Da er det helt avgjørende at vi i Norge fortsetter å respektere folks rett til eget intellektuelt arbeid når rammeverket for norske språkmodeller utvikles. Her må et tverrfaglig arbeid initieres og koordineres fra politisk hold, skrev Inga Strümke nylig. Det initiativet bør vår nye digitaliseringsminister Karianne Tung ta snarest, sammen med kulturminister Lubna Jaffery.

Norske forleggere er skeptiske til at opphavsrettslige beskyttede verk skal brukes i treningskorpus for norske språkmodeller. Vi mener det svært tvilsomt om slik bruk kan forenes med den grunnleggende og helt nødvendige respekten for åndsverkenes integritet og verdi som vårt samfunn bygger på.

 

BJØRGULV VINJE BOGRUNDVAAG
samfunnskontakt i Forleggerforeningen