– Et samfunnsansvar å bidra til en norsk språkmodell

TEKNOLOGIDIREKTØR I SCHIBSTED: – Jeg syns prinsipielt at norske selskap med store mengder språkdata har et samfunnsansvar til å bidra til en norsk språkmodell, sier Sven Størmer Thaulow (Foto: Martin Slottemo Lyngstad / Paragon)

KUNSTIG INTELLIGENS OG BOKBRANSJEN: Mediene omfavner KI, bokbransjen nøler. Hva kan forfattere og forleggere lære av journalistene?

– Jeg tror ikke man skal se på kunstig intelligens som et forbigående fenomen, men ta innover seg den dyptgående innvirkningen det vil ha på hele kunnskapssektroren, sier Henrik Vold, fagmedarbeider ved Institutt for journalistikk.

I en artikkelserie på Bok365, ser vi nærmere på kunstig intelligens og bokbransjen. Kunstig intelligens gir fundamentale endringer på litteratur- og kulturfeltet. Mediebransjen virker derimot å ha omfavnet den nye teknologien, mens bokbransjen fremdeles holder den på en armlengdes avstand. På hvilken måte har KI blitt en naturlig del av medienes hverdag – og hva mener de bokbransjen har å lære av dem?

JOBBER MED KI I FAKTISK.NO: Morten Dahlback (Foto: Faktisk)

– I media er det mange som bruker generativ KI redaksjonelt. Det blir gjerne brukt til å oppsummere artikler, som korrekturleser, til å forbedre eller forenkle språk, og noen ganger til å lage artikler om «harmløse» tema, som for eksempel kjendisnyheter fra utlandet. Det er en veldig lav risiko å lene seg på kunstig intelligens til slike formål, så lenge det blir kontrollsjekket av et menneske, sier Morten Dahlback, leder for innovasjon og teknologi i Faktisk.no, hvor han blant annet jobber med kunstig intelligens.

Han forteller at de fleste nyhetsredaksjoner som benytter KI i artikkelproduksjoner, gjør det gjennom «enterpriseavtaler» med teknologiselskapene. I disse avtalene finnes klausuler om at innholdet journalistene legger inn i KI-modellen ikke blir lagret eller brukt til opptrening.

– Det er heller ikke veldig komplisert å sette opp en egen GPT, sier Dahlback, og forteller at Faktisk.no har brukt ChatGPT til å utvikle interaktive kart over blant annet Gaza-sykehusene og fått hjelp til å analysere TikTok-videoer for å se hvilke følelser norske influensere oftest uttrykker. Dahlback trekker også frem NRKs artikkelserie om naturtap som et godt eksempel på bruk av KI i journalistikken.

– Det er veldig mange fordeler ved å bruke KI, blant annet kan man jobbe med mer krevende og interessante journalistiske prosjekter, som redaksjoner kanskje ikke ellers har kapasitet til.

Per Christian Evensen Helme arbeider med automatisering av innhold i NTB, gjennom artikkelroboter.

LAGER ARTIKKELROBOTER: Per Christian Evensen Helme arbeider med automatisering av innhold i NTB. (Foto: NTB)

– Artikkelrobotene lager blant annet kampreferat fra fotball, helt fra eliteserien ned til 14 år. De artiklene har ekstremt høy verdi for dem som er interessert i akkurat den «Gutter 15»-kampen som blir referert. Men ingen journalist ville noen gang skrevet den saken.

Helme anslår at NTB produserer rundt 80 000 slike fotballsaker i året, mellom 100-200 000 saker om eiendomsmarkedet og 40- til 50 000 saker om valgresultat, både på kommune- og fylkesnivå.

– Det er ikke alt som blir publisert i media, men det er et bilde på hvordan vi kan jobbe mer personalisert. Blant annet kan lokalaviser få nyheter om fotball, boligmarkedet og valgresultater som er perfekt tilpasset sin hjemkommune.

De nye robotene har med andre ord frigjort mye tid for journalistene?

– Ja. Et annet godt eksempel her på huset er Nynorsk pressekontor. NTB har utviklet en nynorsk presserobot som oversetter fra bokmål. Så i dag arbeider pressekontoret i hovedsak med å lage egen journalistikk, heller enn å oversette. Det er med andre ord mye rutine som kan automatiseres.

Begrenset hvor mange jobber KI kan ta

– Det er ikke måte på hvor mange feil vi mennesker kan gjøre, spesielt innenfor breakingjournalistikk.  Når flere journalister arbeider på samme sak, kan KI hjelpe til med å fjerne gjentakelser, holde en god struktur og forbedre teksten, sier Vold.

Dahlback mener også at KI har påvirket kvaliteten og effektiviteten i journalistikken – men kanskje ikke på den måten man skulle tro:

(Foto: Pexels)

– KI-generert artikkeloppsummering har gjort at flere velger å lese hele artikkelen. Vi vet ikke helt hvorfor, men min teori er at når leserne vet hva de får, så har de mer lyst til å lære om detaljene. Sånn sett har den journalistiske kvaliteten blitt bedre, fordi brukeropplevelsen for nyhetsleserne er bedret. Og så har bruken av KI i undersøkende journalistikk gjort det mulig å jobbe frem andre type saker enn før. Så den nye teknologien har slik sett utvidet journalistikken.

– Med robotenes inntog, er det en bekymring for at journalistene kan miste jobbene sine?

– Det har vi ikke sett så mye av ennå, og det er nok fremdeles litt tidlig å si hva som vil skje. Samtidig er mediebransjen veldig påpasselig med å kvalitetssikre innhold og ikke publisere noe som ikke er redaktørgodkjent eller sjekket presseetisk. Så det er begrenset hvor mange jobber KI kan ta i dag, sier Dahlback.

NorGPT: Burde bokbransjen bidra?

– I Schibsted har vi fokusert på både utvikling av KI-verktøy til journalistisk produksjon, men også hvordan vi kan bidra inn i utviklingen av norsk KI og ikke bare å utnytte den. Schibsted har i over 180 år vært kjent for å omfavne ny teknologi i stedet for å kjempe i mot den – og det har vi også gjort med KI, sier Sven Størmer Thaulow.

Ved siden av å være data- og teknologidirektør i Schibsted, er Thaulow også styreleder i KI-forskningsenteret NorwAI ved NTNU, som har stått bak utviklingen av NorGPT – en helnorsk språkmodell.

(Foto: NorwAI/NTNU)

– Utfordringen med andre språkmodeller, er at norsk gjerne blir direkte oversatt fra engelsk samt at modellens opphavsnasjon har satt sitt kulturelle preg på innretningen av den. Vi tror slike modeller vil bli en kritisk del av infrastrukturen i offentlige- og private tjenester i fremtiden. De dominerende modellene i dag er utviklet av store amerikanske teknologiselskaper. Disse er «svarte bokser» der vi ikke vet hva som foregår inni dem. I prinsippet kan disse modellene manipuleres til å gi resultat man ikke ønsker – eller å unnlate å gi det resultatet brukeren faktisk ber om.

Thaulow trekker parallell til bokbransjen:

– Vi vet jo at lærebøker er et av de viktigste verktøyene for å forme en nasjons identitet og kultur, og hvordan de ofte blir misbrukt i diktaturer for å tjene regimets interesser. Når det neste steget innenfor EdTech er den interaktive, personlige læreren, hvor elever kan snakke med lærebøkene via KI, som med ChatGPT i dag, blir spørsmålet hvilken språkmotor som skal ligge til grunn for dette? Bokbransjen kan ikke lage den alene; de trenger en modell i bunnen, en såkalt basemodell. Skal den da være utviklet av USA, Kina, Europa eller Norden? Hvordan modellen er utformet, og hva den får lov til å si, er et politisk spørsmål. Eksempelvis vil en kinesisk modell aldri diskutere opprøret på Den himmelske freds plass, og en arabisk modell vil unngå temaer som anses som haram. For en del use case er det helt ok – men for mange andre – er det ikke greit.

Thaulow forteller at NorGPT er en Open Source-modell, og er utviklet og trent på innhold donert til prosjektet fra Schibsted og NRK i tillegg til deler av de åpne tilgjengelige tekstene fra Nasjonalbiblioteket (Norwegian Colossal Corpus). NorGPT er tilgjengelig å bruke for alle som ønsker i Norden. Men, som med andre språkmodeller er den ikke perfekt. Og forbedring kommer bare gjennom trening på store mengder norsk tekst.

TEKNOLOGIDIREKTØR I SCHIBSTED: – Jeg syns prinsipielt at norske selskap med store mengder språkdata har et samfunnsansvar til å bidra til en norsk språkmodell, sier Sven Størmer Thaulow (Foto: Martin Slottemo Lyngstad / Paragon)

Kan forlagenes litterære databaser være en verdifull ressurs for å trene opp norske språkmodeller?

– Vi har forsøkt en dialog med forlag og forfatterforeninger, men det har vært en treg materie. Derfor har vi først og fremst fokusert på medieinnhold. Jeg syns prinsipielt at norske selskap med store mengder språkdata har et samfunnsansvar til å bidra til en norsk språkmodell. Det betyr ikke at man skal være dum når man gir fra seg innhold, men tenke seg om i forhold til sin forretningsmodell. Et eksempel fra mediesiden, er at det forretningsmessig er lettere å gi fra oss eldre saker, enn friske nyheter. For sistnevnte er jo det vi lever av.

Thaulow vektlegger at det handler om å finne en forretningsmessig balanse:

– Hvis jeg skal driste meg til å mene noe om en annen bransje, vil jeg påpeke at den største inntektskilden for norske forlag ikke er skjønnlitteratur, men lærebøker. Man vil ikke gi bort det man lever av, men kanskje man kunne donert lærebøker av eldre dato? Så kan man igjengjeld bruke NorGPT som en basemodell for å lage egne generative KI løsninger til elever på toppen av det, videretrent med aktuelle lærebøker.

Ikke sikkert skjønnlitteratur er interessant

– Det er ikke gitt at all type litteratur er viktig for en norsk språkmodell. Kanskje trenger ikke språkmodellen skjønnlitteratur og poesi for å bli bedre, sier Thaulow.

Norske forfattere har uttrykt bekymring for at verkene deres kan bli brukt til å trene opp KI uten kompensasjon, og at deres unike skrivestil kan bli gjenkjent og etterlignet.

Er dette en frykt du forstår?

– Jeg forstår godt de som skriver, vil ha kontroll på det. Det er helt åpenbart at de skal ha råderett på hvorvidt deres verk skal være med på noe sånt. Men jeg tror ikke det kommer til å bli et problem at språkmodellene blir som papegøyer som gjentar verkene deres, sier Thaulow.

Vold påpeker også at den frykten er litt vag, med et innslag av teknofobi. Samtidig mener han forfatterne må kompenseres:

MENER OPPHAVSRETTHAVERNE MÅ KOMPENSERES: Henrik Vold. (Foto: Institutt for Journalistikk)

– Det er provoserende at de som har stått i front av denne revolusjonen, har forsynt seg grovt av datapunkter uten å kompensere de som har laget innholdet. Opphavsrettshaverne burde kompenseres. Det tvinger seg frem på et eller annet tidspunkt at tekstselskapene må dele noe av sitt gigantiske overskudd, sier Vold.

Men forfatterne kan sove godt om natten, i trygghet for at robotene ikke kommer til å erstatte dem med det første?

– Ja, er du gæren. Og i lang tid fremover. Vi er ikke der at KI har bevissthet, og kan utvikle noe unikt menneskelig. Du kommer aldri til å få noen Fosse-bot, sier Vold.

Thaulow sier at han opplever at forfattere og forfattere har hatt en veldig svart/hvitt-tilnærming til KI, i hvert fall i tidlige faser.

– NorGPT blir ikke gitt bort med kommersielt formål, men er gratis for alle å benytte i Norden. Hvis forlagene og forfatterforeningene skal bruke NorGPT, for eksempel til å fremstille lærebøker, uten å ha bidratt til utviklingen, så er ikke det bra. Det blir som å nyte rene gater etter at de andre naboene, altså medieindustrien og staten, har jobbet på dugnaden. Men vi må finne løsninger hvor man bidrar av fri vilje og at ingen føler seg lurt. Og jeg tror den beste til å fremforhandle gode avtaler på dette feltet, er Nasjonalbiblioteket.

Hamre løs på traktoren eller pløye marken mer effektivt?

– Det er veldig dumt å ikke skaffe seg kunnskap om hvilke muligheter man har med de nye verktøyene. Det er en dårlig ide å sitte rolig i båten og vente på at det skal gå over, sier Helme.

Flere store internasjonale medieselskap har inngått partnerskap med KI-utviklerne. Blant annet har Washington Post inngått et samarbeid med OpenAI, mens Financial Times og Springer har inngått avtaler med KI-selskaper om bruk av innholdet deres til opptrening av KI-modeller. New York Times har på sin side saksøkt OpenAI.

(Foto: Pexels)

Helme mener det kan være viktig for medieselskap å skaffe seg teknologipartnere og inngå allianser i teknologimiljøer (som for eksempel NTNU eller UiO).

– Det er alltid litt cowboytilstander i begynnelsen av en teknologisk utvikling, men jeg tror den raskeste veien til mål er å inngå avtaler som sikrer opphavsretten til innholdet som sendes til modellene og at dataene ikke deles med andre. Da vil det etterhvert komme et lovverk på plass. Trafikkreglene kom jo en stund etter bilen ble oppfunnet, sier Helme, og påpeker at det har skjedd mye på lovfronten i sommer, med EUs «AI Act», og at Norge nylig underskrev på Europarådskonvensjonen om kunstig intelligens.

Hva mener du bokbransjen kan lære av mediebransjens bruk av KI?

– Vær tidlig ute med å utforme eget etisk regelverk, vær nysgjerrig og test ut i trygge rammer, sier Helme.

Dahlback på sin side mener KI ikke nødvendigvis er relevant for produksjonssiden av litteraturbransjen:

– Man burde bare bruke kunstig intelligens hvis det tilfører verdi til virksomheten – og hvis ikke KI tilfører noe verdi til det å lage bøker, så skal man ikke gjøre det. Jeg kan ikke helt se hvordan det skal brukes av skjønnlitterære forfattere. Sakprosaforfattere kan lene seg på KI til research. Produktmessig virker det altså ikke så relevant med KI i bokbransjen. Jeg ville ikke syntes det var noe særlig å lese en bok som viste seg å være skrevet av KI og kontrollert av forfatteren. Det ville ødelagt leseropplevelsen.

Men det er ett område Dahlback mener KI har en plass på litteraturfeltet:

(Foto: Pexels)

– Lydbok er det eneste området, hvis man får det til å fungere ordentlig, jeg ser for meg at forlagsbransjen kan bruke KI på en veldig effektiv måte.

Vold mener derimot at forlagsansatte ikke må sky unna den nye teknologien:

– Forlagsbransjen burde se nærmere på VGs retningslinjer for bruk av KI. Den handler om å behandle teknologien med varsomhet, men også med nysgjerrighet. Det siste punktet tror jeg er ganske vesentlig. Det viktigste forlagsansatte bør gjøre akkurat nå er ikke å stikke hodet i sanda. Dette er ikke et problem som går bort, det er den fjerde industrielle revolusjon. Du kan hamre løs på traktor i grøftekanten eller skal du pløye marken mer effektivt.

 

ANDRE ARTIKLER I SERIEN: 

KI i bokbransjen: En trussel eller en mulighet?

– Stigmaet rundt KI vil forsvinne om noen år

– Åndsarbeid er truet

Inga Strümke: – De store forlagene vil være trendsetterne