15 oktober 2024

Tysk domstol treffer den første avgjørelsen om tolkning av unntaket for tekst- og datautvinning i digitalmarkedsdirektivet artikkel 3 (og 4)

Landgericht Hamburg traff 27.9.24 avgjørelse i Kneschke v. LAION (sak 310 0 227/23) – den første avgjørelsen om tolkning av unntaket for tekst- og datautvinning i digitalmarkedsdirektivet artikkel 3 (og 4). Avgjørelsen legger til grunn at LAIONs eksemplarfremstilling av et bilde ved innhenting av og behandling av data i et datasett til bruk for trening av kunstig intelligens, er lovlig etter unntaket for tekst- og datautvinning for forskningsformål i digitalmarkedsdirektivet artikkel 3. 


LAION (Large-scale Artificial Intelligence Open Network) er en tysk ideell organisasjon som utvikler åpne modeller og datasett for kunstig intelligens. LAION laget fra 2021 et datasett for trening av generativ kunstig intelligens – LAION-5B. Datasettet besto av et tabellbasert dokument som inneholdt hyperlenker til bilder som er offentlig tilgjengelige på internett samt en tekstbeskrivelse av bildets innhold. Datasettet omfatter omlag 5,85 milliarder slike lenker med tilhørende tekst. Dette datasettet ble senere brukt til å trene flere kjente tekst-til-bilde-modeller, inkludert Stable Diffusion og Imagen.


Frembringelsen av datasettet skjedde ved at LAION benyttet seg av et eksisterende datasett fra Common Crawl, som inneholdt et tilfeldig tverrsnitt av lenker til bilder som var tilgjengelige på internett, med tekstbeskrivelser. LAION lastet ned bildene Common Crawl-datasettet lenket til og analyserte disse ved hjelp av programvare for å kontrollere om beskrivelsen av bildets innhold i det eksisterende datasettet faktisk samsvarte med det som var synlig på bildet. Bilder der tekst og innhold ikke stemte overens, ble filtrert ut. Deretter ble metadata i form av lenken og billedteksten til de gjenværende bildene hentet ut og lagt inn i et nytt datasett.


Blant bildene som LAION-5B lenket til, var et bilde av fotografen Robert Kneschke. Bildet var lisensiert til Bigstockphoto, og eksemplar i lav oppløsning var av LAION lastet ned fra deres nettsider. Knesche begjærte midlertidig forføyning mot LAION ved Landgericht Hamburg med krav om at inngrepet skulle opphøre


Landgericht Hamburgs avgjørelse 

Landgericht Hamburg deler i avgjørelsen prosessen med opptrening av generativ kunstig intelligens i tre, hvor saken utelukkende angikk det første steget i prosessen:

  1. Opprettelse og bearbeidelse av et datasett som kan brukes også til trening av kunstig intelligens.
  2. Den etterfølgende treningen av et kunstig nevralt nettverk ved bruk av datasettet.
  3. Den påfølgende bruken av den trente KI-en til å generere nytt bildeinnhold.

Det var ikke tvilsomt at nedlastingen og behandlingen av bildet for å gjøre dette til en del av LAION-5B, innebar en eksemplarfremstilling. Denne kunne ikke anses som en lovlig midlertidig eksemplarfremstilling etter UrhG § 44a (som gjennomfører infosocdirektivet artikkel 5 nr. 1, tilsvarende åvl. § 4). Bildene var her bevisst lastet ned for å bli analysert, og eksemplarfremstillingen utgjorde da ikke en tilfeldig, underordnet del prosessen, men hadde et selvstendig formål.


Retten anså derimot at eksemplarfremstillingen utgjorde lovlig tekst- og datautvinning etter UrhG § 60d, som gjennomfører unntaket for tekst- og datautvinning for forskningsformål i digitalmarkedsdirektivet artikkel 3.


Både digitalmarkedsdirektivet artikkel 3 og 4 krever at den som utfører utvinningen har «lovlig tilgang» til dataene det fremstilles eksemplar av. Dette var uproblematisk i den konkrete saken, hvor bildet var lagt åpent tilgjengelig ut på nettet av Bigstockphoto med samtykke fra fotografen 


Retten legger videre til grunn at eksemplarfremstillingen som skjedde i forbindelse med frembringelsen av datasettet må anses som «tekst og datautvinning» etter artikkel 3. Eksemplarfremstillingen var gjort for å sammenligne bildene med den eksisterende teksten i det opprinnelige datasettet og dermed for å innhente informasjon om «korrelasjoner» etter UrhG § 44b (jf. digitalmarkedsdirektivet artikkel 2 nr. 2).  Saksøker anførte riktignok at unntaket for tekst- og datautvinning måtte tolkes innskrenkende, men dette ble avvist av retten (se nærmere om dette nedenfor). Tretrinnstesten tilsa heller ikke en annen konklusjon.


Eksemplarfremstillingen hadde også et forskningsformål, i betydningen at den var del av en metodisk og systematisk søken etter ny erkjennelse. Forskningen hadde også et ikke-kommersielt formål, hvilket er et vilkår i UrhG § 60d andre ledd nr. 1. Det var her uten betydning at datasettet ble gjort åpent tilgjengelig, også for kommersiell bruk, da det avgjørende var om forskningsaktiviteten i seg selv hadde et ikke-kommersielt formål.


Selv om dette ikke er avgjørende, går retten også langt i å drøfte om eksemplarfremstillingen er lovlig etter UrhG § 44b som gjennomfører det generelle unntaket for tekst- og datautvinning i digitalmarkedsdirektivet artikkel 4. Retten fant det her nærliggende at rettighetshaver hadde tatt forbehold mot tekst- og datautvinning («opt out») gjennom en disclaimer som lå tilgjengelig på billedbyråets side som bildet ble lastet ned fra. Det var her tilstrekkelig at forbeholdet lå i klartekst, da kunstig intelligens normalt ville være i stand til å lese et slikt forbehold. 


Immaterialrettstrollets bemerkninger

Landgericht Hamburgs avgjørelse i Kneschke v. LAION er den første avgjørelsen fra nasjonale domstoler som tolker unntakene for tekst- og datautvinning i digitalmarkedsdirektivet artikkel 3 og 4. Saken i seg selv er ganske snever. Dels fordi den bare angår innsamling og behandling av data som senere kan brukes til opptrening av kunstig intelligens, men ikke bruk av dataene til selve opptreningen; og dels fordi saksøker bare er rettighetshaver til ett fotografi i datasettet.


«Lovlig tilgang»

Retten legger uten nærmere drøftelse til grunn at LAION har hatt «lovlig tilgang» til fotografiet, da dette lå åpent tilgjengelig på nett med fotografens samtykke. Her kan det riktignok anvendes at tilgangen ikke lenger er «lovlig» om rettighetshaver har tatt forbehold om ytterligere bruk. I de fleste tilfeller er det imidlertid tvilsomt om et slikt ensidig forbehold på en nettside innebærer noen avtalebinding. Det er derfor vanskelig å se at for et verk som ligger åpent tilgjengelig på nett med rettighetshavers samtykke, ikke foreligger «lovlig tilgang» til verket.

 

"Lovlig tilgang"?

Generelt er det imidlertid mye materiale som legges åpent tilgjengelig ut på Internett uten rettighetshavers samtykke. Den som samler og strukturere data og trener kunstig intelligens har «tilgang» til slike data, men i utgangspunktet ikke «lovlig tilgang».  


Omfatter tekst- og datautvinningsunntakene trening av AI?

Spørsmålet om opptrening av generativ kunstig intelligens omfattes av tekst- og datautvinningsunntakene i digitalmarkedsdirektivet har i det siste fått fornyet oppmerksomhet, blant annet gjennom en større tysk utredning om spørsmålet (Dornis og Stober, «Urheberrecht und Training generativer KI-Modelle»).


Saksøker anførte at unntaket for tekst- og datautvinning måtte tolkes innskrenkende, slik at det bare omfattet avdekking av «informasjon som er skjult i dataene», men ikke utnyttelse av «innholdet av den åndelige skapelsen» som dannet grunnlag for å frembringe tilsvarende verk, typisk ved hjelp av kunstig intelligens. 


Landgericht Hamburg var imidlertid ikke overbevist. For det første fant retten fant det vanskelig å i det hele tatt trekke en grense mellom de to kategoriene for digitale verk. For det andre var det uten betydning at innsamling og strukturering av data kunne brukes til å frembringe tilsvarende verk på et senere tidspunkt, da dette bare var én mulighet av datautvinningen på tidspunktet for eksemplarfremstillingen. For det tredje kunne den omstendighet at lovgiver ikke hadde «tatt AI i betraktning» ved vedtakelsen av unntakene for tekst- og datautvinning ikke begrunne en innskrenkende tolkning, da utviklingen av AI siden 2019 først og fremst har påvirket ytelsene til nevrale nettverk, og i mindre grad påvirket omfanget og arten av datautvinning for å samle treningsdata.


Nå er det nok lettere å tilbakevise disse argumentene hva angår innsamling og behandling av data enn for selve treningen av modellen. I det sistnevnte tilfellet vil argumentet om eksemplarfremstilling i forbindelse med opptrening ikke bare avdekker sammenhenger i dataene, men setter bruker av den ferdig trente modellen i stand til å skape nye, tilsvarende verk, ha større vekt.


Rettens avgjørende argument mot en slik innskrenkende tolkning står seg imidlertid også for disse tilfellene: AI Act artikkel 53 nr. 1 bokstav c forutsetter at opptrening av kunstig intelligens omfattes av unntaket for tekst- og datautvinning, når den pålegger leverandører av generelle AI-modeller å innføre en policy for å overholde blant annet digitalmarkedsdirektivet artikkel 4 nr. 3.


Forskningsformål

Det var for retten relativt kurant å legge til grunn at LAION, som en ideell organisasjon, hadde et forskningsformål med innhentingen og behandlingen av bildet i saken. Spørsmålet om man fortsatt var innenfor rammene for UrhG § 60d oppsto i forbindelse med et vilkår i den tyske loven om at forskningsinstitusjoner som omfattes av unntaket ikke må forfølge kommersielle formål. Domstolen legger her til grunn at det er uten betydning at det ferdige datasettet er gjort åpent tilgjengelig, også for kommersiell bruk, så lenge selve opptreningen har forskningsformål. Dette er ikke opplagt, da det på mange måter fremstår som en bakvei til kommersiell utnyttelse av data som er undersøkt under forskningsunntaket. På den annen side er det å kunne formidle resultater av forskning tilgjengelig ved å gjøre resultatene tilgjengelig slik at det kan utnyttes, en sentral del av formålet med forskning. Spørsmålet vil nok bli gjenstand for diskusjon i fremtiden, særlig når det kommer til tilgjengeliggjøring av ferdig trente modeller. 


Et ytterligere spørsmål er om den etterfølgende tilgjengeliggjøringen av et datasett i seg selv kan innebære et opphavsrettsinngrep. Datasett til bruk for opptrening av billedgeneratorer inneholder normalt ikke bildene selv, men lenker til disse. Og lenker til verk som er gjort tilgjengelig uten rettighetshavers samtykke innebærer i utgangspunktet et opphavsrettsinngrep dersom den som lenker har kunnskap om det manglende samtykket, jf. C‑160/15 GS Media. Dersom lenkingen ikke har et kommersielt formål, presumeres den som lenker å ikke ha slik kunnskap, jf. C‑160/15 avsnitt 47. Dette må normalt være tilfellet for en forskningsstiftelse som gjør et datasett med lenker åpent tilgjengelig, uavhengig av om datasettet også kan brukes av andre til kommersielle formål. Dette endrer seg imidlertid om lenker får kunnskap om lovligheten av materialet det lenkes til, for eksempel gjennom melding fra rettighetshaver, jf.  C‑160/15 avsnitt 49. I et slikt tilfelle vil lenker i et datasett som ikke gjøres tilgjengelig for profittformål også innebære et opphavsrettsinngrep.


I den konkrete saken var bildet uansett gjort tilgjengelig av Bigstockphoto med rettighetshavers samtykke. Spørsmål om lovligheten av deling av lenkene i datasettet var derfor ikke en del av saken.


Forbehold mot tekst- og datautvinning («opt out»)

I sitt obiter dictum om forbehold mot tekst og datautvinning, legger retten til grunn at et forbehold i form av vilkår i klartekst på Bigstockphotos nettside, trolig er tilstrekkelig til at slikt forbehold er tatt. Det er her viktig å merke seg at forbeholdet knytter seg til de spesifikke verkene som er tilgjengelig på nettsiden. Det er med andre ord ikke snakk om et generelt forbehold, hvor alle verk tilhørende en bestemt rettighetshaver unntas fra retten til tekst- og datautvinning (se for eksempel den franske musikkautororganisasjonens SACEMs erklæring om et slikt generelt forbehold). Slike generelle erklæringer er det nok tvilsomt om kan regnes som gyldige forbehold, da det ikke er mulig å maskinelt utlede hvilke verk som omfattes av forbeholdet.


"Maskinlesbart"?

Den tyske gjennomføringen av artikkel 4 i UrhG § 44b tredje ledd oppstiller et absolutt krav at forbeholdet skal være «maskinleselig» for data som er tilgjengelig online. Når man tar dette i betraktning, tolker retten kravet til «maskinleselig» ganske vidt. Det er her tilstrekkelig at forbeholdet er «maskinforståbart» («maschinenverständlich»), og det vil det være dersom kunstig intelligens kan lese forbeholdet i ren tekst.


Retten trekker her en interessant parallell til AI Act artikkel 53 (1) c), som pålegger leverandører av generelle AI-modeller å innføre en policy for å overholde blant annet digitalmarkedsdirektivet artikkel 4 nr. 3, inkludert ved å ta i bruk «state-of-the-art technologies». 


Det ligger her i følge retten en viss motsetning om leverandører av AI modeller skal ha mulighet til å utvikle stadig bedre AI gjennom unntaket for tekst- og datautvinning, hvis de ikke samtidig forventes å anvende allerede eksisterende modeller for å ta hensyn til rettighetshavers forbehold. Da det ikke var nødvendig å avgjøre spørsmålet, holder retten det riktignok åpent om slik teknologi var tilgjengelig på det aktuelle tidspunktet.


Utsagnet om at det er tilstrekkelig at forbeholdet skal være «maskinforståbart» synes imidlertid å overse at formålet med at forbeholdet skal være «maskinlesbart» ikke bare er at en maskin skal kunne lese forbeholdet, men også at forbeholdet kan håndteres automatisk for store mengder data. Selv om kunstig intelligens i prinsippet kan «lese» forbeholdet, innebærer ikke dette uten videre at den automatisk kan ta hensyn til forbeholdet.


Avslutning

Som en førsteinstansavgjørelse fra en nasjonal domstol, har avgjørelsen fra Landgericht Hamburg begrenset rettskilderelevans. Avgjørelsen er likevel en interessant illustrasjon på hvordan nasjonale domstoler og i siste instans EU-domstolen, vil tolke digitalmarkedsdirektivet artikkel 3 og 4, selv om avgjørelsen etterlater flere spørsmål ubesvart.