Chat GPT, Github Copilot, Midjourney, Stability AI, Dall-E, Stable Diffusion og Deviantart. Den kunstige intelligens er for alvor sluppet ud ad flasken i Silicon Valley, og listen over nye AI-produkter, som har indtaget verden med lige dele fascination og frygt, vokser uge for uge.
Men hvad stiller vi op med en teknologi, som er trænet på al tilgængelig viden på internettet? Hvor står den intellektuelle ejendomsret og ophavsretten, når den kunstige intelligens maler videre på Van Goghs portrætter, komponerer et musikstykke med en kendt kunstners stemme eller omskriver en bog af Karl Ove Knausgård?
Hvordan sikrer vi, at de mennesker, der har skabt værkerne, bliver krediteret? Og hvem har ophavsretten til værker skabt af kunstig intelligens?
I USA, som er foregangsland for udviklingen af de nye, populære AI-sprogmodeller, er der allerede anlagt flere retssager mod de virksomheder, der har trænet deres AI-modeller på enorme mængder af data, viden og kunstværker, som er ophavsretligt beskyttet, uden at indhente samtykke eller tilbyde kompensation til de oprindelige skabere.
Det gælder ikke mindst Github, som er alle programmørers kodebibliotek. Med omkring 30 mio. brugere er det her, du går hen, hvis du har brug for inspiration eller hjælp fra andre programmører i hele verden.
“Konsekvensen er, at færre folk går direkte til kilden – den originale forfatter – og spørgsmålet er, om det er fair og etisk forsvarligt?
På Github kan udviklere uploade deres kode og arbejde sammen om at forbedre den. Det er et enestående kooperativ for programmører – og det er open source. Dermed kan andre udvikle videre på din kode, skabe nye versioner af den, komme med forslag til at optimere koden og generelt diskutere programmer og problematikker.
Men i 2018 blev Github opkøbt af Microsoft for 7,5 mia. dollar, og det bringer os hen til det sted, hvor vi er i dag. For snart to år siden lancerede Microsoft således det nye AI-værktøj Github Copilot. Det er baseret på Chat GPT fra Open AI, som Microsoft er storinvestor i, og har siden hjulpet mange programmører og firmaer med at skrive kode eller løse problemer i en række forskellige programmeringssprog.
Her i Danmark ser vi flere organisationer, som kommer på kursus i anvendelsen af Github Copilot til effektiv og semiautomatiseret kodegenerering på arbejdspladsen, og Github Copilot kan erhverves på et abonnement, som starter på 10 dollar om måneden.
Problemet er, at AI-modellen er trænet på den offentligt tilgængelig kildekode i Github, som millioner af brugere har udviklet i en årrække, og at den i mange tilfælde er beskyttet af copyright og særlige licenser – herunder MIT, GPL og Apache.
På den måde har GitHub Copilot altså misbrugt open-source kode til at generere en model, som nu ligger bag en paywall, så man skal betale for at få adgang til den. Mens licenser som MIT og Apache giver rettigheder til anvendelse i kommercielle sammenhænge, så kræver det samtykke at anvende kode under GPL-licens. Så hvad sker der, hvis Github Copilot giver dig et kodeeksempel, som kommer fra software under GPL-licens?
Det fik i november sidste år den amerikanske programmør, advokat og forfatter Matthew Butterick til at anlægge sag mod Microsoft, Github og OpenAI med påstand om “pirateri af open source-software uden fortilfælde”. Det er ifølge Butterick sket ved at træne AI-modeller på enorme mængder af ophavsretligt beskyttet materiale uden hverken samtykke, kreditering eller kompensation til skaberne af den oprindelige kode.
I januar i år fulgte han op med et sagsanlæg mod Stability AI, Deviantart og Midjourney for deres brug af AI-billedværktøjet Stable Diffusion, som mikser ophavsretligt beskyttede værker fra millioner af kunstnere, hvis arbejde er blevet anvendt til at træne det revolutionerende billedværktøj.
Logikken for sagsøgerne er, at den eksplosive udvikling af kunstig intelligens skal være fair og etisk ansvarlig. I modsat fald vil AI blot være endnu en metode for en lille gruppe af privilegerede mennesker til at skabe profit på andres arbejde, hedder det i en appel på hjemmesiden for GitHub Copilot Litigation.
Om vi ender dér, er svært at sige. Microsoft og Open AI ønsker naturligvis sagsanlægget droppet og mener ikke, at der er bevis for, at de har misbrugt open-source kode. Alt afhængigt af sagens udfald frygter de uden tvivl også, at en domstol vil sætte standarden for fremtidig brug af offentlig tilgængelig træningsdata til så store AI-modeller.
Samtidig er det ganske foruroligende, at Microsoft i marts fyrede samtlige ansatte i selskabets ethics and society team, som spillede en kritisk og afgørende rolle i at sikre, at Microsofts principper om ansvarlig brug af kunstig intelligens reelt blev afspejlet i virksomhedens produkter.
For mit eget vedkommende oplever jeg, at det er mere og mere problematisk at benytte værktøjer som Github Copilot og Chat GPT.
Et eksempel: Mange af Chat GPT’s kodeeksempler på, hvordan man gør noget i Google Cloud Platform er 1:1 de samme eksempler, som Google selv deler på deres hjemmeside. Med andre ord har Chat GPT “stjålet” det, men uden hverken at kreditere, linke eller henvise til Googles egen dokumentation og hjemmeside.
Konsekvensen er, at færre folk går direkte til kilden – den originale forfatter – og spørgsmålet er, om det er fair og etisk forsvarligt? Hvis jeg deler noget, en anden har skrevet, skal jeg jo kreditere den originale kilde. Hvorfor skal en AI-bot ikke det?