Forslag til folketingsbeslutning om at skabe højkvalitets datasets til træning og evaluering af danske sprogmodeller

Følgende er en omskrivning af forslaget "B 101 Forslag til folketingsbeslutning om at skabe en stor dansk sprogmodel, også kaldet LLM eller large language model". Formålet er at rette fokus mod udviklingen af åbne danske datasæt til træning af sprogmodeller frem for selve udviklingen af sprogmodellerne. GPT-4 er anvendt til omskrivningen af forslaget 🙃

Forslag til folketingsbeslutning

om at skabe højkvalitets datasets til træning og evaluering af danske sprogmodeller

Folketinget pålægger regeringen i indeværende folketingssamling at igangsætte arbejdet med at udvikle omfattende og højkvalitets datasets til træning og evaluering af sprogmodeller, herunder at indsamle og organisere data fra Det Kgl. Bibliotek og andre store vidensdatabaser.

Bemærkninger til forslaget

Forslagsstillerne ønsker, at Danmark skal bidrage til udviklingen af avancerede sprogmodeller ved at skabe omfattende, kvalitetsrig og diversificeret trænings- og evalueringsdata. Dette kan sikre, at danske værdier, kultur og sprog nuanceret og korrekt repræsenteres i fremtidige sprogmodeller.

Med baggrund i EU og Danmarks unikke værdier og regelsæt, som amerikanske og andre udenlandske sprogmodeller ofte overser, understreger forslagsstillerne vigtigheden af at udvikle datasets, der afspejler dansk kultur, normer, love og sprog.

Andre lande, herunder de skandinaviske naboer, har allerede anerkendt vigtigheden af at bidrage til træningsdata for sprogmodeller. Dette ses i Sveriges indsats for at udvikle svenske træningsdata til sprogmodeller.

For at undgå fejl og misforståelser i anvendelsen af kunstig intelligens i en dansk kontekst, er det afgørende at have trænings- og evalueringsdata, der fuldt ud forstår og integrerer danske kulturelle aspekter og juridiske rammer. En sådan indsats er ikke kun nødvendig for at bevare det danske sprog og kultur, men også for at sikre præcis og relevant anvendelse af AI-teknologi i Danmark.

Forslagsstillerne fremhæver, at generativ AI og tilhørende teknologier bør ses som en del af kritisk infrastruktur, sammenlignelig med veje og elnettet. Derfor bør udviklingen og vedligeholdelsen af disse datasæt være under offentlig kontrol eller et offentlig-privat partnerskab.

Forslagsstillerne betoner også, at det er essentielt at sikre, at træningsdata er transparente, så offentligheden kan forstå grundlaget og indholdet af dataene. Dette gælder også for de algoritmer, der anvender disse datasæt.

Økonomi og finansiering

Udvikling af højkvalitets trænings- og evalueringsdata kræver betydelige ressourcer. Anslået vil omkostningerne være omkring 40 millioner danske kroner, baseret på sammenlignelige projekter. Disse omkostninger dækker indsamling, organisering og vedligeholdelse af datasæt samt eventuelle rettighedsmæssige afklaringer.

Forslagsstillerne foreslår, at projektet finansieres gennem det offentlige økonomiske råderum, men er åbne for at diskutere alternative finansieringsmuligheder.