Sprogmodellers Emergente Evner

Et interessant fænomen ved sprogmodeller beskrives i artiklen Emergent Abilities of Large Language Models. Hvis en sprogmodel ikke er i stand til at udfører en opgave indtil den når en bestemt størrelse og nøjagtigheden så pludselig øges drastisk, så kalder forfatterne af artiklen det for en "Emergent Ability".

Altså evner som pludseligt opstår, når sprogmodellerne når en vis størrelse. Disse emergente evner ser ud til at opstå omkring de 10 milliarder parametre og derfra stiger evnernes nøjagtighed drastisk! Der er efter min mening to interessante spørgsmål som det her mønster rejser, når sprogmodellers størrelse øges yderligere:

  1. Fortsætter de emergente evners nøjagtighed med at stige? 

  2. Vil flere emergente evner opstå?

I 2020 da GPT-3 paperet udkom var der mange som mente at det var uinteressant forskning, da OpenAI blot havde taget en kendt model arkitektur og opskaleret antallet af parametre. Men set i lyset af de her fænomener vi ser opstå på forskellige størrelsesordner af sprogmodeller, så skal det her efter min mening ikke ses som forskning i model arkitekturer, men en slags opdagelsesrejse i hvad der sker når vi begiver os ud i at træne større og større sprogmodeller.