Et Langt Kontekstvindue is Not All You Need

Grunden til, at mange går så meget op i længden af LLM'ers kontekstvindue, er fordi det er nemt at forstå, og fordi det er et tal, som er nemt at sammenligne på tværs af modeller.

I virkeligheden tror jeg ikke, at vi burde være så optagede af, hvor lange tekster sprogmodeller kan læse ad gangen.

Problemet er bare at det tal som vi burde være optaget af, ikke kan måles direkte.

På mange måder er det beslægtet med det samme problem, vi støder ind i, når vi forsøger at måle menneskelig intelligens.

Jeg tror, i langt højere grad, vi bør være interesserede i modelarkitekturer og metoder til produktion af træningsdata, som kan få modellerne til at øge det tal, vi ikke kan måle direkte, i forhold til modellens størrelse.

På samme måde, som konsekvenserne af Moores lov skabte uforudsigelig innovation indenfor computerteknologien, kun fordi computere blev hurtigere, billigere og mindre, så tror jeg, at noget lignende kan ske, hvis der arbejdes på at gøre generative modeller mere effektive.