Visuel Sprogmodellering?

Vi mennesker processere tekst visuelt. Sprogmodeller processere tekst som tokens.

Hvis vi mennesker skulle processere tekst på samme måde som sprogmodeller skulle der være hardwiret ledninger ind i vores hjerne, som sendte token signaler til en bestemt del af hjernen som var gearet til at forstå signalet.

Gad vide om der kunne komme nogle interessante resultater ud af at forske i visuel sprogmodellering? Altså sprogmodeller som sanser tekst gennem billeder?

Man kunne godt implementere self-supervised læringsproblemer, fx masked og casual language modelling, som et billede problem. Det ville kræve at man renderede input og output tekst som billeder og så trænede en model til at løse problemet.

Så ville man også komme uden om bøvl med tokenization af tekst!

Gad vide om der er nogen som har eksperimenteret med det før? 🙃