En ny studie går på djupet med varför moderna AI-modeller snubblar på flersiffrig multiplikation – och vilken typ av träning som till slut får uppgiften att fungera.
Just nu läser andra
Artificiella intelligenssystem kan skriva programvara och resonera kring komplexa problem. Ändå kan till och med grundläggande aritmetik avslöja överraskande svagheter.
En ny studie går på djupet med varför moderna AI-modeller snubblar på flersiffrig multiplikation – och vilken typ av träning som till slut får uppgiften att fungera.
Ojämna förmågor
Studien, som publicerats på arXiv av forskare vid University of Chicago, Xiaoyan Bai och Chenhao Tan, tillsammans med kollegor från MIT, Harvard, University of Waterloo och Google DeepMind, undersöker det som författarna kallar AI:s ”ojämna frontlinje”.
Begreppet beskriver hur modeller kan utmärka sig i avancerat resonemang men misslyckas med uppgifter som de flesta människor lär sig i lågstadiet, som att multiplicera två fyrsiffriga tal.
Enligt forskarna ligger problemet inte enbart i modellernas storlek, utan i hur de hanterar information över flera steg.
Läs också
Där träningen brister
Standardmodeller inom storskaliga språkmodeller tränas vanligtvis genom finjustering, som bygger på mer data, djupare nätverk eller längre träningstid.
Men när teamet testade modeller med mellan två och tolv lager låg samtliga under 1 procents noggrannhet vid fyrsiffrig multiplikation. Modellerna fastnade konsekvent i det forskarna beskriver som ett lokalt optimum, oförmögna att ta sig bortom ytlig mönsterigenkänning.
Multiplikation kräver att man håller reda på delprodukter och minnesöverföringar. Utan ett sätt att lagra och återhämta denna information misslyckas modellerna, oavsett hur mycket data de tränas på.
Ett annorlunda angreppssätt
Genombrottet kom genom en metod som kallas Implicit Chain of Thought, eller ICoT. Till skillnad från standardträning avlägsnar ICoT gradvis explicita resonemangssteg under träningen, vilket tvingar modellen att internalisera processen.
Med hjälp av ICoT nådde forskarna 100 procents noggrannhet på samma multiplikationsuppgift. De fann att modellen lärde sig att koda mellanliggande värden i sina interna tillstånd, något som standardmodeller aldrig gjorde.
Läs också
Den ICoT-tränade modellen organiserade också sin uppmärksamhet över tid, genom att beräkna sifferpar tidigt och hämta dem senare för att sätta samman det slutliga svaret.
En oväntad struktur
Inuti den framgångsrika modellen fann teamet förvånansvärt eleganta representationer. Siffror kodades som vågliknande Fourier-mönster snarare än enkla symboler.
Operationer som multiplikation framträdde som geometriska processer, däribland Minkowski-summor, som forskarna inte hade konstruerat medvetet. Dessa strukturer uppstod naturligt när modellen lärde sig att utföra aritmetik effektivt.
En enkel justering
Med utgångspunkt i dessa insikter lade teamet till en blygsam förändring i standardträningen: ett extra mål som lär modeller att följa löpande summor.
Med detta enda tillägg nådde även en liten tvålagersmodell 99 procents noggrannhet utan explicit steg-för-steg-övervakning. Dess interna mekanismer började likna dem som observerats i ICoT-tränade modeller.
Läs också
Större konsekvenser
Författarna menar att resultaten sträcker sig bortom aritmetik. Långväga beroenden förekommer i många språk- och resonemangsuppgifter, inte bara i matematik.
”I takt med att AI i allt högre grad integreras i kritiskt beslutsfattande är det avgörande att förstå dess unika sätt att lära och tänka”, säger Tan. ”Vår forskning försöker kartlägga den terrängen.”
Källor: University of Chicago