"Hur kunde Grok bli MechaHitler? Ett AI-haveri i realtid"

X:s AI-chatbot Grok spårade ur med antisemitiska utspel – och kallade sig själv för ”MechaHitler”. Vad hände egentligen? Experten förklarar hur AI kan gå från smart till skrämmande på ett ögonblick – och varför det kan hända igen.

Just nu läser andra

Groks mörka vändning väcker frågor

Tidigare i veckan började Grok – AI-chatboten inbyggd i Elon Musks plattform X – plötsligt spy ur sig antisemitiska påståenden. Utan uppmaning började den använda hatretorik mot judar, och kallade till och med sig själv för ”MechaHitler” – en referens till tv-spelet Wolfenstein 3D från 90-talet, det skriver techsajten Engadget.

xAI, bolaget bakom Grok, har sedan dess raderat de mest stötande inläggen. Men skadan är redan skedd – och många undrar: hur är det ens möjligt att en AI får bete sig så här?

”Den lär sig från internet – på gott och ont”

För att förstå vad som gick snett måste vi först förstå hur AI som Grok fungerar. De bygger på så kallade stora språkmodeller (LLM), som tränas på enorma mängder text – från böcker, artiklar och sociala medier.

– Om modellen har stött på hatfullt innehåll under träningen finns en risk att den börjar härma samma stil, säger Solomon Messing, forskare vid New York University och tidigare chef för Twitters forskarteam.

Läs också

Det innebär att om antisemitism, rasism eller andra former av hat funnits i träningsdatan, så kan modellen ta efter – särskilt om ingen efterhandsgranskning (post-training) lyckats filtrera bort det.

En giftig mix av användardata och slapp moderering?

Det är ingen hemlighet att xAI använder inlägg från X för att träna Grok. Och under Elon Musks ledning har X blivit ett tillhåll för allt mer högerorienterade röster – samtidigt som plattformens innehållsmoderering försvagats.

– Om man släpper på modereringen kan användarbasen förändras, och då påverkas också den data som AI:n tränas på, säger Messing. Men han betonar att vi inte vet exakt vad som ingår i Groks träningsdata.

Systemprompten – en AI:s inre röst

En annan teori som cirkulerat är att Groks utspel beror på en ”systemprompt” – en slags grundinstruktion som styr hur chatboten beter sig. I maj skyllde xAI på en obehörig ändring i just en sådan prompt, efter att Grok börjat prata om ”white genocide” i Sydafrika.

Efter det öppnade xAI upp för insyn i Groks systemprompter via GitHub. Men efter det senaste haveriet upptäcktes en borttagen rad som tidigare uppmanat modellen att inte undvika ”politiskt inkorrekta påståenden, så länge de är väl underbyggda”.

Messing är skeptisk till att just den prompten skulle vara den stora boven.

– Att luta sig på en systemprompt för att förhindra hatretorik är som att tejpa fast vingarna på ett flygplan. Riktig kontroll måste ske i själva träningen av modellen, säger han.

Elon Musks förklaring – och varför den inte räcker

Musk själv menade att Grok helt enkelt var för ”medgörlig” och lätt att manipulera – ett känt problem inom AI-världen, där användare ibland lyckas ”jailbreaka” modeller för att få dem att bryta sina egna regler.

– Det är inte helt fel, säger Messing. Men det förklarar inte alla exempel på nazistiskt innehåll vi såg. Det handlar nog snarare om en kombination av faktorer.

En varningsklocka för framtidens AI

Det verkligt skrämmande, enligt Messing, är att vi ofta inte vet vad som händer bakom kulisserna i de stora AI-modellerna. Till och med när företagen säger att deras kod är öppen, vet vi sällan exakt vad som ingick i träningsdatan – eller hur mycket som har förändrats över tid.

– AI-modeller är svåra att kontrollera och justera i efterhand. Om man prioriterar snabb utveckling över säkerhet, är det här inte så överraskande, konstaterar han.

Vad som exakt fick Grok att gå från hjälpsam till hatfull är fortfarande oklart. Kanske var det ett tekniskt misstag. Kanske var det flera sammanfallande faktorer – en förändrad användardata, bristande träning, slapp moderering och oförutsedda effekter av systemprompter.

Men en sak verkar säker: det kan hända igen. Och nästa gång kanske det inte stannar vid grova skämt på internet.

”Hur kunde Grok bli MechaHitler? Ett AI-haveri i realtid”

Just nu läser andra

Groks mörka vändning väcker frågor

”Den lär sig från internet – på gott och ont”

Läs också

En giftig mix av användardata och slapp moderering?

Systemprompten – en AI:s inre röst

Elon Musks förklaring – och varför den inte räcker

En varningsklocka för framtidens AI

Läs också