Startsida Nyheter Ryska medier på Wikimedia Commons kan påverka framtida AI-modeller

Ryska medier på Wikimedia Commons kan påverka framtida AI-modeller

Kremlin Moscow Russian flag
Shutterstock

Artificiell intelligens lär sig om vår värld genom att skrapa data från internet varje dag.

De flesta antar att denna digitala diet består av neutrala fakta och harmlösa bilder. Men vad händer när bilderna som tränar nästa generations teknik tyst vrids av politiska agendor, som rapporterats av 02.pl?

AI:s digitala diet

Teknikföretag behöver enorma mängder media för att träna sina senaste modeller. Denna hunger har fått automatiserade botar att samla in öppen källkod för foton, videor och ljudfiler.

Wikimedia Foundation noterade nyligen en kraftig ökning av denna aktivitet. Sedan 2024 har bandbredden som används för att ladda ner filer från Wikimedia Commons ökat med 50 procent.

Denna trafik kommer inte från människor. I stället dammsuger automatiserade program dessa öppet licensierade filer för att mata AI-system.

Förorenad träningsdata

Vissa experter varnar för att denna insamling har en mörkare sida. En rapport från den polska nyhetsbyrån, känd som PAP, avslöjar att ryska källor fyller Wikimedia Commons med material om annekteringen av Krim.

En sökning på termen ”annexation of Crimea” i den engelska databasen ger över 40 ryska statsrelaterade resultat av totalt 51. Dessa inkluderar den ryska presidentens officiella webbplats.

Marcin Żabiński, expert från Kybernetes Institute, anser att detta inte är någon slump. Han varnar för att Ryssland aktivt använder den öppna plattformen för att sprida sin egen politiska narrativ direkt in i AI-modeller.

Fara i beskrivningen

Hotet sträcker sig långt bortom själva bilderna. Filbeskrivningar och skaparinformation, känd som metadata, spelar en stor roll i hur AI tolkar en fil.

”En mycket mer intressant metainformation är en kort beskrivning av vad som finns på fotot. Och detta är redan mycket öppet för missbruk, då det kan påverka hur mottagaren eller språkmodellen tolkar filen”, betonade Żabiński.

Det finns också farhågor om steganografi, vilket innebär att dölja hemliga instruktioner inuti digitala bilder. Żabiński varnade: ”Dessa kan vara instruktioner som specifikt beordrar en förändring av analysmetoden eller är avsedda att utlösa en specifik åtgärd på språkmodellen.”

Öppna dörrar-policy

Wikimedia Foundation svarade inte på frågor från PAP före publicering. Däremot släppte Wikimedia Polska ett uttalande som bemötte farhågorna.

Organisationen uppgav att de, baserat på feedback från volontärer, ”inte ser någon grund för att tala om dokumenterad, koordinerad rysk inblandning.” De noterade att många ryska material hamnar där helt enkelt för att de använder öppna licenser.

Verkligheten kvarstår dock att AI-modeller kommer att fortsätta att dricka ur denna öppna källa. Om vattnet är förorenat kan maskinens världsbild också ta skada.

Källor: 02.pl, PAP

Ads by MGDK