Allt fler AI-genererade videor sprids i sociala medier – ofta så välgjorda att många inte längre kan skilja dem från verkliga bilder.
Just nu läser andra
Det gör det lättare för desinformation att få fäste och svårare att lita på det vi ser och hör.
Men enligt forskare och teknikspecialister som intervjuats av HuffPost finns det en sak som avslöjar AI-videor bättre än något annat: hur rösterna låter.
Den stressade talrytmen
Många AI-röster har en överdrivet snabb och energisk ton, något experter beskriver som att information ”pressas ihop”. Människor varierar naturligt tempo och betoningar, men AI tenderar att hålla samma intensitet rakt igenom.
Detta hörs särskilt i material skapat av moderna text-till-video-system, där rösten låter mer hetsig än sammanhanget kräver — nästan som en röst som jobbar på övervarv.
Orena ljud och konstiga övergångar
Lingvister påpekar att människor alltid ”suddar” lite mellan olika ljud, eftersom rösten måste röra sig fysiskt mellan positioner i mun och svalg. AI misslyckas ofta med just detta.
Läs också
Resultatet kan bli att ord sluddrar på ett onaturligt sätt eller att tonhöjden plattas ut, som om ljuden inte sitter ihop. I flera virala exempel märks det på specifika stavelser som låter mekaniska eller saknar den mjuka övergång som mänsklig röst alltid har.
AI har svårt med vardagligt talspråk också. Där människor säger ”didja” i stället för ”did you” uttalar AI ofta orden för tydligt – eller slår ihop dem för hårt.
Misstänk felaktiga eller märkliga uttal
Modellerna kämpar dessutom med ovanliga ord, namn eller uttryck som inte finns i träningsdatat. Det kan leda till felaktiga uttal eller ord som hamnar hos fel person i bilden.
Experter beskriver också hur känslor ofta missmatchar situationen. Vissa AI-röster låter överdrivet glada eller upprörda i scener som inte alls kräver det. Det kan bli likt en dålig skådespelarinsats – stereotyp och oproportionerlig.
När känslorna inte stämmer
Ett vanligt tecken är att rösten kommenterar exakt det som visas, som en sorts onaturlig berättarröst mitt i en vardagsscen. I verkliga händelser reagerar människor spontant och tystnar ofta snarare än att beskriva varje detalj högt.
Läs också
Även videosynken kan avslöja fusket. Om läpparnas rörelser inte följer ljudet exakt är det ofta ett tecken på att rösten genererats i efterhand.
Men inga indikatorer är idiotsäkra
Flera forskare påminner om att röstsynthes snabbt blir bättre. System som ElevenLabs imiterar redan pauser, andning och röstskorrning på ett sätt som närmar sig det mänskliga.
Trots det menar experterna att kombinationen av stressat tempo, konstig ljudövergång, oproportionerliga känslor och ord som uttalas märkligt fortfarande ger ett tydligt mönster.
När detaljer känns ”off” är det ofta en god anledning att misstänka AI.
Källa: HuffPost