Allt fler AI-genererade videor sprids i sociala medier – ofta så välgjorda att många inte längre kan skilja dem från verkliga bilder.

Just nu läser andra

Det gör det lättare för desinformation att få fäste och svårare att lita på det vi ser och hör.

Men enligt forskare och teknikspecialister som intervjuats av HuffPost finns det en sak som avslöjar AI-videor bättre än något annat: hur rösterna låter.

Den stressade talrytmen

Många AI-röster har en överdrivet snabb och energisk ton, något experter beskriver som att information ”pressas ihop”. Människor varierar naturligt tempo och betoningar, men AI tenderar att hålla samma intensitet rakt igenom.

Detta hörs särskilt i material skapat av moderna text-till-video-system, där rösten låter mer hetsig än sammanhanget kräver — nästan som en röst som jobbar på övervarv.

Orena ljud och konstiga övergångar

Lingvister påpekar att människor alltid ”suddar” lite mellan olika ljud, eftersom rösten måste röra sig fysiskt mellan positioner i mun och svalg. AI misslyckas ofta med just detta.

Läs också

Resultatet kan bli att ord sluddrar på ett onaturligt sätt eller att tonhöjden plattas ut, som om ljuden inte sitter ihop. I flera virala exempel märks det på specifika stavelser som låter mekaniska eller saknar den mjuka övergång som mänsklig röst alltid har.

AI har svårt med vardagligt talspråk också. Där människor säger ”didja” i stället för ”did you” uttalar AI ofta orden för tydligt – eller slår ihop dem för hårt.

Misstänk felaktiga eller märkliga uttal

Modellerna kämpar dessutom med ovanliga ord, namn eller uttryck som inte finns i träningsdatat. Det kan leda till felaktiga uttal eller ord som hamnar hos fel person i bilden.

Experter beskriver också hur känslor ofta missmatchar situationen. Vissa AI-röster låter överdrivet glada eller upprörda i scener som inte alls kräver det. Det kan bli likt en dålig skådespelarinsats – stereotyp och oproportionerlig.

När känslorna inte stämmer

Ett vanligt tecken är att rösten kommenterar exakt det som visas, som en sorts onaturlig berättarröst mitt i en vardagsscen. I verkliga händelser reagerar människor spontant och tystnar ofta snarare än att beskriva varje detalj högt.

Läs också

Även videosynken kan avslöja fusket. Om läpparnas rörelser inte följer ljudet exakt är det ofta ett tecken på att rösten genererats i efterhand.

Men inga indikatorer är idiotsäkra

Flera forskare påminner om att röstsynthes snabbt blir bättre. System som ElevenLabs imiterar redan pauser, andning och röstskorrning på ett sätt som närmar sig det mänskliga.

Trots det menar experterna att kombinationen av stressat tempo, konstig ljudövergång, oproportionerliga känslor och ord som uttalas märkligt fortfarande ger ett tydligt mönster.

När detaljer känns ”off” är det ofta en god anledning att misstänka AI.

Källa: HuffPost

Så avslöjar du om en video är AI

Just nu läser andra

Den stressade talrytmen

Orena ljud och konstiga övergångar

Läs också

Misstänk felaktiga eller märkliga uttal

När känslorna inte stämmer

Läs också

Men inga indikatorer är idiotsäkra

Läs också