Új technológia segítségével nyerhetünk ki hangot állóképekből és néma videókból egyaránt

Varga Kristóf

| 2023 október 2. 13:02

Az egész rendszer a gépi tanulásra épül.

Hirdetés

Rohamosan fejlődik a mesterséges intelligencia, így szinte napról-napra számos olyan új innovációnak lehetünk a tanúi, amik akár csak egy-két évvel ezelőtt teljesen elképzelhetetlenek voltak. Például az, hogy képesek vagyunk hangot kinyerni, szavakat értelmezni egy álló képből vagy egy teljesen néma videóból könnyen úgy hangozhat, mintha egy sci-fi regényből vagy valamiféle utópisztikus filmből származna, de nagyon úgy néz ki, hogy valóban kidolgozásra került egy erre specializálódott mesterséges intelligencián alapuló szoftver, ami egy igen ígéretes fejlesztésnek tűnik.

A Side Eye névre keresztelt gépi tanulási eszköz létrehozásával a Northeastern University villamosmérnöki és informatikai professzora, Kevin Fu, és az által vezetett csapat jelentős lépéseket tett afelé, hogy képesek legyünk információk kinyerésére, mind állóképekből és néma videókból egyaránt.

Hirdetés

A jelenlegi eszköz többek között képes arra, hogy például meghatározza a beszélő nevét, a fotó készítésének helyét, illetve még azokat a szavakat is, amit a képen látható személy mondott.

Az innováció egyébként olyan kifinomult, hogy a legtöbb okosmobilba épített képstabilizálás mentén felismeri azt, hogy ha valaki a telefon lencséje közelében beszél a kép készítése közben, hiszen az olyan apró rezgéseket kelt a rugókban, amik finoman elhajlítják a beérkező fényt. Bár alapjáraton ezekből a rezgésekből szinte lehetetlen kinyerni a pontos hangfrekvenciát, a legtöbb kamera által használt úgynevezett "rolling shutter" fotózási technika mentén (amely egyfajta elmosódást és torzítást eredményez a képeken) ez meglehetősen egyszerűvé válik.

Kevin Fu ezt egyébként úgy magyarázta, hogy:

"A fényképezőgépek ma a gyártási költségek csökkentésének érdekében alapvetően úgy működnek, hogy nem egyszerre követik le egy adott kép összes pixelét, hanem soronként haladnak. Ez több százezerszer történik meg már egyetlen fénykép esetében is. Ez tehát azt jelenti, hogy több mint ezerszeresére tudjuk növelni azt, hogy mennyi frekvencia információt kapunk, ami alapvetően a hang torzításában nyilvánul meg."

Természetesen a technológia még közel sem tökéletes és számos finomhangolás szükséges a stabil működéséhez, de minden esetben egy igen ígéretes innovációról beszélhetünk. Persze a számos pozitív felhasználási lehetőség mellett, mint például a digitális bűnfelderítés, számolni kell több kiberbiztonsági kérdéssel is a technológia mindennapos alkalmazása során.

Acer Aspire S32 - az all-in-one PC, amiben tényleg minden benne van (x) A kompakt mégis moduláris gépet olyan extrákkal szerelték fel, amikre eddig nem volt szükségünk, de most már nem akarunk nélkülük élni.

Hirdetés

Új technológia segítségével nyerhetünk ki hangot állóképekből és néma videókból egyaránt

Hirdetés

Épp most frissítenéd a rendszered? Csapj le az akciós Windows 11-re és más szoftverekre!

Kövess Facebookon!

Jönnek az OLED kijelzős bankkártyák, és több pénzt fogsz költeni velük

Lehet, hogy a következő Windows 11 frissítéshez már kevés lesz a processzorod

Így takarítsd ki a billentyűzetedet!

Megszűnik az egyik ingyenes VPN szolgáltatás

A valaha készült 5+1 legjobb AMD processzor

Több mint 14 év után ledolgozhatja a legnagyobb hiányosságát az iPad