Hirdetés

Új technológia segítségével nyerhetünk ki hangot állóképekből és néma videókból egyaránt



|

Az egész rendszer a gépi tanulásra épül.

Hirdetés

Rohamosan fejlődik a mesterséges intelligencia, így szinte napról-napra számos olyan új innovációnak lehetünk a tanúi, amik akár csak egy-két évvel ezelőtt teljesen elképzelhetetlenek voltak. Például az, hogy képesek vagyunk hangot kinyerni, szavakat értelmezni egy álló képből vagy egy teljesen néma videóból könnyen úgy hangozhat, mintha egy sci-fi regényből vagy valamiféle utópisztikus filmből származna, de nagyon úgy néz ki, hogy valóban kidolgozásra került egy erre specializálódott mesterséges intelligencián alapuló szoftver, ami egy igen ígéretes fejlesztésnek tűnik.

A Side Eye névre keresztelt gépi tanulási eszköz létrehozásával a Northeastern University villamosmérnöki és informatikai professzora, Kevin Fu, és az által vezetett csapat jelentős lépéseket tett afelé, hogy képesek legyünk információk kinyerésére, mind állóképekből és néma videókból egyaránt.

Hirdetés

A jelenlegi eszköz többek között képes arra, hogy például meghatározza a beszélő nevét, a fotó készítésének helyét, illetve még azokat a szavakat is, amit a képen látható személy mondott.

Az innováció egyébként olyan kifinomult, hogy a legtöbb okosmobilba épített képstabilizálás mentén felismeri azt, hogy ha valaki a telefon lencséje közelében beszél a kép készítése közben, hiszen az olyan apró rezgéseket kelt a rugókban, amik finoman elhajlítják a beérkező fényt. Bár alapjáraton ezekből a rezgésekből szinte lehetetlen kinyerni a pontos hangfrekvenciát, a legtöbb kamera által használt úgynevezett "rolling shutter" fotózási technika mentén (amely egyfajta elmosódást és torzítást eredményez a képeken) ez meglehetősen egyszerűvé válik.

Kevin Fu ezt egyébként úgy magyarázta, hogy:

"A fényképezőgépek ma a gyártási költségek csökkentésének érdekében alapvetően úgy működnek, hogy nem egyszerre követik le egy adott kép összes pixelét, hanem soronként haladnak. Ez több százezerszer történik meg már egyetlen fénykép esetében is. Ez tehát azt jelenti, hogy több mint ezerszeresére tudjuk növelni azt, hogy mennyi frekvencia információt kapunk, ami alapvetően a hang torzításában nyilvánul meg."

Természetesen a technológia még közel sem tökéletes és számos finomhangolás szükséges a stabil működéséhez, de minden esetben egy igen ígéretes innovációról beszélhetünk. Persze a számos pozitív felhasználási lehetőség mellett, mint például a digitális bűnfelderítés, számolni kell több kiberbiztonsági kérdéssel is a technológia mindennapos alkalmazása során.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.