VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."