BRAIN2SPEECH: EEG alapú kommunikációs agy-gép interfész deep learning módszerekkel
A beszéd az emberi kommunikáció elsődleges és legfontosabb eszköze. Sokan azonban elvesztették ezt a képességüket betegség vagy egészségkárosodás okán. A kommunikációs agy-gép interfész (BCI) célja, hogy természetes vagy ahhoz közeli kommunikációs csatornát biztosítsanak olyan személyek számára, akik fizikai vagy neurológiai károsodás miatt nem tudnak beszélni. A beszéd valós idejű szintézise közvetlenül a mért idegi aktivitásból (EEG) lehetővé tenné a természetes beszédet, és jelentősen javítaná az életminőségét, különösen a kommunikációban súlyosan korlátozott személyek számára.
A hallgató feladata megismerkedni a BRAIN2SPEECH területtel, majd új típusú neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok) kidolgozása és tanítása több beszélő adataival.
Az önálló munka / diplomaterv a BME Beszédtechnológia és Intelligens Interakciók Laboratóriumában készül. A hallgató feladatának a következőkre kell kiterjednie:
- Tekintse át beszédtechnológiában az electroencephalogram-akusztikum becslés szakirodalmát.
- Vizsgálja meg, milyen típusú neurális hálózatokat alkalmaztak eddig a kommunikációs agy-gép interfész területen!
- Vizsgálja meg különböző neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok, ResNet, SkipNet) alkalmazhatóságát.
- Az elkészült modelleket tesztelje objektív mérőszámokkal és szubjektív teszt keretében!
- Munkáját részletesen dokumentálja!
VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."