TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK
Budapesti Műszaki és Gazdaságtudományi Egyetem - Villamosmérnöki és Informatikai Kar

Témák listája

Felügyelet nélküli akusztikus modellezés GAN használatával
A gépi beszédfelismeréshez (automatikus szövegleiratozáshoz) hagyományosan nagy mennyiségű hangra és hozzá tartozó szöveges leiratra van szükség. Ennek előállítása drága és időigényes. Az újabb, önfelügyelt tanításon alapuló megközelítések lehetővé tették a leiratmentes akusztikus előtanítást, így csupán egy pár órányi felügyelt tanítás is elegendő a beszédfelismerő betanításához. Ennél is továbbmegy a teljesen felügyelet nélküli tanítás: csupán írott szöveg alapján GAN (Generative Adversarial Network) segítségével sikerült a META (FB) kutatóinak "rávenni" az előtanított akusztikus modelleket a hang szöveges leiratozására. Magyar nyelvre szeretnénk a világon elsőként ilyen rendszer készíteni, amibe lehetőség van bekapcsolódni. Python programozási és deep learning ismeretek előnyt jelentenek. https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Témavezető: Dr. Mihajlik Péter
Önfelügyelt akusztikus modellezés
Az önfelügyelt (vagy self-supervised) előtanulás, egy rendkívül hatékony módszer a mély neuronhálók beszédfelismerési és természetes nyelvfeldolgozási alkalmazásaiban, ahol felügyelt (címkézett) adatok nélkül javíthatjuk drasztikusan a különféle nyelvi/akusztikai felismerési/osztályozási feladatok pontosságát. A konkrét feladat a wav2vec2.0 transformer keretrendszer megismerése, és a legújabb eszközkészletek (HuggingFace, SpeechBrain vagy Fairseq) alkalmazása beszédfelismerési feladatokra. Javasolt előképzettség: Python programozás, deep learning alapok. Háttérinformáció: https://ai.facebook.com/blog/self-supervision-and-building-more-robust-speech-recognition-systems/
Témavezető: Dr. Mihajlik Péter
Hatékony "wake up" szó felismerés - mély konvolúciós háló alapokon
A tisztán mély neuronháló alapú beszédfelismerés egyre jobban előtérbe kerül a hagyományos (rejtett Markov-modell alapú) techinkákkal szemben. Fő előnye az elméleti letisztultságon és egyszerűségen túl, hogy sokkal kompaktabb rendszer készíthető, így pl. mobil vagy beágyazott eszközökbe is alkalmasabb lehet. Az utóbbi időkben az újszerű konvolúciós neuronhálók (time-depth/channel separable convolution) különösen hatékonyan képesek a paraméterteret csökkenteni, így a tanítási idő is lényegesen rövidebb lett. A feladat hatékony, akár böngészőben futtatható "wake up" szó felismerés, ami által a komplexebb, nagyobb erőforrásokat igénylő beszédleiratozó rendszer felébreszthető. A téma továbbvihető szakdolgozatig/diplomatervig.
Témavezető: Dr. Mihajlik Péter
Speaker Adaptation Based deep neural network - Text to Speech Synthesis
Speech processing has attracted the interest of both scholars and industry during the last few decades. The technique of converting text into artificial speech is known as speech synthesis. It can be utilized in a blind person's speech monitoring system, a web browser, mobile phones, PCs, and laptops. Nowadays, every effort is taken to generate as natural a synthesized sound as possible. Our project aims to create a speaker adaption model that uses a Deep Neural Network to synthesize speech. The project will be completed using Merlin (a speech synthesis toolkit that uses neural networks to create speech).
Témavezető: Mandeel Ali Raheem
BRAIN2SPEECH: EEG alapú kommunikációs agy-gép interfész deep learning módszerekkel
A beszéd az emberi kommunikáció elsődleges és legfontosabb eszköze. Sokan azonban elvesztették ezt a képességüket betegség vagy egészségkárosodás okán. A kommunikációs agy-gép interfész (BCI) célja, hogy természetes vagy ahhoz közeli kommunikációs csatornát biztosítsanak olyan személyek számára, akik fizikai vagy neurológiai károsodás miatt nem tudnak beszélni. A beszéd valós idejű szintézise közvetlenül a mért idegi aktivitásból (EEG) lehetővé tenné a természetes beszédet, és jelentősen javítaná az életminőségét, különösen a kommunikációban súlyosan korlátozott személyek számára. A hallgató feladata megismerkedni a BRAIN2SPEECH területtel, majd új típusú neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok) kidolgozása és tanítása több beszélő adataival. Az önálló munka / diplomaterv a BME Beszédtechnológia és Intelligens Interakciók Laboratóriumában készül. A hallgató feladatának a következőkre kell kiterjednie: - Tekintse át beszédtechnológiában az electroencephalogram-akusztikum becslés szakirodalmát. - Vizsgálja meg, milyen típusú neurális hálózatokat alkalmaztak eddig a kommunikációs agy-gép interfész területen! - Vizsgálja meg különböző neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok, ResNet, SkipNet) alkalmazhatóságát. - Az elkészült modelleket tesztelje objektív mérőszámokkal és szubjektív teszt keretében! - Munkáját részletesen dokumentálja!
Témavezető: Arthur Frigyes Viktor
VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."
Témavezető: Arthur Frigyes Viktor
Automated Machine Learning methods using Reinforcement Learning
My research focuses mainly on: -Design AutoML related models -Neural Architecture Search -Hyperparameters optimization -Performance and Evaluation optimization -Adaptive methods
Témavezető: Abed Hamdi M.H.