TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK
Budapesti Műszaki és Gazdaságtudományi Egyetem - Villamosmérnöki és Informatikai Kar

Témák listája

Conversational AI alkalmazások
Valódi, hanggal beszélgető robot (virtuális ügynök) kialakítása a cél, melyhez az NVIDIA NeMo/RIVA toolkiteket használjuk. Magyar nyelven elsőként valósulhat meg a projekt. Python programozási ismeretek, mélytanulási alapok előnyt jelentenek.
Témavezető: Dr. Mihajlik Péter
Felügyelet nélküli akusztikus modellezés GAN használatával
A gépi beszédfelismeréshez (automatikus szövegleiratozáshoz) hagyományosan nagy mennyiségű hangra és hozzá tartozó szöveges leiratra van szükség. Ennek előállítása drága és időigényes. Az újabb, önfelügyelt tanításon alapuló megközelítések lehetővé tették a leiratmentes akusztikus előtanítást, így csupán egy pár órányi felügyelt tanítás is elegendő a beszédfelismerő betanításához. Ennél is továbbmegy a teljesen felügyelet nélküli tanítás: csupán írott szöveg alapján GAN (Generative Adversarial Network) segítségével sikerült a META (FB) kutatóinak "rávenni" az előtanított akusztikus modelleket a hang szöveges leiratozására. Magyar nyelvre szeretnénk a világon elsőként ilyen rendszer készíteni, amibe lehetőség van bekapcsolódni. Python programozási és deep learning ismeretek előnyt jelentenek. https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Témavezető: Dr. Mihajlik Péter
Hatékony "wake up" szó felismerés - mély konvolúciós háló alapokon
A tisztán mély neuronháló alapú beszédfelismerés egyre jobban előtérbe kerül a hagyományos (rejtett Markov-modell alapú) techinkákkal szemben. Fő előnye az elméleti letisztultságon és egyszerűségen túl, hogy sokkal kompaktabb rendszer készíthető, így pl. mobil vagy beágyazott eszközökbe is alkalmasabb lehet. Az utóbbi időkben az újszerű konvolúciós neuronhálók (time-depth/channel separable convolution) különösen hatékonyan képesek a paraméterteret csökkenteni, így a tanítási idő is lényegesen rövidebb lett. A feladat hatékony, akár böngészőben futtatható "wake up" szó felismerés, ami által a komplexebb, nagyobb erőforrásokat igénylő beszédleiratozó rendszer felébreszthető. A téma továbbvihető szakdolgozatig/diplomatervig.
Témavezető: Dr. Mihajlik Péter
Önfelügyelt akusztikus modellezés
Az önfelügyelt (vagy self-supervised) előtanulás, egy rendkívül hatékony módszer a mély neuronhálók beszédfelismerési és természetes nyelvfeldolgozási alkalmazásaiban, ahol felügyelt (címkézett) adatok nélkül javíthatjuk drasztikusan a különféle nyelvi/akusztikai felismerési/osztályozási feladatok pontosságát. A konkrét feladat a wav2vec2.0 transformer keretrendszer megismerése, és a legújabb eszközkészletek (HuggingFace, SpeechBrain vagy Fairseq) alkalmazása beszédfelismerési feladatokra. Javasolt előképzettség: Python programozás, deep learning alapok. Háttérinformáció: https://ai.facebook.com/blog/self-supervision-and-building-more-robust-speech-recognition-systems/
Témavezető: Dr. Mihajlik Péter