TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK
Budapesti Műszaki és Gazdaságtudományi Egyetem - Villamosmérnöki és Informatikai Kar

Témák listája

Felügyelet nélküli akusztikus modellezés GAN használatával
A gépi beszédfelismeréshez (automatikus szövegleiratozáshoz) hagyományosan nagy mennyiségű hangra és hozzá tartozó szöveges leiratra van szükség. Ennek előállítása drága és időigényes. Az újabb, önfelügyelt tanításon alapuló megközelítések lehetővé tették a leiratmentes akusztikus előtanítást, így csupán egy pár órányi felügyelt tanítás is elegendő a beszédfelismerő betanításához. Ennél is továbbmegy a teljesen felügyelet nélküli tanítás: csupán írott szöveg alapján GAN (Generative Adversarial Network) segítségével sikerült a META (FB) kutatóinak "rávenni" az előtanított akusztikus modelleket a hang szöveges leiratozására. Magyar nyelvre szeretnénk a világon elsőként ilyen rendszer készíteni, amibe lehetőség van bekapcsolódni. Python programozási és deep learning ismeretek előnyt jelentenek. https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Témavezető: Dr. Mihajlik Péter
Önfelügyelt akusztikus modellezés
Az önfelügyelt (vagy self-supervised) előtanulás, egy rendkívül hatékony módszer a mély neuronhálók beszédfelismerési és természetes nyelvfeldolgozási alkalmazásaiban, ahol felügyelt (címkézett) adatok nélkül javíthatjuk drasztikusan a különféle nyelvi/akusztikai felismerési/osztályozási feladatok pontosságát. A konkrét feladat a wav2vec2.0 transformer keretrendszer megismerése, és a legújabb eszközkészletek (HuggingFace, SpeechBrain vagy Fairseq) alkalmazása beszédfelismerési feladatokra. Javasolt előképzettség: Python programozás, deep learning alapok. Háttérinformáció: https://ai.facebook.com/blog/self-supervision-and-building-more-robust-speech-recognition-systems/
Témavezető: Dr. Mihajlik Péter
Hatékony "wake up" szó felismerés - mély konvolúciós háló alapokon
A tisztán mély neuronháló alapú beszédfelismerés egyre jobban előtérbe kerül a hagyományos (rejtett Markov-modell alapú) techinkákkal szemben. Fő előnye az elméleti letisztultságon és egyszerűségen túl, hogy sokkal kompaktabb rendszer készíthető, így pl. mobil vagy beágyazott eszközökbe is alkalmasabb lehet. Az utóbbi időkben az újszerű konvolúciós neuronhálók (time-depth/channel separable convolution) különösen hatékonyan képesek a paraméterteret csökkenteni, így a tanítási idő is lényegesen rövidebb lett. A feladat hatékony, akár böngészőben futtatható "wake up" szó felismerés, ami által a komplexebb, nagyobb erőforrásokat igénylő beszédleiratozó rendszer felébreszthető. A téma továbbvihető szakdolgozatig/diplomatervig.
Témavezető: Dr. Mihajlik Péter
Speaker Adaptation Based deep neural network - Text to Speech Synthesis
Speech processing has attracted the interest of both scholars and industry during the last few decades. The technique of converting text into artificial speech is known as speech synthesis. It can be utilized in a blind person's speech monitoring system, a web browser, mobile phones, PCs, and laptops. Nowadays, every effort is taken to generate as natural a synthesized sound as possible. Our project aims to create a speaker adaption model that uses a Deep Neural Network to synthesize speech. The project will be completed using Merlin (a speech synthesis toolkit that uses neural networks to create speech).
Témavezető: Mandeel Ali Raheem
Automated Machine Learning methods using Reinforcement Learning
My research focuses mainly on: -Design AutoML related models -Neural Architecture Search -Hyperparameters optimization -Performance and Evaluation optimization -Adaptive methods
Témavezető: Abed Hamdi M.H.
BRAIN2SPEECH: EEG alapú kommunikációs agy-gép interfész deep learning módszerekkel
A beszéd az emberi kommunikáció elsődleges és legfontosabb eszköze. Sokan azonban elvesztették ezt a képességüket betegség vagy egészségkárosodás okán. A kommunikációs agy-gép interfész (BCI) célja, hogy természetes vagy ahhoz közeli kommunikációs csatornát biztosítsanak olyan személyek számára, akik fizikai vagy neurológiai károsodás miatt nem tudnak beszélni. A beszéd valós idejű szintézise közvetlenül a mért idegi aktivitásból (EEG) lehetővé tenné a természetes beszédet, és jelentősen javítaná az életminőségét, különösen a kommunikációban súlyosan korlátozott személyek számára. A hallgató feladata megismerkedni a BRAIN2SPEECH területtel, majd új típusú neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok) kidolgozása és tanítása több beszélő adataival. Az önálló munka / diplomaterv a BME Beszédtechnológia és Intelligens Interakciók Laboratóriumában készül. A hallgató feladatának a következőkre kell kiterjednie: - Tekintse át beszédtechnológiában az electroencephalogram-akusztikum becslés szakirodalmát. - Vizsgálja meg, milyen típusú neurális hálózatokat alkalmaztak eddig a kommunikációs agy-gép interfész területen! - Vizsgálja meg különböző neurális hálózat architektúrák (pl. konvolúciós és rekurrens hálózatok, ResNet, SkipNet) alkalmazhatóságát. - Az elkészült modelleket tesztelje objektív mérőszámokkal és szubjektív teszt keretében! - Munkáját részletesen dokumentálja!
Témavezető: Arthur Frigyes Viktor
VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."
Témavezető: Arthur Frigyes Viktor
Explainable Deep Learning Models for Text-to-Speech Conversational AI
Conversational AI uses machine learning to develop speech-based apps that allow humans to interact naturally with devices, machines, and computers using audio. Several deep learning models are connected to a pipeline to build a conversational AI application. This project aims to study and refine the TTS part in one Conversational AI toolkit (for example, NVIDIA NeMo or SpeechBrain).
Voice Conversion Technology and its Application with Emotional Speech
Speech is the most used and natural way for people to communicate. The goal of a VC system is to determine a transformation that makes the source speaker's speech sound as if the target speaker uttered it. This project aims to present a rule-based voice conversion system for emotion capable of converting neutral speech to emotional speech (i.e., angry, fear, happy, sad, surprise, etc.).
Exploring Efficient Neural Architectures for Text-to-Speech Synthesis
Text-to-Speech (TTS) is a comprehensive technology that involves many disciplines such as acoustics, signal processing, and machine learning. This project focuses on developing a deep-learning model designed to provide a high-quality TTS system. The student's task is mapping from linguistic to acoustic features with various deep neural networks. Students must evaluate the updated system from different aspects, including intelligibility, naturalness, and preference for synthetic speech.
Speaker Adaptation based Text to Speech Synthesis
Speech is the most natural mode of communication. Speech synthesis is converting the text to speech like a human. One challenge of modeling this process is the lack of data resources. Speaker adaptation is one of these solutions. With the speaker adaptation, we train a model with big data and then adapt it to a limited target speaker. Speaker adaptation could also be beneficial with speech communication for the speech-impaired. The student is asked to develop/modify a model to do a speaker adaptation method. Basic programming knowledge is necessary, and machine learning / deep learning experience is beneficial. For BSc/MSc students
Témavezető: Mandeel Ali Raheem
Automatic speech recognition for low-resource languages
Speech recognition technology has been used for a long time, but recognizing a speech accurately is a very difficult task. In this topic, we mainly use the conformer-ctc model provided by open-source toolkits (Nemo), and fine-tune the model to achieve better training results. If you are interested in automatic speech recognition, and have a good foundation in python, it is highly recommended that you choose this topic.
Témavezető: Meng Yan
Automatic speech recognition for low-resource languages
Speech recognition technology has been used for a long time, but recognizing a speech accurately is a very difficult task. In this topic, we mainly use the conformer-ctc model provided by open-sourch toolkits(Nemo), and fine-tune the model to achieve better training results. If you are interested in automatic speech recognition, and have a good foundation in python, it is highly recommended that you choose this topic.
Témavezető: Meng Yan
Automatic speech recognition for low-resource languages
Speech recognition technology has been used for a long time, but recognizing a speech accurately is a very difficult task. In this topic, we mainly use the conformer-ctc model provided by open-source toolkits (Nemo), and fine-tune the model to achieve better training results. If you are interested in automatic speech recognition, and have a good foundation in python, it is highly recommended that you choose this topic.
Témavezető: Meng Yan