Explainable Deep Learning Models for Text-to-Speech Conversational AI
Conversational AI uses machine learning to develop speech-based apps that allow humans to interact naturally with devices, machines, and computers using audio. Several deep learning models are connected to a pipeline to build a conversational AI application. This project aims to study and refine the TTS part in one Conversational AI toolkit (for example, NVIDIA NeMo or SpeechBrain).
Exploring Efficient Neural Architectures for Text-to-Speech Synthesis
Text-to-Speech (TTS) is a comprehensive technology that involves many disciplines such as acoustics, signal processing, and machine learning. This project focuses on developing a deep-learning model designed to provide a high-quality TTS system. The student's task is mapping from linguistic to acoustic features with various deep neural networks. Students must evaluate the updated system from different aspects, including intelligibility, naturalness, and preference for synthetic speech.
Felügyelet nélküli akusztikus modellezés GAN használatával
A gépi beszédfelismeréshez (automatikus szövegleiratozáshoz) hagyományosan nagy mennyiségű hangra és hozzá tartozó szöveges leiratra van szükség. Ennek előállítása drága és időigényes. Az újabb, önfelügyelt tanításon alapuló megközelítések lehetővé tették a leiratmentes akusztikus előtanítást, így csupán egy pár órányi felügyelt tanítás is elegendő a beszédfelismerő betanításához. Ennél is továbbmegy a teljesen felügyelet nélküli tanítás: csupán írott szöveg alapján GAN (Generative Adversarial Network) segítségével sikerült a META (FB) kutatóinak "rávenni" az előtanított akusztikus modelleket a hang szöveges leiratozására. Magyar nyelvre szeretnénk a világon elsőként ilyen rendszer készíteni, amibe lehetőség van bekapcsolódni. Python programozási és deep learning ismeretek előnyt jelentenek.
https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Focus-on-Tongue: Biasing Ultrasound-to-Speech Synthesis System with Tongue Shape
This project investigates how to improve ultrasound-to-speech synthesis systems by explicitly guiding neural networks to focus on tongue contours within ultrasound images. Current models can map articulatory data into speech, but they often struggle with noise and variability in ultrasound signals. A key question arises: what features do convolutional neural networks (CNNs) actually learn from these images?
The approach involves several steps:
Heatmap Visualization - Using techniques like Grad-CAM to visualize CNN attention on ultrasound images.
Cross-Speaker Analysis - Inspecting results across different speakers to ensure robustness.
Tongue Contour Biasing - Applying DeepLabCut to extract tongue contours and regenerate images, providing a structural bias for the model.
Speech Synthesis - Training the biased network to generate mel-spectrograms, then using a HiFi-GAN vocoder to convert them into speech.
Evaluation - Assessing output quality with objective metrics such as MSE, Mel-Cepstral Distortion, and PESQ.
The novelty of this work lies in biasing the learning process toward meaningful articulatory structures, rather than relying solely on raw image data. This can lead to more interpretable, reliable, and higher-quality speech synthesis.
FOCUS-ON-TONGUE: BIASING ULTRASOUND-TO-SPEECH SYNTHESIS SYSTEM WITH TONGUE SHAPE
This project investigates how to improve ultrasound-to-speech synthesis systems by explicitly guiding neural networks to focus on tongue contours within ultrasound images. Current models can map articulatory data into speech, but they often struggle with noise and variability in ultrasound signals. A key question arises: what features do convolutional neural networks (CNNs) actually learn from these images? The approach involves several steps: Heatmap Visualization – Using techniques like Grad-CAM to visualize CNN attention on ultrasound images. Cross-Speaker Analysis – Inspecting results across different speakers to ensure robustness. Tongue Contour Biasing – Applying DeepLabCut to extract tongue contours and regenerate images, providing a structural bias for the model. Speech Synthesis – Training the biased network to generate mel-spectrograms, then using a HiFi-GAN vocoder to convert them into speech. Evaluation – Assessing output quality with objective metrics such as MSE, Mel-Cepstral Distortion, and PESQ. The novelty of this work lies in biasing the learning process toward meaningful articulatory structures, rather than relying solely on raw image data. This can lead to more interpretable, reliable, and higher-quality speech synthesis.
Hatékony "wake up" szó felismerés - mély konvolúciós háló alapokon
A tisztán mély neuronháló alapú beszédfelismerés egyre jobban előtérbe kerül a hagyományos (rejtett Markov-modell alapú) techinkákkal szemben. Fő előnye az elméleti letisztultságon és egyszerűségen túl, hogy sokkal kompaktabb rendszer készíthető, így pl. mobil vagy beágyazott eszközökbe is alkalmasabb lehet. Az utóbbi időkben az újszerű konvolúciós neuronhálók (time-depth/channel separable convolution) különösen hatékonyan képesek a paraméterteret csökkenteni, így a tanítási idő is lényegesen rövidebb lett. A feladat hatékony, akár böngészőben futtatható "wake up" szó felismerés, ami által a komplexebb, nagyobb erőforrásokat igénylő beszédleiratozó rendszer felébreszthető. A téma továbbvihető szakdolgozatig/diplomatervig.
HCAI-SPEECH: a beszéd és a bioszignál-feldolgozás emberközpontú MI vonatkozásai
Az emberközpontú mesterséges intelligencia (Human-Centered Artificial Intelligence, HCAI) az MI olyan felhasználásáról szól, amelyeknek etikusnak kell lenniük, tiszteletben kell tartaniuk az emberi jogokat és a szabadságot. Az MI-rendszereket készítő hallgatóknak a technológiai készségek, valamint az etikai és jogi ismeretek megfelelő keverékének elsajátítására van szükségük, amelyek megfelelnek az információs technológia iparág igényeinek. A 'human-in-the-loop' megközelítés kéz a kézben jár az emberközpontú AI-val. Ez azt jelenti, hogy az emberek részt vesznek az ML-modell betanítási, tesztelési és hangolási folyamatában is.
A hallgató feladata a HCAI szempontok alkalmazása a beszéd- és bioszignál (nyelvultrahang képek, a beszélő szervek mágneses rezonancia képei, agyi EEG) feldolgozásában, a némabeszéd-interfészek és a beszédalapú agy-számítógép interfészek kidolgozása során.
Hybrid post-processing algorithm to generate disparity depth map.
In this project, the student is required to develop a post-processing algorithm to generate a disparity depth map with hybrid method toward achieving an accurate performance in stereo matching with low error and low complex structures.
Meta-heuristic optimization for The Traveling Salesman problem
The problem states that the traveling salesman needs to visit a certain number of cities to sell objects and then return to the starting point. The salesman tries to find the shortest Hamiltonian cycle of the graph. The task is to study and investigate the development of the meta-heuristic algorithm (prefer DBMEA) to get better results. Programing skills are required.
Design an efficient fronthaul for 5G networks service delivery
5G cellular networks are coming, and they need to cope with significant challenges in meeting the demands of a large population.
The rapid increase of mobile devices, wireless connections, and emerging internet services related to applications with very diverse communication requirements (smart grid, e-health, smart cities) raised the need for higher capacity and more energy-efficient network improved coverage capabilities.
This requires a high capacity, low latency, and cost-effective fronthaul.
The student's task will be to investigate and optimize techniques for dynamic resource assignment in 5G fronthaul. aspects