TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK
Budapesti Műszaki és Gazdaságtudományi Egyetem - Villamosmérnöki és Informatikai Kar

Témák listája

Conversational AI alkalmazások
Valódi, hanggal beszélgető robot (virtuális ügynök) kialakítása a cél, melyhez az NVIDIA NeMo/RIVA toolkiteket használjuk. Magyar nyelven elsőként valósulhat meg a projekt. Python programozási ismeretek, mélytanulási alapok előnyt jelentenek.
Témavezető: Dr. Mihajlik Péter
Detection and Mitigation of Distributed Denial-of-Service (DDoS) Attacks on Software Defined Networking (SDN)
The evolution of information and communication technologies has brought new challenges in managing the Internet. Software-Defined Networking (SDN) aims to provide easily configured and remotely controlled networks based on centralized control. Since SDN will be the next disruption in networking, SDN security has become a hot research topic because of its importance in communication systems. A centralized controller can become a focal point of attack, thus preventing the attack on the controller will be a priority. The whole network will be affected if the attacker gains access to the controller. One of the attacks that affect SDN controller is DDoS attacks. The aim of this project is to explore and evaluate one of the common detection and mitigation techniques. Later, further ideas on how to improve the performance of SDN during such attacks are investigated.
Témavezető: Zubaydi Haider
Effects of emotional speech and noisy data on forensic voice comparison using deep speaker embeddings
Investigate the effect of emotions and noise data on the forensic voice comparison, using the deep learning techniques
Témavezető: Abed Mohammed Hamzah
Energy Efficiency Evaluation of 5G Radio Access Networks Architectures
The exponential growth of network traffic and the number of connected devices make energy efficiency an increasingly important concern for future mobile networks. More specifically, because 5G is being deployed at a time when energy efficiency appears to be a significant matter for network ability to consider and serve societal and environmental issues, it has the potential to play an essential role in assisting industries in achieving sustainability goals. Many architectures are proposed as candidates for 5G and beyond radio access networks(RAN). The Candidate task is to model, evaluate and compare the energy efficiency of different RAN architectures
Témavezető: Fayad Abdulhalim
Explainable Deep Learning Models for Text-to-Speech Conversational AI
Conversational AI uses machine learning to develop speech-based apps that allow humans to interact naturally with devices, machines, and computers using audio. Several deep learning models are connected to a pipeline to build a conversational AI application. This project aims to study and refine the TTS part in one Conversational AI toolkit (for example, NVIDIA NeMo or SpeechBrain).
Exploring Efficient Neural Architectures for Text-to-Speech Synthesis
Text-to-Speech (TTS) is a comprehensive technology that involves many disciplines such as acoustics, signal processing, and machine learning. This project focuses on developing a deep-learning model designed to provide a high-quality TTS system. The student's task is mapping from linguistic to acoustic features with various deep neural networks. Students must evaluate the updated system from different aspects, including intelligibility, naturalness, and preference for synthetic speech.
Felügyelet nélküli akusztikus modellezés GAN használatával
A gépi beszédfelismeréshez (automatikus szövegleiratozáshoz) hagyományosan nagy mennyiségű hangra és hozzá tartozó szöveges leiratra van szükség. Ennek előállítása drága és időigényes. Az újabb, önfelügyelt tanításon alapuló megközelítések lehetővé tették a leiratmentes akusztikus előtanítást, így csupán egy pár órányi felügyelt tanítás is elegendő a beszédfelismerő betanításához. Ennél is továbbmegy a teljesen felügyelet nélküli tanítás: csupán írott szöveg alapján GAN (Generative Adversarial Network) segítségével sikerült a META (FB) kutatóinak "rávenni" az előtanított akusztikus modelleket a hang szöveges leiratozására. Magyar nyelvre szeretnénk a világon elsőként ilyen rendszer készíteni, amibe lehetőség van bekapcsolódni. Python programozási és deep learning ismeretek előnyt jelentenek. https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Témavezető: Dr. Mihajlik Péter
Hatékony "wake up" szó felismerés - mély konvolúciós háló alapokon
A tisztán mély neuronháló alapú beszédfelismerés egyre jobban előtérbe kerül a hagyományos (rejtett Markov-modell alapú) techinkákkal szemben. Fő előnye az elméleti letisztultságon és egyszerűségen túl, hogy sokkal kompaktabb rendszer készíthető, így pl. mobil vagy beágyazott eszközökbe is alkalmasabb lehet. Az utóbbi időkben az újszerű konvolúciós neuronhálók (time-depth/channel separable convolution) különösen hatékonyan képesek a paraméterteret csökkenteni, így a tanítási idő is lényegesen rövidebb lett. A feladat hatékony, akár böngészőben futtatható "wake up" szó felismerés, ami által a komplexebb, nagyobb erőforrásokat igénylő beszédleiratozó rendszer felébreszthető. A téma továbbvihető szakdolgozatig/diplomatervig.
Témavezető: Dr. Mihajlik Péter
HCAI-SPEECH: a beszéd és a bioszignál-feldolgozás emberközpontú MI vonatkozásai
Az emberközpontú mesterséges intelligencia (Human-Centered Artificial Intelligence, HCAI) az MI olyan felhasználásáról szól, amelyeknek etikusnak kell lenniük, tiszteletben kell tartaniuk az emberi jogokat és a szabadságot. Az MI-rendszereket készítő hallgatóknak a technológiai készségek, valamint az etikai és jogi ismeretek megfelelő keverékének elsajátítására van szükségük, amelyek megfelelnek az információs technológia iparág igényeinek. A 'human-in-the-loop' megközelítés kéz a kézben jár az emberközpontú AI-val. Ez azt jelenti, hogy az emberek részt vesznek az ML-modell betanítási, tesztelési és hangolási folyamatában is. A hallgató feladata a HCAI szempontok alkalmazása a beszéd- és bioszignál (nyelvultrahang képek, a beszélő szervek mágneses rezonancia képei, agyi EEG) feldolgozásában, a némabeszéd-interfészek és a beszédalapú agy-számítógép interfészek kidolgozása során.
Hybrid post-processing algorithm to generate disparity depth map.
In this project, the student is required to develop a post-processing algorithm to generate a disparity depth map with hybrid method toward achieving an accurate performance in stereo matching with low error and low complex structures.