TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK
Budapesti Műszaki és Gazdaságtudományi Egyetem - Villamosmérnöki és Informatikai Kar

Témák listája

Speaker Adaptation based Text to Speech Synthesis
Speech is the most natural mode of communication. Speech synthesis is converting the text to speech like a human. One challenge of modeling this process is the lack of data resources. Speaker adaptation is one of these solutions. With the speaker adaptation, we train a model with big data and then adapt it to a limited target speaker. Speaker adaptation could also be beneficial with speech communication for the speech-impaired. The student is asked to develop/modify a model to do a speaker adaptation method. Basic programming knowledge is necessary, and machine learning / deep learning experience is beneficial. For BSc/MSc students
Témavezető: Mandeel Ali Raheem
Speaker Verification using Convolutional Neural Networks
Examine the application of a convolutional neural network (CNN) in conjunction with conventional methodologies for speaker verification, within the context of utilizing low-resource datasets and diverse linguistic contexts.
Témavezető: Abed Mohammed Hamzah
TCP measurement based on NS3
• Polish the student’s knowledge on C++ language. • Install NS3 and learn about the NS3 environment, which is an open-source, discrete-event network simulator, which is used by research and educational purposes. • Learn about the different TCP models in NS3. • Understand the tutorial example codes of the NS3 such as first.cc, second.cc etc. • Learn about the Congestion Control Algorithms. • Do some measurements in Transmission Control Protocol TCP based on the NS3
Témavezető: Jagmagji Ahmed Samir
TCP measurement based on NS3 with investigating different Network scenarios
The main goals of this project are to learn about the different TCP models in NS3, learn about Congestion Control Algorithms, discover the NS3 environment, do some measurements in TCP based on the NS3, and investigate the ability of the Network Simulator software (NS3) for applying different computer network environments. At the end of the project, the student will be able to write his own code on NS3 or merge the available example codes of NS3 to apply different network scenarios.
Témavezető: Jagmagji Ahmed Samir
Valós idejű DDoS detekció és mitigáció
Az adatközpontoknak és internetes adatcserélő-központoknak egyre nagyobb kihívást jelent a folyamatosan növekvő Quality of Service (QoS) igények kielégítésé. Ezt tovább nehezíti az a szolgáltatókra nehezedő teher, amit az infrastruktúrát célzó kibertámadások jelentenek. Ezek a támadások nagy spektrumot lefednek technológia háttér és komplexitás tekintetében; különösen nagy erőforrásokat igényel a DDoS (Distributed Denial of Service) támadások kivédése. Bár ilyesfajta támadások már évtizedek óta léteznek, viszont az IoT- (Internet of Things)és mobiltelefon-alapú botnetek elterjedésével olyan ütőképességre tettek szert, ami tíz éve elképzelhetetlen volt. Már kis szolgáltatóknál is mindennaposak a 100Gbps sávszélességű támadások. Ezeknek a támadásoknak a detektálásában és mitigálásában nagyon komoly kutatási potenciál van, mivel a jelenlegi megoldások döntő többsége „erőből” (nagyon sok processzor felhasználásával) és szoftver-alapú megoldásokkal működik. A DDoS-támadások sávszélessége azonban 5 nagyságrenddel gyorsabban növekedett az elmúlt 20 évben, mint a processzorok órajel -frekvenciája; emiatt a piacvezető gyártók és kutatók lépés hátrányba kerültek. A piacvezető Netscout Arbor-nak nincs 100Gbps interface-cel rendelkező terméke, míg a Cisco legmagasabb kategóriájú tűzfala is összesen 1x100Gbps kezelésére alkalmas - és arra is csak úgy, hogy a minimálisan szükséges feature-set van bekapcsolva rajta. Mindezekkel szemben a hardver-támogatott megoldások gyorsabban és hatékonyabban képesek a nagy tömegű támadásokat észlelni, mint szoftveres társaik. A hardveres támogatású DDoS-detekció lényege a forgalmi minták anomália-detekciója; ráadásul a párhuzamos feldolgozási architektúra miatt a detekció nem másodpercekben vagy percekben, hanem órajel-ciklusokban mérhető. Az FPGA-alapú hálózati hardveres gyorsítók elérhetősége jelentősen nőtt az elmúlt évtizedben.
Témavezető: Nagy Balázs
VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."
Témavezető: Arthur Frigyes Viktor
Voice Conversion Technology and its Application with Emotional Speech
Speech is the most used and natural way for people to communicate. The goal of a VC system is to determine a transformation that makes the source speaker's speech sound as if the target speaker uttered it. This project aims to present a rule-based voice conversion system for emotion capable of converting neutral speech to emotional speech (i.e., angry, fear, happy, sad, surprise, etc.).