-
Speech recognition technology has been used for a long time, but recognizing a speech accurately is a very difficult task. In this topic, we mainly use the conformer-ctc model provided by open-source toolkits (Nemo), and fine-tune the model to achieve better training results. If you are interested in automatic speech recognition, and have a good foundation in python, it is highly recommended that you choose this topic.
Témavezető : Meng Yan
-
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. "A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez."
Témavezető : Arthur Frigyes Viktor
-
This project investigates how to improve ultrasound-to-speech synthesis systems by explicitly guiding neural networks to focus on tongue contours within ultrasound images. Current models can map articulatory data into speech, but they often struggle with noise and variability in ultrasound signals. A key question arises: what features do convolutional neural networks (CNNs) actually learn from these images?
The approach involves several steps:
Heatmap Visualization - Using techniques like Grad-CAM to visualize CNN attention on ultrasound images.
Cross-Speaker Analysis - Inspecting results across different speakers to ensure robustness.
Tongue Contour Biasing - Applying DeepLabCut to extract tongue contours and regenerate images, providing a structural bias for the model.
Speech Synthesis - Training the biased network to generate mel-spectrograms, then using a HiFi-GAN vocoder to convert them into speech.
Evaluation - Assessing output quality with objective metrics such as MSE, Mel-Cepstral Distortion, and PESQ.
The novelty of this work lies in biasing the learning process toward meaningful articulatory structures, rather than relying solely on raw image data. This can lead to more interpretable, reliable, and higher-quality speech synthesis.
Témavezető : Ibrahimov Ibrahim
-
Valódi, hanggal beszélgető robot (virtuális ügynök) kialakítása a cél, melyhez az NVIDIA NeMo/RIVA toolkiteket használjuk. Magyar nyelven elsőként valósulhat meg a projekt. Python programozási ismeretek, mélytanulási alapok előnyt jelentenek.
Témavezető : Dr. Mihajlik Péter
-
Dementia is a broad term that encompasses various progressive neurological disorders affecting cognitive functions. Different types of dementia are characterized by distinct sets of symptoms and underlying causes. The most common type is Alzheimer's disease (AD), which is expected to reach over 150 million patients by 2050. Though there is no cure yet. The main goal of the project is to identify speech and linguistic features that characterize dementia and to propose a system that is able to monitor the speech of a subject in order to diagnose (or give a likelihood of) dementia in an early stage of the disease using machine learning and deep learning.
Témavezető : Mansour Haidi Said Abdelhamid Ahmed
TIPPEK AZ ÖNÁLLÓ LABOR (ÉS SZAKDOLGOZAT, DIPLOMATERVEZÉS) TANTÁRGYAKHOZ
A lényege: A hallgató az év elején választ egy témát és vele egy egyéni konzulenst. Év közben egyéni munkarendben dolgozik (esetleg több labortárssal közösen), majd az év végén a tárgyfelelősnek írásban(elektronikusan beadva) és szóban (vetített képekkel) beszámol. (Vesd össze az ún. "szakirány labor" fogalmával: adott időpontban bemégy a laborba, ahol adott mérési utasítás alapján kell egy adott feladot "lemérned"). A tanszéken a témalabor tevékenység többféle tárgy keretében zajlik a résztvevők hallgatók szakjának (vill, infó), képzésének (BSc, MSc, ötéves), évfolyamának és szakirányának/ágazatának függvényében. A különféle tárgyak történeti és egyéb okokból más-más nevet viselnek, formailag más és más tárgyadatlapot, tárgykövetelményt tartalmaznak, történeti és terhelés megosztási okokból részben más és más a tárgyfelelős oktatójuk, de ettől függetlenül a tárgyak tematikája, követelmény rendszere harmonizált, lényegileg azonos. A témalabor tárgyak tematikai célja a mérnöki életben szokásos tipikus feladatok (lehetőleg az összes!) gyakorlása: A feladat specifikációjának részletes megértése, kidolgozása A szakmában, vagy a szakirodalomban az adott feladattípusra esetlegesen ismert megoldási lehetőségek felkutatása, bemutatása, elemzése. Az előző pont alapján a megoldás megtervezése, ideértve a helyes megvalósítás ellenőrzésének módját is (teszt tervek) A megoldás megvalósítása, elkészítése A megoldás ellenőrzése, értékelő elemzése A fenti séma nagyon sokféle feladatra alkalmazható, legyen az hardver, vagy szoftver.
MITŐL ÖNÁLLÓ A TÉMALABOR/ÖNÁLLÓLABOR?
Ha a konzulens ezt lehetővé teszi, akkor lehet csapatban dolgozni, de néhány dologra oda kell figyelni: A témalabor tárgyak tematikai célja a mérnöki életben szokásos tipikus feladatok (lehetőleg az összes) gyakorlása (lásd a témalabor fogalmi definícióját). Ezeket minden hallgatónak önállóan gyakorolnia kell (az összeset!), még ha esetleg csoportban is dolgozik. Ezért általában nem fogadható el, ha egy csapatban valaki csak "dokumentál", és valaki csak "kódol". Hangsúlybeli, aránybeli különbségek (akár jelentősek is) persze lehetnek a csapattagok között, de mindenkinek minden tevékenységfajtával foglalkoznia kell valamennyit. Adott esetben a tárgyfelelős előírásai szerint a csapattagok készíthetnek (részben) közös írásbeli és/vagy szóbeli beszámolókat, de ezekből minden esetben kideríthetőeknek kell lenni az egyéni csapattagok egyéni részfeladatainak és azok megoldásának.
HOGYAN VÁLASSZAK TÉMÁT?
Böngéssz az aktuális témakiírások között, és válassz 1-2-3 szimpatikus témát. Feltétlenül beszélj interaktívan a szimpatikus témák konzulenseivel (telefonon, vagy személyesen). Ha szükséges, akkor ehhez kérj személyes találkozót is. Faggasd ki, hogy mit lehet tudni a feladatról! Ha megegyeztetek, akkor végezd el az adott tárgy adott félév-eleji kötelező adminisztrációs és/vagy programozott mérési feladatait. Az adminisztrációs feladatok hasonlóak, de az aktuális tárgyfelelős szájaíze szerint vannak kisebb-nagyobb eltérések. Ez ügyben nézd meg: a tantárgy követelményét(!) a tárgy, vagy a tárgyfelelős honlapját, ahol adott esetben fontos, a tárgykövetelményekben nem szereplő hirdetményt találhatsz. Ezeket a hirdetményeket a tárgyfelelősök tudottnak veszik! Miután elvégezted a kötelező év eleji feladatokat, tennivalókat kezdj el dolgozni a konzulenseddel egyeztetett feladaton, a vele egyeztetett tempóban.
MIRE FIGYELJEK TÉMAVÁLASZTÁSKOR?
A téma legyen perspektivikus, azaz több féléven keresztül művelhető! Ideális esetben legyen diplomatervezésig vihető! Faggasd ki a konzulenst a munka jellegéről! Mondjuk az "Ismerkedés az internet világával" egysoros témacím rejthet akár a sorbanállási elméletre alapozó matematikai jellegű feladatot is! Erre ne a félév során kelljen rájönnöd. Ha a diploma után szeretnél esetleg doktori képzésben részt venni, akkor a sikeres felvételihez majdan publikációs pontok is kellenek. Ezt legegyszerűbben I-II-III. helyezést elérő TDK dolgozatokkal lehet elérni. Ehhez hasznos olyan témát keresni, amiből TDK-zni lehet.