Zum Hauptinhalt springen
Unsere Forschungsexperten

Shabnam Ghaffarzadegan, Dr.

Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

„Menschen, Tiere und sogar Pflanzen nutzen Schall, um zu kommunizieren und ihre Umgebung zu verstehen. Wenn wir ein wahrhaft intelligentes KI-System wollen, müssen wir auch Maschinen mit der Fähigkeit zur Klangwahrnehmung ausstatten.“

Shabnam Ghaffarzadegan, Dr.

Meine Forschungsschwerpunkte liegen im Bereich Mensch-Maschine-Interaktion mit Bezug auf Audio-, Sprach- und kognitiver Verarbeitung. Meine Forschung verknüpft Audiosignalverarbeitung mit anwendungsspezifischen Lösungen des maschinellen Lernens. Genauer gesagt entwickle ich fortschrittliche Lösungen auf den Gebieten Audio-Szenen-Klassifizierung und Audio-Szenen-Detektion. Das Ziel meiner Arbeit besteht darin, Maschinen ein menschenähnliches Wissen und Verständnis über Ton und Sprache zu verleihen, wie sie in der Umgebung vorkommen. Die Ergebnisse meiner Arbeit werden verwendet, um die maschinelle Intelligenz zu verbessern und alternative Mensch-Maschine-Interaktionen bereitzustellen.

Lebenslauf

Universität Texas in Dallas, Richardson, USA

2013-2016
EE-Doktorand, automatische Spracherkennung, Mensch-Maschine-Systeme

Educational Testing Service (ETS), Princeton, USA

2015
Forschungspraktikant, automatisierte Auswertung von spontanen, nicht-muttersprachlichen Äußerungen

Technische Universität Amirkabir, Iran

2009-2012
Master of Science EE, blinde Separation und Lokalisation von Audioquellen

Ausgewählte Publikationen

  • UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech

    S Ghaffarzadegan et al. (2014)

    UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech
    • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
    • 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  • Generative modeling of pseudo-whisper for robust whispered speech recognition

    S Ghaffarzadegan (2016)

    Generative modeling of pseudo-whisper for robust whispered speech recognition
    • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
    • IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • Model and feature based compensation for whispered speech recognition

    S Ghaffarzadegan et al. (2014)

    Model and feature based compensation for whispered speech recognition
    • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
    • Fifteenth Annual Conference of the International Speech Communication Association (Interspeech)
  • Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition

    S Ghaffarzadegan et al. (2015)

    Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition
    • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
    • 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  • Deep neural network training for whispered speech recognition using small databases and generative model sampling

    S Ghaffarzadegan et al. (2017)

    Deep neural network training for whispered speech recognition using small databases and generative model sampling
    • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
    • International Journal of Speech Technology
  • An Ontology-Aware Framework for Audio Event Classification

    Y Sun et al. (2020)

    An Ontology-Aware Framework for Audio Event Classification
    • Yiwei Sun, Shabnam Ghaffarzadegan
    • 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  • Self-supervised attention model for weakly labeled audio event classification

    B Kim et al. (2019)

    Self-supervised attention model for weakly labeled audio event classification
    • Bongjun Kim, Shabnam Ghaffarzadegan
    • 2019 27th European Signal Processing Conference (EUSIPCO)
  • Deep Multiple Instance Feature Learning via Variational Autoencoders

    S Ghaffarzadegan (2018)

    Deep Multiple Instance Feature Learning via Variational Autoencoders
    • Shabnam Ghaffarzadegan
    • Proc AAAI Wrkshp Artificial Intelligence Applied to Assistive Technologies and Smart Environments
  • Occupancy Detection in Commercial and Residential Environments Using Audio Signal

    S Ghaffarzadegan et al. (2017)

    Occupancy Detection in Commercial and Residential Environments Using Audio Signal
    • Shabnam Ghaffarzadegan, Attila Reiss, Mirko Ruhs, Robert Duerichen, Zhe Feng
    • Annual Conference of the International Speech Communication Association (Interspeech)
  •  A Real-Time Audio Monitoring Framework with Limited Data for Constrained Devices

    A Salekin et al. (2019)

    A Real-Time Audio Monitoring Framework with Limited Data for Constrained Devices
    • Asif Salekin, Shabnam Ghaffarzadegan, Zhe Feng, John Stankovic

Interview mit Shabnam Ghaffarzadegan, Dr.

Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

Erzählen Sie doch mal: was fasziniert Sie an der Forschung?

Die Forschung ermöglicht es mir, das Unbekannte zu entdecken und immer wieder Neues zu lernen. Jedes Projekt zeigt neue Perspektiven auf und bietet neue Herausforderungen auf meinem Gebiet. Ich finde es auch sehr wertvoll, aus Fehlern lernen und Erfahrungen ableiten zu können.

Was macht die Forschung bei Bosch besonders?

Am wichtigsten für mich ist es, dass ich mit Leidenschaft forschen kann und gleichzeitig einen direkten Einfluss auf Produkte und das alltägliche Leben habe. Dass meine Ideen nicht nur auf dem Papier existieren, sondern eine echte Wirkung haben, bedeutet mir viel. Zudem ist die Zusammenarbeit in multidisziplinären Teams bei Bosch sehr spannend. Dadurch fließen in jedes Projekt verschiedene Perspektiven und Erkenntnisse aus den unterschiedlichsten Bereichen ein. Als multikulturelles Unternehmen bietet Bosch uns außerdem die Möglichkeit, die Bedürfnisse von Menschen weltweit und ihre Akzeptanz von neuen Technologien zu verstehen. Mit diesen Informationen können wir unsere Produkte so anpassen, dass sie überall auf der Welt nützlich sind.

Woran forschen Sie bei Bosch?

Meine Forschung bei Bosch beschäftigt sich damit, anwendungsspezifische Audio- und Sprachtechnologien wirksam für KI-Konzepte einzusetzen, um das „Smart Ear“ für Maschinen zu entwickeln. Ich integriere die Fähigkeit zur Audiowahrnehmung in KI-Systeme, damit diese ihre Umwelt verstehen und sich besser darin zurechtfinden können.

Was sind die größten wissenschaftlichen Herausforderungen in Ihrem Forschungsfeld?

Auf dem Gebiet der Audioanalyse gibt es zahlreiche Herausforderungen. Das sind zum Beispiel: 1) Große Abweichungen innerhalb jeder Audiokategorie und ihres Kontexts, wie Hardware, Störgeräusche und akustische Umgebung. Der Einsatz von verschiedenen Mikrofonen zur Klangaufnahme, ob auf einer Party, in einem ruhigen Haus oder auf der Straße, in kleinen Räumen oder Konferenzsälen, bringt viele Herausforderungen für unsere Systeme mit sich. Wir wollen Systeme entwickeln, die unabhängig von den Umwelt- und Kontextvariationen zuverlässig funktionieren. 2) Unbegrenztes Audiovokabular in der realen Welt, was es unmöglich macht, den klanglichen Umfang einer bestimmten Aufgabe vorherzusagen. Anders als gesprochene Sprache, die eine begrenzte Menge von Alphabeten nutzt, sind die Variationen von Umweltgeräuschen unbegrenzt. Man denke nur einmal an all die verschiedenen Geräusche, die man tagtäglich hört. Es ist daher unmöglich, einem KI-System alle möglichen Töne auf der Welt beizubringen. Wir brauchen eine klügere KI, die weiß, wenn sie etwas nicht weiß. 3) Eingeschränkte Verfügbarkeit von kommentierten Daten – die essentiell für Deep-Learning-Lösungen sind – aufgrund des unbegrenzten Vokabulars und der endlosen kontextuellen Variationen. 4) Die Sorge um den Datenschutz der Benutzer, wenn sie ständig von einem System belauscht werden. Als Forscher müssen wir den Datenschutz der Benutzer sicherstellen, das Risiko von schädlichen Attacken auf unsere KI-Systeme reduzieren und transparent kommunizieren, wie wir mit den Daten der Benutzer umgehen.

Wie werden Ihre Forschungsergebnisse zu "Technik fürs Leben"?
Effektive Audiowahrnehmung und andere Aspekte wie visuelle Fähigkeiten und die Verarbeitung natürlicher Sprache lassen die Smart-Life-Technologie von morgen Wirklichkeit werden. So kann unsere Technologie beispielsweise als Sicherheitssystem verwendet werden, um zerbrechendes Glas, einen Rauchmelder, ein schreiendes Baby und einen bellenden Hund zu erkennen und den Benutzer zu warnen. Sie kann einem vernetzten Lautsprecher („Smart Speaker“) beibringen, einen Menschen nicht zu unterbrechen, wenn er spricht, oder andere laute Geräusche in der Umgebung zu erkennen. Und schließlich kann die Audiowahrnehmung auch einem Fahrzeug helfen, seine Umgebung zu verstehen, um z. B. vorbeifahrende Polizeiwagen/Krankenwagen im Einsatz zu erkennen und entsprechend zu handeln.

Shabnam Ghaffarzadegan, Dr.

Ihr Kontakt zu mir

Shabnam Ghaffarzadegan, Dr.
Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

Teile diese Seite auf