Zum Hauptinhalt springen
Unsere Forschungsexperten

Shabnam Ghaffarzadegan, Dr.

Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

„Menschen, Tiere und sogar Pflanzen nutzen Schall, um zu kommunizieren und ihre Umgebung zu verstehen. Wenn wir ein wahrhaft intelligentes KI-System wollen, müssen wir auch Maschinen mit der Fähigkeit zur Klangwahrnehmung ausstatten.“
Shabnam Ghaffarzadegan, Dr.

Meine Forschungsschwerpunkte liegen im Bereich Mensch-Maschine-Interaktion mit Bezug auf Audio-, Sprach- und kognitiver Verarbeitung. Meine Forschung verknüpft Audiosignalverarbeitung mit anwendungsspezifischen Lösungen des maschinellen Lernens. Genauer gesagt entwickle ich fortschrittliche Lösungen auf den Gebieten Audio-Szenen-Klassifizierung und Audio-Szenen-Detektion. Das Ziel meiner Arbeit besteht darin, Maschinen ein menschenähnliches Wissen und Verständnis über Ton und Sprache zu verleihen, wie sie in der Umgebung vorkommen. Die Ergebnisse meiner Arbeit werden verwendet, um die maschinelle Intelligenz zu verbessern und alternative Mensch-Maschine-Interaktionen bereitzustellen.

Lebenslauf

  1. EE-Doktorand, automatische Spracherkennung, Mensch-Maschine-Systeme, Universität Texas in Dallas, Richardson (USA)
  2. Forschungspraktikant, automatisierte Auswertung von spontanen, nicht-muttersprachlichen Äußerungen, Educational Testing Service (ETS), Princeton (USA)
  3. Master of Science EE, blinde Separation und Lokalisation von Audioquellen, Technische Universität Amirkabir (Iran)

Ausgewählte Publikationen

UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech

S Ghaffarzadegan et al. (2014)

UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech
  • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
  • 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Generative modeling of pseudo-whisper for robust whispered speech recognition

S Ghaffarzadegan (2016)

Generative modeling of pseudo-whisper for robust whispered speech recognition
  • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
  • IEEE/ACM Transactions on Audio, Speech, and Language Processing
Model and feature based compensation for whispered speech recognition

S Ghaffarzadegan et al. (2014)

Model and feature based compensation for whispered speech recognition
  • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
  • Fifteenth Annual Conference of the International Speech Communication Association (Interspeech)
Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition

S Ghaffarzadegan et al. (2015)

Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition
  • Shabnam Ghaffarzadegan, Hynek Bořil, John HL Hansen
  • 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

Interview mit Dr. Shabnam Ghaffarzadegan

Dr. Shabnam Ghaffarzadegan

Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

Erzählen Sie doch mal: was fasziniert Sie an der Forschung?

Die Forschung ermöglicht es mir, das Unbekannte zu entdecken und immer wieder Neues zu lernen. Jedes Projekt zeigt neue Perspektiven auf und bietet neue Herausforderungen auf meinem Gebiet. Ich finde es auch sehr wertvoll, aus Fehlern lernen und Erfahrungen ableiten zu können.

Was macht die Forschung bei Bosch besonders?

Am wichtigsten für mich ist es, dass ich mit Leidenschaft forschen kann und gleichzeitig einen direkten Einfluss auf Produkte und das alltägliche Leben habe. Dass meine Ideen nicht nur auf dem Papier existieren, sondern eine echte Wirkung haben, bedeutet mir viel. Zudem ist die Zusammenarbeit in multidisziplinären Teams bei Bosch sehr spannend. Dadurch fließen in jedes Projekt verschiedene Perspektiven und Erkenntnisse aus den unterschiedlichsten Bereichen ein. Als multikulturelles Unternehmen bietet Bosch uns außerdem die Möglichkeit, die Bedürfnisse von Menschen weltweit und ihre Akzeptanz von neuen Technologien zu verstehen. Mit diesen Informationen können wir unsere Produkte so anpassen, dass sie überall auf der Welt nützlich sind.

Woran forschen Sie bei Bosch?

Meine Forschung bei Bosch beschäftigt sich damit, anwendungsspezifische Audio- und Sprachtechnologien wirksam für KI-Konzepte einzusetzen, um das „Smart Ear“ für Maschinen zu entwickeln. Ich integriere die Fähigkeit zur Audiowahrnehmung in KI-Systeme, damit diese ihre Umwelt verstehen und sich besser darin zurechtfinden können.

Was sind die größten wissenschaftlichen Herausforderungen in Ihrem Forschungsfeld?

Auf dem Gebiet der Audioanalyse gibt es zahlreiche Herausforderungen. Das sind zum Beispiel: 1) Große Abweichungen innerhalb jeder Audiokategorie und ihres Kontexts, wie Hardware, Störgeräusche und akustische Umgebung. Der Einsatz von verschiedenen Mikrofonen zur Klangaufnahme, ob auf einer Party, in einem ruhigen Haus oder auf der Straße, in kleinen Räumen oder Konferenzsälen, bringt viele Herausforderungen für unsere Systeme mit sich. Wir wollen Systeme entwickeln, die unabhängig von den Umwelt- und Kontextvariationen zuverlässig funktionieren. 2) Unbegrenztes Audiovokabular in der realen Welt, was es unmöglich macht, den klanglichen Umfang einer bestimmten Aufgabe vorherzusagen. Anders als gesprochene Sprache, die eine begrenzte Menge von Alphabeten nutzt, sind die Variationen von Umweltgeräuschen unbegrenzt. Man denke nur einmal an all die verschiedenen Geräusche, die man tagtäglich hört. Es ist daher unmöglich, einem KI-System alle möglichen Töne auf der Welt beizubringen. Wir brauchen eine klügere KI, die weiß, wenn sie etwas nicht weiß. 3) Eingeschränkte Verfügbarkeit von kommentierten Daten – die essentiell für Deep-Learning-Lösungen sind – aufgrund des unbegrenzten Vokabulars und der endlosen kontextuellen Variationen. 4) Die Sorge um den Datenschutz der Benutzer, wenn sie ständig von einem System belauscht werden. Als Forscher müssen wir den Datenschutz der Benutzer sicherstellen, das Risiko von schädlichen Attacken auf unsere KI-Systeme reduzieren und transparent kommunizieren, wie wir mit den Daten der Benutzer umgehen.

Wie werden Ihre Forschungsergebnisse zu "Technik fürs Leben"?
Effektive Audiowahrnehmung und andere Aspekte wie visuelle Fähigkeiten und die Verarbeitung natürlicher Sprache lassen die Smart-Life-Technologie von morgen Wirklichkeit werden. So kann unsere Technologie beispielsweise als Sicherheitssystem verwendet werden, um zerbrechendes Glas, einen Rauchmelder, ein schreiendes Baby und einen bellenden Hund zu erkennen und den Benutzer zu warnen. Sie kann einem vernetzten Lautsprecher („Smart Speaker“) beibringen, einen Menschen nicht zu unterbrechen, wenn er spricht, oder andere laute Geräusche in der Umgebung zu erkennen. Und schließlich kann die Audiowahrnehmung auch einem Fahrzeug helfen, seine Umgebung zu verstehen, um z. B. vorbeifahrende Polizeiwagen/Krankenwagen im Einsatz zu erkennen und entsprechend zu handeln.

Ihr Kontakt zu mir

Shabnam Ghaffarzadegan, Dr.
Senior Research Scientist in künstlicher Intelligenz, Audioanalyse

Teile diese Seite auf