Reinforcement Learning, Control, and Optimization

Was uns antreibt

Der Großteil der maschinellen Lernverfahren – einschließlich Deep Learning und probabilistischer Modelle – ist auf Vorhersagen ausgerichtet. Doch in vielen Anwendungen genügt das nicht: Unser Ziel ist nicht bloß zu wissen, wie sich ein System verhält, sondern es aktiv zu steuern – vom Auto über die Produktionslinie bis zum Roboter.

Solche entscheidungsbasierten Aufgaben sind das Einsatzfeld von Reinforcement Learning (RL), Optimierungsmethoden und intelligenter Regelungstechnik .

Unser Ansatz

Wir entwickeln neue Methoden im Reinforcement Learning und in der Optimierung , die auf die Dateneffizienz von Lernversuchen ausgelegt sind. Ziel ist es, optimale Steuerungsstrategien mit möglichst wenigen realen Versuchen zu erlernen.

Für nicht-sequentielle Aufgaben nutzen wir fortschrittliche Verfahren der Bayesschen Optimierung .
Für sequentielle Aufgaben – etwa Steuerungsprobleme – entwickeln wir Batch-Reinforcement-Learning-Methoden, die bestehende Daten wiederverwenden und so den Lernprozess deutlich beschleunigen.

In der Robotik verknüpfen wir visuelle Wahrnehmung und Manipulation , indem wir Deep Learning und klassische Regelung miteinander kombinieren – für adaptive, leistungsfähige Steuerungssysteme.

Anwendungsfelder

Unsere Methoden kommen überall dort zum Einsatz, wo Entscheidungen datenbasiert getroffen oder Systeme über geschlossene Regelkreise gesteuert werden müssen – z. B. in der Robotik, in der Fertigung oder in der Fahrzeugtechnik.

Reinforcement Learning und Optimierung – Lernen für optimale Steuerung

Industriearbeiter bedient Tablet-Interface mit holographischer Anzeige in automatisierter Fertigungsumgebung, repräsentiert KI-gesteuerte Kontrollsysteme und Reinforcement Learning-Anwendungen in Smart Factory-Betrieb.

Verstehen ist oft nur der erste Schritt – doch erst exakte Regelung macht Bosch-Systeme wirklich leistungsfähig. Reinforcement Learning (RL) nutzt Machine Learning, um Steuerstrategien direkt aus Daten abzuleiten. So entstehen Lösungen, die sich

automatisch an veränderte Bedingungen anpassen
in Systemen eigenständig anwenden lassen
und mit geringer Rechenleistung eine hohe Regelgüte erreichen

Diese Technologie kommt unter anderem zum Einsatz bei

der täglichen Optimierung von Fertigungsparametern
dem Feintuning komplexer Systeme wie dem Antiblockiersystem (ABS)

Einführung

Wenn Kalibrierung automatisiert geschieht, gewinnen Systeme an Präzision und Tempo. Denn oft ist das Tuning von Controllern aufwendig, kostenintensiv und wiederkehrend. Reinforcement Learning bietet die Möglichkeit, diesen Prozess vollständig zu automatisieren – wie zahlreiche Forschungsergebnisse an hochkomplexen Problemen bereits beweisen.

In der Praxis gelten jedoch zusätzliche Anforderungen, etwa an Sicherheit und Dateneffizienz, die den Einsatz von RL bislang erschwert haben.. Bosch verfügt über umfangreiches Vorwissen zu dynamischen Systemen, z. B. in Form von näherungsweisen Modellen . Wir entwickeln Methoden, um dieses Wissen gezielt mit RL zu kombinieren – für sichere, dateneffiziente und zuverlässige Steuerung mit minimalem manuellem Aufwand.

Unsere Forschung

Effizienz maximieren

Durch vorhandenes Domänenwissen und präzise Modellfehler-Korrekturen steuern wir dynamische Systeme mit wenigen Interaktionen – oft mit besserer Performance als manuell abgestimmte Controller.

Sicherheit zuerst

Hohe Sicherheitsanforderungen sind für das Erlernen von Steuerungsfunktionen in realen Anwendungen oft herausfordernd. Unser Ansatz: aus Systeminteraktionen lernen und dabei Methoden einsetzen, die die Sicherheit wahren und trotzdem wertvolle Erkenntnisse liefern.

Verstehen ist entscheidend

Moderne RL-Methoden gelten häufig als anfällig und schwer durchschaubar. Wir entwickeln Ansätze, um Unsicherheiten systematisch abzubilden und zu verstehen, warum warum verschiedene Methoden so funktionieren, wie sie es tun.

Von der Theorie ins reale System

Wir bringen unsere Forschung in vielfältigen Bosch-Anwendungen zum Einsatz. Am meisten motiviert uns der Moment, wenn Forschung in realen Systemen lebendig wird – und das Leben vieler Menschen verbessert.

Referenzen

Curi, S., Berkenkamp, F., & Krause,A. (2020) Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning. NeurIPS. [PDF]

Dörr, A., Volpp, M., Toussaint, M., Trimpe, S., & Daniel, C. (2019).Trajectory-Based Off-Policy Deep Reinforcement Learning. ICML. [PDF]

Fröhlich, L.P., Lefarov, M., Zeilinger, M.N., & Berkenkamp, F. (2022). On-Policy Model Errors in Reinforcement Learning. ICLR. [PDF]

Vinogradska, J., Bischoff, B., Nguyen-Tuong, D., Schmidt, H., Romer, A., & Peters, J. (2017). Stability of Controllers for Gaussian Process Dynamics. Journal of Machine Learning Research Vol. 18. [PDF]

Wahrnehmung und Interaktion in der Robotik

Forscherin in rotem Shirt arbeitet mit weißem Roboterarm und holographischen Interface-Anzeigen, demonstriert Integration von Wahrnehmungs- und Manipulationstechnologien in KI-gesteuerter Robotikforschung.

KI-Technologien verändern die Robotik derzeit grundlegend. Sie ermöglichen eine neue Generation von Robotern, die sehen, ihre Umgebung verstehen, geschickt agieren und sich einfach von Menschen anlernen lassen. Solche Systeme erweitern die Möglichkeiten der Automatisierung in Logistik und Fertigung erheblich.

Wir entwickeln KI-Lösungen für unterschiedliche Bereiche der Roboterautomatisierung – von der 3D-Wahrnehmung zur Erkennung und Vorhersage der Position verschiedenster Industrie- und Alltagsobjekte bis hin zu Verfahren zum Greifen und Sortieren dieser Objekte.

Einführung

Gemeinsam mit Rexroth arbeiten wir an Smart Item Picking – einem Robotersystem, das arbeitsintensive Kommissionieraufgaben in der Intralogistik unterstützt. BCAI steuert modernste KI-Technologien bei, damit die Roboter intelligent agieren und sich flexibel an wechselnde Bedingungen anpassen.

Unsere Beiträge reichen von der Erkennung unbekannter Objekte bis zur Vorhersage optimaler Greifpositionen. Zudem entwickeln wir ein kontinuierlich lernendes System, das mit jeder Erfahrung besser wird und selbstständig Strategien für effizientes Greifen und Manipulieren erlernt.

Unsere Forschung

Erkennung und Segmentierung unbekannter Objekte

Unsere Forschung zielt darauf, mit 3D-Bildsensoren ein tiefes Situationsverständnis zu gewinnen – durch Verfahren, die ohne Vorwissen sicher mit über 10 000 Objekten umgehen.

Greif- und Manipulationslösungen

Unsere Methoden befähigen Roboter, eigenständig zu erkennen, wie Objekte optimal gegriffen oder manipuliert werden können. Mit jeder Erfahrung werden die Systeme präziser – und erhöhen so die Ausfallsicherheit des Smart-Item-Picking-Systems im täglichen Einsatz.

Selbstüberwachtes Training für maximale Effizienz

Unsere Forschung ermöglicht Robotern, eigenständig zu lernen. Statt aufwändiger Datenannotation braucht es nur minimales Eingreifen – der Schlüssel zu effizientem maschinellem Lernen in der Robotik.

Referenzen

Adrian, D., Kupcsik, A., Spies, M., & Neumann, H. (2022). Efficient and Robust Training of Dense Object Nets for Multi-Object Robot Manipulation. ICRA.

Beik-Mohammadi, H., Hauberg, S., Arvanitidis, G., Neumann, G., & Rozo, L. (2021). Learning Riemannian Manifolds for Geodesic Motion Skills. RSS. [PDF]

Feldman, Z., Ziesche, H., Ngo, V.A., & Di Castro, D. (2022). A Hybrid Approach for Learning to Shift and Grasp with Elaborate Motion Primitives. ICRA. [PDF]

Gao. N.(2022). What Matters for Meta-Learning Vision Regression Tasks. CVPR. [PDF]

Guo M., & Bürger. M. (2022). Interactive Human-in-the-loop Coordination of Manipulation Skills Learned from Demonstration. ICRA. [PDF]

Guo, M., & Bürger, M. (2021). Geometric Task Networks: Learning efficient and explainable skill coordination for object manipulation. IEEE TRO. [PDF]

Hoppe, S., Giftthaler, M., Krug, R., & Toussain, M. (2020). Sample-Efficient Learning for Industrial Assembly using Qgraph-bounded DDPG. IROS. [PDF]

Jaquier, N., Rozo, L., Caldwell, D.G., & Calinon, S. (2020). Geometry-aware manipulability learning, tracking, and transfer. IJRR. [PDF]

Jaquier, N., & Rozo, L. (2020). High-Dimensional Bayesian Optimization via Nested Riemannian Manifolds. NeurIPS. [PDF]

Kupcsik, A., Spies, M., Klein, A., Todescato, M., Waniek, N., Schillinger, P., & Bürger, M. (2021). Supervised Training of Dense Object Nets using Optimal Descriptors for Industrial Robotic Applications. AAAI. [PDF]

Le, A.T., Guo, M., van Duijkeren, N., Rozo, L., Krug, R., Kupcsik, A., & Bürger, M. (2021). Learning forceful manipulation skills from multi-modal human demonstrations. IROS. [PDF]

Otto, F., Becker, P., Anh Vien, N., Ziesche, H. C., & Neumann, G. (2021). Differentiable Trust Region Layers for Deep Reinforcement Learning. ICLR. [PDF]

Rozo, L., & Dave, V. (2021). Orientation Probabilistic Movement Primitives on Riemannian Manifolds. CoRL. [PDF]

Rozo, L., Guo, M., Kupcsik, A., Todescato, M., Schillinger, P., Giftthaler, M., Ochs, M., Spies, M., Waniek, N., Kesper, P., & Büerger, M. (2020). Learning and sequencing of object-centric manipulation skills for industrial tasks. IROS. [PDF]

Shaj, V., & van Duijkeren, N. (2020). Action-Conditional Recurrent Kalman Networks For Forward and Inverse Dynamics Learning. CorL. [PDF]

Reinforcement Learning, Steuerung und Optimierung – Von der Vorhersage zur Entscheidung

Was uns antreibt

Unser Ansatz

Anwendungsfelder

Reinforcement Learning und Optimierung – Lernen für optimale Steuerung

Einführung

Unsere Forschung

Referenzen

Wahrnehmung und Interaktion in der Robotik

Einführung

Unsere Forschung

Referenzen