Xiaomi korrigiert autonome Fahrentscheidungen mit dem neuen KI-Gehirn „Binary“

Xiaomi-Gründer Lei Jun hat offiziell einen wichtigen Meilenstein für das KI-Labor des Unternehmens bekannt gegeben: Mehrere Forschungsarbeiten des Xiaomi-Teams wurden bei der ICLR 2026 (International Conference on Learning Representations), einer der weltweit wichtigsten Konferenzen für künstliche Intelligenz, angenommen.

Die ausgewählten Arbeiten befassen sich mit kritischen Grenzbereichen der modernen KI, darunter multimodales Denken, Reinforcement Learning (RL), GUI-Agenten, Audiogenerierung und – vielleicht am wichtigsten – durchgängig autonomes Fahren.

Spotlight Forschung: DIPOLE (Dichotomous Diffusion Policy Optimization)

Unter den angenommenen Arbeiten sticht die Arbeit mit dem Titel „Dichotomous Diffusion Policy Optimization“ durch ihre direkte Anwendung auf autonome Fahrsysteme und groß angelegte Entscheidungsmodelle hervor.

Die Herausforderung: Stabilität vs. Komplexität Diffusionsbasierte Strategien sind aufgrund ihrer hohen Ausdruckskraft und Kontrollierbarkeit derzeit der Goldstandard für generative Aufgaben. Die Anwendung dieser Strategien auf Reinforcement Learning (RL) zur Entscheidungsfindung führt jedoch zu einem Engpass:

  • Direkte Optimierung führt oft zu Trainingsinstabilität.
  • Gaußsche Approximationen sind rechenintensiv und erfordern übermäßige Entrauschungsschritte, was sie für Echtzeitanwendungen wie autonomes Fahren unpraktisch macht.

Die Lösung: Der DIPOLE-Algorithmus

Das Xiaomi-Forschungsteam (unter der Leitung der Erstautoren Liang Ruiming, Zheng Yinan, et al.) schlägt DIPOLE (Dichotomous Diffusion Policy Improvement) vor.

  • Kernlogik: Der Algorithmus untersucht das KL-regulierte RL-Ziel neu. Anstelle einer chaotischen Optimierung führt er eine „gierige Politikregulierung“ ein.
  • Binäre Dekomposition: Er zerlegt die optimale Strategie in eine „binäre“ Struktur – eine, die die Belohnungen maximiert und eine, die sie minimiert.
  • Inferenzkontrolle: Während des tatsächlichen Einsatzes generiert das System Aktionen, indem es die Wahrscheinlichkeitswerte dieser beiden gegensätzlichen Strategien linear kombiniert. So kann das System flexibel einstellen, wie „gierig“ (aggressiv) oder konservativ die Entscheidungsfindung sein soll.

Validierung & Auswirkungen

Der DIPOLE-Algorithmus ist nicht nur theoretisch. Die Arbeit validiert seine Leistung in drei wichtigen Benchmarks:

  1. Allgemeines RL: Signifikante Verbesserungen bei Standard-Benchmarks wie ExORL und OGBench.
  2. Skalierbarkeit: Erfolgreiche Validierung an VLA-Modellen (Vision-Language-Action) mit einer Parameterskala von bis zu 1 Milliarde, was beweist, dass der Algorithmus auch bei großen Grundmodellen funktioniert.
  3. Autonomes Fahren: Der Algorithmus zeigte eine überragende Leistung in NAVSIM, einem realen Benchmark für autonomes Fahren, was direkte Verbesserungen für Xiaomis zukünftige Pilotsysteme signalisiert.

Quelle: Lei Jun Weibo

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Umfrage
Which name did you like better, MIUI or HyperOS?