Xiaomi hat einen Durchbruch in der künstlichen Intelligenz erzielt, und sein Big Model-Team steht an der Spitze der Audio-Reasoning-Technologie. Mit einer bemerkenswerten Leistung, die das wachsende Können des Unternehmens in der KI-Forschung unter Beweis stellt, hat Xiaomis neuestes Modell Branchenriesen wie OpenAI und Google in einem wichtigen Benchmark zum Audioverständnis übertroffen.
Das Team gab über den offiziellen Xiaomi Technology Account bekannt, dass es die weltbekannte MMAU-Bewertungsliste (Massive Multi-Task Audio Understanding and Reasoning) angeführt hat. Ihr Modell erreichte eine Rekordgenauigkeit von 64,5 % und übertraf damit deutlich OpenAIs GPT-4o (57,3 %) und Googles Gemini 2.0 Flash (55,6 %).
Revolutionärer Reinforcement Learning-Ansatz
Besonders bemerkenswert an dieser Leistung ist die Geschwindigkeit, mit der sie erzielt wurde. Nach dem Vorbild von DeepSeek-R1 haben die Forscher/innen von Xiaomi die Reinforcement-Learning-Algorithmen auf multimodale Audioverstehensaufgaben ausgedehnt und dies innerhalb einer Woche realisiert.
Die Wissenschaftler/innen wendeten die Methode der Group Relative Policy Optimization (GRPO) an, die es KI-Modellen ermöglicht, durch einen „Trial-and-Error-Reward“-Mechanismus selbstständig zu lernen. Dieser Mechanismus ermöglicht die Schaffung von Argumentationsfähigkeiten, die dem menschlichen Nachdenken und der mehrstufigen Überprüfung ähneln.
Dr. Zhang Wei, leitender Forscher des Projekts, fügt hinzu: „Reinforcement Learning ist besonders gut darin, eine große Lücke zwischen der Erzeugung und der Überprüfung von Ergebnissen zu schließen. Audio-Reasoning ist genau so eine Aufgabe, bei der aktives Denken zu effizienteren Ergebnissen führt als das Auswendiglernen von Mustern.“
Mehr als das reine Erkennen von Geräuschen
KI-Anwendungen erfordern heute mehr als nur die Erkennung von Geräuschen. Xiaomis Durchbruch ermöglicht es der KI,:
- Mögliche Fehler in einem Fahrzeug durch die Analyse von Cockpit-Aufnahmen zu bestimmen
- die Stimmung eines Komponisten zu erkennen, indem sie Musikstücke anhört
- Kollisionsrisiken an überfüllten Orten wie U-Bahn-Stationen vorhersehen
Die MMAU-Testreihe verwendet 10.000 Audioclips von Sprache über Umgebungsgeräusche bis hin zu Musik mit von Menschen kommentierten Frage-Antwort-Paaren, um das Modell auf 27 Fähigkeiten zu testen.
Traditionelle KI-Ansätze unterbrechen
Die Experimente von Xiaomi brachten einige überraschende Ergebnisse hervor, die die herkömmliche KI-Entwicklungsweisheit in Frage stellen:
- Reinforcement Learning übertraf das überwachte Lernen bei einem Datensatz von nur 38.000 Objekten deutlich
- Ihr Modell mit 7 B-Parametern zeigte eine überlegene Denkfähigkeit, obwohl es viel kleiner war als konkurrierende Modelle mit 100 B+ Parametern.
- Wenn das Modell gezwungen wurde, explizite Schlussfolgerungen zu ziehen, verringerte sich die Leistung sogar um 3,4%.
Die Genauigkeit von 64,5 % ist zwar hoch, liegt aber immer noch unter den 82,23 % der menschlichen Experten, was zeigt, dass es noch viel Raum für Verbesserungen gibt.
Open-Source-Engagement
Getreu der Xiaomi-Philosophie „Innovation für alle“ hat das Unternehmen sowohl den Trainingscode als auch die Modellparameter als Open Source veröffentlicht. Mit diesem selbstlosen Akt ermöglicht das Unternehmen Entwicklern und Forschern auf der ganzen Welt, seine Innovation weiterzuentwickeln.
„Indem wir unsere Bemühungen für die globale KI-Gemeinschaft öffnen, wollen wir den Prozess hin zu echtem intelligenten Audioverstehen beschleunigen“, sagte Xiaomi-Gründer und CEO Lei Jun. „Dies ist ein weiterer Schritt in unserer Mission, innovative Technologie für alle zugänglich zu machen.“
Für alle, die mit dieser Technologie experimentieren möchten:
- Trainingscode: GitHub Repository
- Modellparameter: Umarmendes Gesicht
- Technischer Bericht: arXiv
- Interaktive Demo: Probiere es selbst aus
Dieser Durchbruch kommt zu einem Zeitpunkt, an dem Xiaomi KI-Funktionen in seiner gesamten Produktpalette einführt, von Smartphones bis hin zu IoT-Smart-Home-Produkten, und macht das Unternehmen zu einem ernsthaften Konkurrenten in der globalen KI-Forschungsarena.
Quelle: IT Home