Wie Modellkompression für Zustandsraummodelle Zeit spart

Insights KI Neuigkeiten Wie Modellkompression für Zustandsraummodelle Zeit spart

KI Neuigkeiten

14 Apr. 2026

Read 16 min

Wie Modellkompression für Zustandsraummodelle Zeit spart

Modellkompression für Zustandsraummodelle spart Trainingszeit und Energie, hält aber die Leistung.

Die neue Methode CompreSSM zeigt, wie Modellkompression für Zustandsraummodelle bereits während des Trainings greift. Sie sortiert unwichtige Zustände früh aus, spart Rechenzeit und Energie und hält die Leistung. So wachsen Modelle beim Lernen nicht weiter an, sondern werden schneller und schlanker. Das Trainieren großer KI-Modelle kostet viel Geld, Zeit und Energie. Bisher gab es zwei Wege: Erst ein großes Modell komplett trainieren und danach stutzen. Oder ein kleines Modell von Anfang an trainieren und Leistung verlieren. Ein Forschungsteam von MIT CSAIL, dem Max-Planck-Institut für Intelligente Systeme, ELLIS, ETH und Liquid AI schlägt nun einen dritten Weg vor: Komprimieren, während das Modell noch lernt. Die Methode heißt CompreSSM und richtet sich an Zustandsraummodelle (State-Space Models, SSMs). Diese Modelle kommen in Sprache, Audio und Robotik zum Einsatz. Der Ansatz nutzt Werkzeuge aus der Regelungstechnik, um schon früh zu erkennen, welche inneren Zustände wichtig sind. Unwichtige Teile werden entfernt. So bleibt die Qualität hoch, aber Training und Inferenz werden schneller. Genau hier setzt die Modellkompression für Zustandsraummodelle an: Sie verschiebt die Kompression in den Lernprozess und spart dadurch Rechenaufwand, ohne zunächst ein riesiges Modell vollständig zu trainieren. h2 Was bringt die Modellkompression für Zustandsraummodelle während des Trainings? h3 Zustandsraummodelle kurz erklärt Zustandsraummodelle verarbeiten Eingaben über innere Zustände, die sich über die Zeit entwickeln. Sie sind flexibel und effizient, weil sie lange Abhängigkeiten abbilden können. Darum eignen sie sich für Sprache, Tonfolgen und Steueraufgaben in der Robotik. Bekannte Architekturen aus dieser Familie sind moderne, spektral effiziente Varianten wie Mamba. Auch lineare Aufmerksamkeitsmechanismen lassen sich als Zustandsraumsysteme betrachten. Damit ist das Feld groß und praxisnah. h3 Der Kern von CompreSSM Die Forscherinnen und Forscher nutzten ein zentrales Werkzeug aus der Regelungstechnik: Hankel-Singularwerte. Dieser Wert zeigt, wie stark ein interner Zustand das Gesamtverhalten des Modells beeinflusst. Die wichtige Beobachtung: Schon nach ungefähr 10 Prozent der Trainingszeit stabilisieren sich die relativen Beiträge der Zustände. Man kann sie also zuverlässig sortieren. Danach entfernt CompreSSM die schwachen Zustände. Der Rest des Trainings läuft dann mit einem kleineren, schnelleren Modell weiter. Das bedeutet: Ein kurzer „Warm-up“ mit voller Breite, dann zielgerichtetes Schrumpfen, danach Lernen im Kompaktmodus. Diese kontrollierte Modellkompression für Zustandsraummodelle senkt die Kosten genau dort, wo sie am meisten wehtun – mitten im aufwendigen Training. h3 Zentrale Vorteile in der Übersicht – Kompression wird Teil des Lernens: Es ist kein separater Schritt nach dem vollen Training nötig. – Frühzeitige Sicherheit: Die Rangfolge der Zustände ändert sich später kaum, daher ist das Entfernen stabil. – Spürbare Geschwindigkeit: Nach der Kompression trainiert das Modell so schnell wie ein deutlich kleineres Pendant. – Leistung bleibt erhalten: Die wichtigsten Zustände bleiben im System und tragen die Modellqualität. h2 Messbare Ergebnisse und Vergleiche h3 Ergebnisse auf Benchmarks Die Resultate sind klar. Auf Bildklassifikation hielt das komprimierte Modell fast die gleiche Genauigkeit wie das vollständige, trainierte aber bis zu 1,5-mal schneller. Ein stark komprimiertes Modell mit rund einem Viertel der ursprünglichen Zustandsdimension erreichte 85,7 Prozent Genauigkeit auf CIFAR-10. Ein von Anfang an so kleines Modell kam nur auf 81,8 Prozent. Auf der Architektur Mamba erzielte das Team etwa den vierfachen Trainingsspeed. Es schrumpfte ein 128-dimensionales Modell auf ungefähr 12 Dimensionen – bei weiter wettbewerbsfähiger Leistung. Makram Chahine, der Hauptautor, fasst es so: Der Warm-up-Abschnitt fängt die komplexe Dynamik des großen Modells ein. Nach dem Trimmen bleiben die nützlichsten Zustände übrig. Das kleinere System lernt dann schneller weiter, aber auf dem Leistungsniveau, das sonst nur größere Modelle erreichen. h3 Gegenüberstellung zu Pruning und Distillation – Klassisches Pruning: Man trainiert zuerst das volle Modell. Erst am Ende entfernt man Parameter. Das spart Rechenzeit im Einsatz, aber nicht beim Training. Die gesamte Trainingslast des großen Modells bleibt. – Knowledge Distillation: Man trainiert eine große „Lehrer“-Version bis zum Ende. Dann trainiert man eine kleinere „Schüler“-Version anhand der Lehrer-Ausgaben. Das kostet doppelt: zwei komplette Trainingsphasen. Außerdem braucht jeder Schritt beim Schüler die Vorwärtsläufe von Lehrer und Schüler gleichzeitig. CompreSSM umgeht beide Hürden. Die Kompression passiert mitten im Training und senkt ab dann die Kosten. In direkten Vergleichen zu Distillation auf CIFAR-10 zeigte sich: Bei starken Reduktionen der Zustandsdimension brach die Genauigkeit der distillierten Modelle sichtbar ein. Dagegen hielten die CompreSSM-Modelle ihre Leistung nahezu vollständig. Zudem war Distillation wegen der doppelten Vorwärtsläufe selbst dann langsamer als die große Baseline. h3 Vergleich zu spektraler Regularisierung Das Team verglich CompreSSM auch mit der Hankel-Nuklearnorm-Regularisierung, einer spektralen Methode, die kompakte Zustandsraummodelle fördern soll. Ergebnis: – CompreSSM war mehr als 40-mal schneller. – Die Genauigkeit war zugleich höher. – Die Regularisierung verlangsamte das Training um etwa das 16-Fache, weil sie bei jedem einzelnen Gradienten-Schritt teure Eigenwert-Berechnungen verlangt – und lieferte trotzdem schwächere Modelle. h2 Warum die Rangfolge früh stabil ist Die Forschenden belegen theoretisch, dass die Wichtigkeit einzelner Zustände während des Trainings glatt verläuft. Dazu nutzen sie einen Hinweis aus der linearen Algebra, bekannt als der Satz von Weyl. Er sorgt für Stabilitätseigenschaften bei Eigenwerten und damit auch bei Größen wie den Hankel-Singularwerten. Die praktische Folge: Wenn ein Zustand früh als kaum relevant erscheint, wird er später nicht plötzlich zentral. Diese Glattheit erlaubt frühe, verlässliche Entscheidungen über das Kürzen. Die Stabilität bestätigte das Team auch empirisch. Die beobachtete Rangfolge der Zustände blieb erhalten. Für Anwenderinnen und Anwender bedeutet das Sicherheit: Wer nach einem kurzen Warm-up aufräumt, verpasst mit hoher Wahrscheinlichkeit keinen späten „Aufstieg“ eines vermeintlich kleinen Zustands. h2 Kontrolle statt Risiko: Checkpoints als Sicherheitsnetz Jede Kompression bringt ein minimales Risiko mit sich. Darum sieht CompreSSM ein pragmatisches Sicherheitsnetz vor. Man kann vor jedem Kompressionsschritt einen Checkpoint speichern. Falls die Leistung wider Erwarten fällt, kehrt man dorthin zurück. Das ist einfacher, als vorab eine schwer greifbare Energieschwelle zu definieren. So behalten Teams die Kontrolle über das Verhältnis von Tempo und Genauigkeit. h2 Grenzen und wo die Methode glänzt h3 Wo der Effekt stark ist Die Methode wirkt am besten, wenn die Modellleistung eng an die Größe der Zustandsdimension gekoppelt ist. Das gilt besonders für MIMO-Modelle (Multi-Input, Multi-Output). Dort steigert eine größere Zustandsdimension die Ausdruckskraft deutlich, und das gezielte Reduzieren bringt entsprechend klare Einsparungen. h3 Wo die Zugewinne kleiner sind Bei Architekturen, die pro Kanal separat arbeiten und als SISO (Single-Input, Single-Output) laufen, ist die Sensitivität gegenüber der Zustandsgröße oft geringer. Dann fallen die Beschleunigungen durch das Schrumpfen moderater aus. Die Methode funktioniert weiter, aber der Hebel ist kleiner. h3 Voraussetzungen aus der Theorie Die Theorie ist am saubersten für lineare zeitinvariante Systeme. Das Team hat jedoch Erweiterungen für zeitvariierende, eingabedependente Architekturen entwickelt. Dazu zählt Mamba, einer der heute am weitesten verbreiteten Ansätze bei SSMs. Weil die Familie der Zustandsraummodelle bis zu linearen Aufmerksamkeitsmechanismen reicht, ist der mögliche Einsatzbereich breit. Perspektivisch könnte der Ansatz dadurch näher an die Transformer-Welt rücken, die aktuell viele der größten KI-Systeme prägt. h2 Ein einfacher Fahrplan für Teams So lässt sich der Ansatz praktisch denken, ohne Zusatzaufwand jenseits der Studienergebnisse zu behaupten: – Kurz anwärmen: Etwa 10 Prozent der geplanten Trainingsschritte mit voller Zustandsdimension trainieren. – Messen und sortieren: Hankel-Singularwerte berechnen, Zustände nach Beitrag zum Modellverhalten ordnen. – Trimmen: Die schwächeren Zustände entfernen und das Modell auf die verbleibenden Dimensionen projizieren. – Weiterlernen: Mit der kompakten Struktur die restlichen 90 Prozent des Trainings fortsetzen – schneller und mit geringerer Last. – Absichern: Vor jedem Trimm-Schritt einen Checkpoint anlegen, um bei Bedarf zurückzuspringen. Dieser Ablauf spiegelt die Kernidee von CompreSSM wider: früh erkennen, gezielt reduzieren, dann den Großteil des Lernens effizient absolvieren. Genau das macht die Modellkompression für Zustandsraummodelle im Alltag umsetzbar. h2 Warum dieser Schritt für die KI-Community zählt Daniela Rus, Professorin am MIT und Direktorin von CSAIL, betont den Paradigmenwechsel: Kompression ist nicht länger ein nachträglicher Gedanke. Das Modell findet seine effiziente Struktur während des Lernens selbst. Das rückt Effizienz von Beginn an in den Fokus und passt zu einer Welt, in der Rechenzeit, Energie und Kosten zählen. Antonio Orvieto vom ELLIS Institute Tübingen und dem Max-Planck-Institut für Intelligente Systeme, der nicht an der Arbeit beteiligt war, nennt den Ansatz „eine spannende, theoretisch fundierte Perspektive“ auf Kompression für moderne SSMs. Die Studie zeige, dass man die Zustandsdimension während des Trainings wirksam reduzieren kann und dass der Blick aus der Regelungstechnik diesen Prozess sicher leitet. Er sieht neue Forschungswege und das Potenzial, dass der Algorithmus Standard wird, wenn man große SSM-Modelle vortrainiert. h2 Konkrete Zahlen, klare Signale – Bis zu 1,5-mal schnelleres Training bei Bildklassifikation, bei nahezu gleicher Genauigkeit. – 85,7 Prozent auf CIFAR-10 bei starker Reduktion der Zustandsdimension – gegenüber 81,8 Prozent, wenn man ein gleich kleines Modell von Grund auf trainiert. – Rund vierfacher Trainingsspeed auf Mamba. Reduktion von 128 auf etwa 12 Dimensionen bei weiterhin konkurrenzfähiger Leistung. – Gegenüber einer spektralen Regularisierung über 40-mal schneller und zugleich genauer. – Deutliche Vorteile gegenüber Knowledge Distillation, vor allem bei stark komprimierten Modellen, und in der Praxis schneller als die große Baseline, weil Distillation doppelte Vorwärtsläufe braucht. Diese Punkte zeigen: Wer die meiste Rechenzeit sparen will, sollte dort ansetzen, wo die meiste Zeit anfällt – mitten im Training. Genau dort wirkt CompreSSM. h2 Ausblick Das Team hat CompreSSM bereits auf zeitvariierende Systeme wie Mamba erweitert. Als nächstes Ziel nennen die Autorinnen und Autoren matrixwertige dynamische Systeme in linearen Aufmerksamkeitsmechanismen. Das wäre ein weiterer Schritt hin zu den Transformern, die viele heutige Großmodelle tragen. Doch die Forschenden betonen auch: Dieser erste Schritt war wichtig, weil hier die Theorie klar ist und der Ansatz prinzipientreu bleiben kann. Von hier aus lässt sich das Konzept in breitere Architekturen übertragen. Zum Kontext gehört auch die Bühne: Die Arbeit wurde als Konferenzbeitrag bei der International Conference on Learning Representations (ICLR) 2026 angenommen und wird noch in diesem Monat präsentiert. Unterstützung kam vom Max Planck ETH Center for Learning Systems, der Hector Foundation, Boeing und dem U.S. Office of Naval Research. Die Zusammenarbeit von MIT CSAIL, Max-Planck-Institut, ELLIS, ETH und Liquid AI zeigt, wie Grundlagenwissen aus der Regelungstechnik und moderne KI-Forschung zusammenfinden. Am Ende steht ein Ansatz, der einfach klingt, aber stark wirkt: kurz aufwärmen, messen, ordnen, kürzen und schneller zu Ende lernen. Das macht große Modelle alltagstauglicher – und das ohne doppeltes Training oder späte, teure Kompressionsschritte. Für Teams, die heute mit knappen Budgets und langen Trainingszeiten kämpfen, ist das eine direkte Entlastung. Mit CompreSSM verschiebt sich der Fokus von „erst groß trainieren, dann kleiner machen“ zu „beim Lernen schlanker werden“. Genau diese Idee verleiht der Modellkompression für Zustandsraummodelle neue Relevanz – in Forschung, in der Praxis und in jedem Projekt, in dem Geschwindigkeit, Kosten und Nachhaltigkeit zählen. (Source: https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409) For more news: Click Here

FAQ

Q: Was ist CompreSSM und wie hilft es bei der Modellkompression für Zustandsraummodelle? A: CompreSSM ist eine Methode zur Modellkompression für Zustandsraummodelle, die während des Trainings unwichtige interne Zustände früh entfernt. Sie nutzt Werkzeuge aus der Regelungstechnik wie Hankel‑Singularwerte, sodass Modelle schneller und schlanker weiterlernen. Q: Wann im Trainingsprozess können unwichtige Zustände identifiziert werden? A: Die Forschenden fanden, dass sich die relativen Beiträge der Zustände bereits nach etwa 10 Prozent der Trainingsschritte stabilisieren, wodurch eine frühe Modellkompression für Zustandsraummodelle möglich wird. Mit Hankel‑Singularwerten lassen sich dann zuverlässig weniger relevante Dimensionen identifizieren und entfernen. Q: Welche Vorteile bietet CompreSSM gegenüber klassischem Pruning und Knowledge Distillation? A: Im Gegensatz zu Pruning vermeidet CompreSSM das vollständige Vortrainieren eines großen Modells, und im Gegensatz zu Distillation braucht es keinen separaten Lehrer‑Schüler‑Zyklus, was Rechenaufwand reduziert. Die modellbasierte Entscheidung mitten im Training erlaubt daher effizientere und oft genauere Resultate bei geringerem Trainingsaufwand. Q: Auf welchen Arten von Zustandsraummodellen wirkt die Modellkompression für Zustandsraummodelle besonders gut? A: CompreSSM wirkt besonders stark bei MIMO‑Modellen, weil dort die Zustandsdimension eng mit der Ausdruckskraft und Leistung verknüpft ist. Bei pro‑Kanal SISO‑Architekturen sind die Zugewinne moderater, und die Theorie ist am saubersten für lineare zeitinvariante Systeme. Q: Welche konkreten Benchmarkergebnisse zeigt die Studie? A: Die Modellkompression für Zustandsraummodelle führte auf Bildklassifikationsbenchmarks zu nahezu gleicher Genauigkeit bei bis zu 1,5‑mal schnellerem Training. Konkret erreichte ein stark komprimiertes Modell 85,7 % auf CIFAR‑10 gegenüber 81,8 % für ein gleich kleines Modell von Grund auf, und auf Mamba erzielte die Methode etwa 4× Trainingsspeedups bei Reduktion von 128 auf rund 12 Dimensionen. Q: Wie stellen die Forschenden sicher, dass frühe Kompression später nicht schadet? A: Theoretisch stützen die Autorinnen und Autoren die Frühentscheidung auf eine Anwendung von Weyls Satz, die eine glatte Änderung der Zustandswichtigkeiten zeigt, und empirische Messungen belegen stabile Rangfolgen. Praktisch gibt es außerdem ein Sicherheitsnetz durch Checkpoints, zu denen man bei einem Leistungsabfall zurückkehren kann. Q: Wie sieht ein einfacher Workflow für Teams aus, die CompreSSM nutzen wollen? A: Ein pragmatischer Ablauf zur Modellkompression für Zustandsraummodelle ist: etwa 10 Prozent warm‑up mit voller Zustandsdimension, Hankel‑Singularwerte messen und Zustände ordnen, schwächere Zustände trimmen und die restlichen 90 Prozent mit der kompakten Struktur weitertrainieren. Vor jedem Trimm‑Schritt sollten Teams einen Checkpoint anlegen, um bei Bedarf zurückzuspringen. Q: Welche Grenzen und künftigen Richtungen nennt die Studie für die Modellkompression für Zustandsraummodelle? A: Die Studie betont Grenzen, etwa dass der Effekt am stärksten ist, wenn Leistung und Zustandsdimension stark korrelieren (vor allem bei MIMO) und bei SISO‑Architekturen geringer ausfällt. Als Ausblick nennt das Team Erweiterungen für zeitvariierende Modelle wie Mamba und Pläne, die Methode auf matrixwertige Systeme in linearen Aufmerksamkeitsmechanismen zu übertragen, um näher an Transformer‑Architekturen zu kommen.