Tilde Research ha presentato Aurora optimizer, un ottimizzatore per matrici rettangolari che nei test su un modello da 1,1 miliardi di parametri ha raggiunto una loss finale di 2,26 e un nuovo record a 3.175 step nel benchmark modded-nanoGPT.
Per chi usa o valuta sistemi AI, il punto non è un altro nome da aggiungere al lessico degli addestramenti. Il punto è che Aurora attacca un difetto concreto: una parte dei neuroni dei livelli MLP può smettere di ricevere aggiornamenti utili molto presto, lasciando capacità computazionale pagata ma poco sfruttata.
Aurora optimizer: il problema nascosto in Muon
La notizia nasce dal lavoro pubblicato da Tilde Research, firmato da Alec Dewulf, Dhruv Pai, Li Yang, Ashley Zhang e Ben Keigwin. I ricercatori partono da Muon, un optimizer diventato rilevante perché usa l’ortogonalizzazione degli aggiornamenti: invece di applicare direttamente il gradiente, trasforma la matrice di update in una forma più stabile, calcolata con iterazioni Newton-Schulz.
Muon prova a distribuire meglio il segnale di apprendimento nei layer nascosti. Ma Tilde sostiene che nelle matrici alte e strette, tipiche delle proiezioni up e gate negli MLP dei transformer, questa eleganza matematica lascia aperto un buco.
Il buco si chiama neuron death, o morte dei neuroni. Non significa che il modello si rompa. Significa che alcune righe delle matrici ricevono update sempre più piccoli, poi restano bloccate in quella condizione.
“By step 500, more than one in four neurons are effectively dead.”
Nel test citato dai ricercatori, condotto su transformer da 340 milioni di parametri non legati agli embedding, Muon mostra già entro lo step 500 più di un neurone su quattro in questa condizione. U-NorMuon, una variante con normalizzazione delle righe, evita il collasso, ma introduce un altro problema: peggiora la precisione dell’ortogonalizzazione. Aurora nasce per tenere insieme le due esigenze.
Come funziona la correzione tecnica
La leva tecnica è il leverage score, cioè una misura di quanta parte dell’energia di update riceve una riga della matrice. Nelle matrici quadrate o larghe, i vincoli geometrici tendono a distribuire questi valori in modo più uniforme. Nelle matrici alte, invece, una parte delle righe può ricevere pochissimo segnale, mentre altre accumulano sempre più peso.
Aurora modifica l’obiettivo di Muon aggiungendo un vincolo: non basta che l’update sia ortogonale, deve anche distribuire in modo uniforme la norma delle righe. In pratica, alterna una normalizzazione delle righe con il calcolo del fattore polare, così da avvicinarsi all’intersezione tra precisione geometrica e uso più uniforme dei neuroni.
Il repository GitHub conferma il posizionamento operativo: Aurora è pensato come sostituto diretto per matrici non quadrate, mentre sulle matrici quadrate si riduce al normale update di Muon. Tilde stima inoltre un overhead del 6% rispetto a Muon tradizionale, un dato importante perché in training su larga scala anche piccoli aumenti di costo pesano.
La domanda che le note tecniche non formulano è più scomoda: quanti confronti tra modelli attribuiscono alla dimensione o ai dati un vantaggio che dipende invece da neuroni lasciati inattivi dal metodo di training?
I risultati da leggere senza hype
I numeri sono interessanti, ma vanno letti per quello che sono: risultati di ricerca, non una garanzia industriale. Nel training da 1,1 miliardi di parametri su circa 100 miliardi di token, Aurora arriva a una loss stabilizzata di 2,26 dopo 24.000 step, contro 2,31 per Muon e 2,33 per NorMuon. Nei benchmark downstream, Tilde riporta 67,6% su HellaSwag, con un vantaggio di 2,5 punti rispetto a entrambi i baseline, e un miglioramento di 10 punti su MMLU rispetto a Muon.
Sul fronte speedrun, la pull request accettata su modded-nanoGPT mostra Aurora combinato con Contra-Muon e update/weight flooring a 3.175 step per raggiungere la loss target 3,28. La stessa PR specifica che il risultato si basa su 20 run non selezionate a posteriori, con media 3,27885 allo step dichiarato. È un dettaglio piccolo solo in apparenza: in un benchmark competitivo, evitare il cherry-picking pesa quanto il numero finale.
Il limite principale è altrettanto chiaro. Aurora sembra più utile dove esistono matrici alte con grande rapporto tra righe e colonne, soprattutto nei dense transformer con MLP molto espansi. Negli assetti Mixture of Experts, dove la capacità è distribuita su molti esperti più piccoli, Tilde stessa prevede un effetto meno marcato.
Cosa cambia per chi lavora con l’AI
La notizia conta perché sposta l’attenzione da una domanda semplice, “quanto è grande il modello?”, a una domanda più utile: quanto bene viene usata la capacità che il modello ha già? Se un optimizer può ridurre neuroni inattivi, allora parte dell’efficienza non arriva da più parametri o più dati, ma da un training che spreca meno segnale.
Per il panorama AI, Aurora rafforza una tendenza precisa: il prossimo salto non passerà solo da architetture più grandi, ma da co-design tra architettura e optimizer. È una linea meno visibile delle demo multimodali, ma concreta per chi paga training, fine-tuning o inferenza.
Per aziende, laboratori e startup italiane, l’implicazione pratica è questa: quando si valuta un modello open o un fornitore di training, non basta chiedere quanti parametri ha o su quanti token è stato addestrato. Bisogna iniziare a chiedere anche quale optimizer usa, su quali matrici interviene e se i benchmark dichiarati misurano davvero capacità appresa o solo capacità rimasta inattiva.
