“Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

Universe Today > Energia e Innovazione > “Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

“Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

    Intel AI Scopre i Difetti Nascosti nei Chip dei Data Center

    Nei data center di grandi dimensioni, i chip ad alte prestazioni possono avere dei difetti nascosti che possono passare inosservati durante i controlli di qualità convenzionali. Intel ha presentato una tecnica basata sull’apprendimento per rinforzo per individuare più rapidamente questi errori silenziosi, garantendo la qualità dei suoi processori Xeon.

    Quando si verifica un errore in un data center, gli operatori possono decidere se sostituire un nodo o utilizzare il sistema difettoso per calcoli meno critici. Tuttavia, sarebbe molto meglio individuare gli errori in anticipo, prima che il chip venga incorporato in un sistema informatico, quando è possibile apportare correzioni di progettazione o di produzione per evitare che gli errori si ripetano in futuro.

    "Intel Utilizza l'Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center"

    “In un laptop, non noteresti errori. Nei data center, con nodi molto densi, c’è una grande probabilità che si verifichi un errore.” —Manu Shamsa, Intel

    Individuare questi difetti non è semplice. Gli ingegneri hanno faticato a capirli e hanno scherzato sul fatto che potessero essere dovuti a azioni spettrali a distanza, come diceva Einstein. Tuttavia, Shamsa ha passato anni a caratterizzarli e ha identificato le cause di questi errori, principalmente dovuti a variazioni infinitesimali nella produzione.

    Anche se miliardi di transistor su ciascun chip sono funzionali, non sono completamente identici tra loro. Piccole differenze nella risposta di un transistor ai cambiamenti di temperatura, tensione o frequenza possono causare un errore.

    Queste sottigliezze sono molto più probabili nei grandi data center a causa del ritmo di calcolo e della vasta quantità di silicio coinvolta. Alcuni errori possono manifestarsi solo dopo che un chip è stato installato in un data center e ha operato per mesi. Variazioni nelle proprietà dei transistor possono causarne il deterioramento nel tempo.

    Apprendimento Automatico per individuare i difetti

    La nuova tecnica si basa su un insieme esistente di metodi per individuare errori silenziosi, chiamati test Eigen. Questi test fanno eseguire al chip problemi matematici complessi ripetutamente nel tempo, nella speranza di rendere evidenti gli errori silenziosi. Coinvolgono operazioni su diverse dimensioni di matrici riempite di dati casuali.

    Ci sono molti test Eigen. Eseguirli tutti richiederebbe troppo tempo, quindi i produttori di chip utilizzano un approccio casuale per generare un insieme gestibile di test. Questo risparmia tempo ma lascia errori non rilevati. Shamsa voleva trovare un modo per guidare la selezione in modo che un numero relativamente piccolo di test potesse individuare più errori.

    Il team di Intel ha utilizzato l’apprendimento per rinforzo per sviluppare test per la parte del chip Xeon CPU che esegue la moltiplicazione di matrici utilizzando le istruzioni fuse-multiply-add (FMA). Dopo circa 500 cicli di test, l’algoritmo ha imparato quali test Eigen ottimizzavano il tasso di rilevamento degli errori per la regione FMA.

    Shamsa afferma che questa tecnica è cinque volte più probabile nel rilevare un difetto rispetto ai test Eigen casuali. I test Eigen sono open source, parte dell’openDCDiag per i data center. Altri utenti dovrebbero essere in grado di utilizzare l’apprendimento per rinforzo per modificare questi test per i propri sistemi.

    In definitiva, i difetti silenziosi e sottili sono una parte inevitabile del processo di produzione, ma Intel sta cercando di utilizzare questa ricerca per individuare più rapidamente i precursori che portano agli errori di dati silenziosi. Sta esaminando se ci sono segnali di avvertimento che potrebbero fornire un avviso precoce di futuri errori e se è possibile modificare le ricette o i design dei chip per gestirli.

    FAQ

    Universe Today

    Lascia un commento