UNIVERSE TODAY > Energia e Innovazione > “Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

Pubblicato:

28 Aprile 2025

Aggiornato:

9 Maggio 2025

“Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

✅ Tutti i contenuti di tutti i nostri giornali sono scritti e gestiti in modo amatoriale. In nessun caso possono essere considerati riferimento.

Nota redazionale:
Tutte le notizie pubblicate da Italfaber provengono da fonti giornalistiche locali del Paese a cui la notizia si riferisce. Le rielaborazioni sono effettuate al solo scopo di rendere i contenuti più chiari, neutrali e accessibili a un pubblico internazionale, nel rispetto della forma originaria. L’intento è favorire una comprensione diretta e non filtrata degli eventi, così come vengono percepiti e raccontati nei contesti di origine. La categoria dell'articolo indica il pese di provenienza della notizia.

“Intel Utilizza l’Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center”

WorldWhite
Indice

    Intel AI Scopre i Difetti Nascosti nei Chip dei Data Center

    Nei data center di grandi dimensioni, i chip ad alte prestazioni possono avere dei difetti nascosti che possono passare inosservati durante i controlli di qualità convenzionali. Intel ha presentato una tecnica basata sull’apprendimento per rinforzo per individuare più rapidamente questi errori silenziosi, garantendo la qualità dei suoi processori Xeon.

    Quando si verifica un errore in un data center, gli operatori possono decidere se sostituire un nodo o utilizzare il sistema difettoso per calcoli meno critici. Tuttavia, sarebbe molto meglio individuare gli errori in anticipo, prima che il chip venga incorporato in un sistema informatico, quando è possibile apportare correzioni di progettazione o di produzione per evitare che gli errori si ripetano in futuro.

    "Intel Utilizza l'Apprendimento Automatico per Scoprire i Difetti Nascosti nei Chip dei Data Center"

    “In un laptop, non noteresti errori. Nei data center, con nodi molto densi, c’è una grande probabilità che si verifichi un errore.” —Manu Shamsa, Intel

    Individuare questi difetti non è semplice. Gli ingegneri hanno faticato a capirli e hanno scherzato sul fatto che potessero essere dovuti a azioni spettrali a distanza, come diceva Einstein. Tuttavia, Shamsa ha passato anni a caratterizzarli e ha identificato le cause di questi errori, principalmente dovuti a variazioni infinitesimali nella produzione.

    Anche se miliardi di transistor su ciascun chip sono funzionali, non sono completamente identici tra loro. Piccole differenze nella risposta di un transistor ai cambiamenti di temperatura, tensione o frequenza possono causare un errore.

    Queste sottigliezze sono molto più probabili nei grandi data center a causa del ritmo di calcolo e della vasta quantità di silicio coinvolta. Alcuni errori possono manifestarsi solo dopo che un chip è stato installato in un data center e ha operato per mesi. Variazioni nelle proprietà dei transistor possono causarne il deterioramento nel tempo.

    Apprendimento Automatico per individuare i difetti

    La nuova tecnica si basa su un insieme esistente di metodi per individuare errori silenziosi, chiamati test Eigen. Questi test fanno eseguire al chip problemi matematici complessi ripetutamente nel tempo, nella speranza di rendere evidenti gli errori silenziosi. Coinvolgono operazioni su diverse dimensioni di matrici riempite di dati casuali.

    Ci sono molti test Eigen. Eseguirli tutti richiederebbe troppo tempo, quindi i produttori di chip utilizzano un approccio casuale per generare un insieme gestibile di test. Questo risparmia tempo ma lascia errori non rilevati. Shamsa voleva trovare un modo per guidare la selezione in modo che un numero relativamente piccolo di test potesse individuare più errori.

    Il team di Intel ha utilizzato l’apprendimento per rinforzo per sviluppare test per la parte del chip Xeon CPU che esegue la moltiplicazione di matrici utilizzando le istruzioni fuse-multiply-add (FMA). Dopo circa 500 cicli di test, l’algoritmo ha imparato quali test Eigen ottimizzavano il tasso di rilevamento degli errori per la regione FMA.

    Shamsa afferma che questa tecnica è cinque volte più probabile nel rilevare un difetto rispetto ai test Eigen casuali. I test Eigen sono open source, parte dell’openDCDiag per i data center. Altri utenti dovrebbero essere in grado di utilizzare l’apprendimento per rinforzo per modificare questi test per i propri sistemi.

    In definitiva, i difetti silenziosi e sottili sono una parte inevitabile del processo di produzione, ma Intel sta cercando di utilizzare questa ricerca per individuare più rapidamente i precursori che portano agli errori di dati silenziosi. Sta esaminando se ci sono segnali di avvertimento che potrebbero fornire un avviso precoce di futuri errori e se è possibile modificare le ricette o i design dei chip per gestirli.

    Lascia un commento





    Nota redazionale:

    ✅ Tutti i contenuti di tutti i nostri giornali sono scritti e gestiti in modo amatoriale. In nessun caso possono essere considerati riferimento.
    Tutte le notizie pubblicate da Universe Today provengono da fonti giornalistiche locali del Paese a cui la notizia si riferisce. Le rielaborazioni sono effettuate al solo scopo di rendere i contenuti più chiari, neutrali e accessibili a un pubblico internazionale, nel rispetto della forma originaria. L’intento è favorire una comprensione diretta e non filtrata degli eventi, così come vengono percepiti e raccontati nei contesti di origine. La categoria dell'articolo indica il pese di provenienza della notizia. Universe Today è un ponte culturale, non una testata. Ogni articolo è una rielaborazione di una fonte giornalistica locale: la categoria indica il Paese della fonte, non il luogo dell’evento. 

    Metodo di rielaborazione basato su: principi di semplicità del buon senso comune, chiarezza, imparzialità, sobrietà e responsabilità giornalistica, come indicato nelle linee guida editoriali di Italfaber.

    Le informazioni contenute in questo articolo sono state verificate e validate attraverso fonti affidabili e aggiornate. Tuttavia, è possibile che alcune informazioni non siano state confermate o che ci siano discrepanze tra fonti diverse. In tal caso, si prega di segnalare eventuali errori o inesattezze.

    Se sei curioso di sapere secondo quali principi è stata rielaborata questa notizia, leggi la nostra politica editoriale.