Hardware taalas-hc1

Taalas HC1: Il chip AI che "incide" i modelli nel silicio

Pubblicato il: 21 Febbraio 2025 Autore: Redazione Tempo di lettura: 7 minuti

Mentre il settore tecnologico è alle prese con una crescente inflazione dei componenti hardware, una startup canadese di nome Taalas propone una soluzione radicale: invece di inseguire GPU sempre più potenti e costose, perché non "cablare" direttamente il modello AI nel chip? La sua prima creatura, l'HC1, promette prestazioni da 10 a 50 volte superiori alle migliori GPU di Nvidia, con costi di produzione venti volte inferiori [citation:2][citation:10].

Confronto architetturale: HC1 elimina il collo di bottiglia della memoria

L'architettura: niente più colli di bottiglia

Il segreto di HC1 risiede nell'approccio "hard-coded". Mentre le GPU tradizionali alternano continuamente il calcolo alla lettura/scrittura in memoria HBM (con conseguente consumo energetico e latenza), Taalas ha sviluppato un chip in cui i pesi del modello sono letteralmente incisi nello strato di metallizzazione del silicio (mask ROM), integrati con la logica di calcolo sulla stessa matrice.

Il risultato è un chip da 815 mm² (paragonabile a un Nvidia H100) realizzato da TSMC con processo a 6 nm, che consuma circa 250W e può essere raffreddato ad aria. In un server con 10 schede HC1 si raggiungono soli 2.5 kW di assorbimento totale, una frazione di quanto necessario a un equivalente sistema a GPU.

Prestazioni da record

I benchmark dichiarati da Taalas sono impressionanti: su Llama 3.1 8B, HC1 raggiunge 17.000 token/s per utente. Per dare un termine di paragone, le soluzioni Cerebras arrivano a circa 1.900 token/s, mentre le GPU Nvidia Blackwell si fermano a circa 350 token/s. L'incremento è di un fattore 9 rispetto al competitor più veloce e di quasi 50 volte rispetto alle GPU tradizionali.

Per modelli molto grandi, come DeepSeek R1 da 671B di parametri, Taalas prevede un sistema a 30 chip in parallelo, in grado di erogare 12.000 token/s/user a un costo di inferenza di appena 7.6 centesimi di dollaro per milione di token.

Il compromesso: flessibilità zero

La contropartita di questa efficienza è la totale mancanza di flessibilità. HC1 è progettato specificamente per Llama 3.1 8B. Se si desidera eseguire un modello diverso, occorre riprogettare e fabbricare un nuovo chip. Taalas sostiene di poter passare da un modello al chip fisico in circa due mesi, ma ciò richiede che il cliente si impegni sull'uso di quel modello per almeno un anno.

Il futuro: HC2 e il modello di business

Taalas ha già raccolto oltre 219 milioni di dollari e sta sviluppando la seconda generazione, HC2, che supporterà nativamente la precisione FP4 (standard) per migliorare la qualità dei risultati e sarà ottimizzata per modelli fino a 20B di parametri [citation:6].

Il modello di business è ancora in fase di definizione: vendita diretta di chip, servizio API proprietario, o partnership con i creatori di modelli . In ogni caso, HC1 rappresenta una svolta concettuale: per applicazioni che richiedono la massima efficienza e possono permettersi di "cristallizzare" un modello, la strada della specializzazione estrema potrebbe essere la chiave per uscire dalla spirale dei costi dell'AI.

"Non è per tutti, ma per chi ha bisogno di quella velocità e di quei costi, è l'unica opzione sensata." — Ljubisa Bajic, CEO Taalas

Nel frattempo, il resto del settore combatte con aumenti dei prezzi di memorie e componenti. HC1 arriva in un momento in cui l'efficienza non è più un optional ma una necessità.

Prova ThingsAI 7B