Groq meluncurkan kartu akselerator AI pertama yang mampu 1 PetaOPS

Mengapa itu penting: Groq adalah startup ke seratus yang mencoba membuat kartu akselerator AI, yang kedua untuk pasar, dan yang pertama memiliki produk mencapai operasi 1 kuadriliun per ambang kedua. Itu empat kali lipat kinerja kartu Nvidia yang paling kuat.

Prosesor Streaming Groq Tensor (TSP) menuntut 300W per inti, untungnya, ia hanya punya satu. Bahkan lebih beruntung, Groq telah mengubah itu dari kerugian menjadi kekuatan terbesar TSP.

Anda mungkin harus membuang semua yang Anda ketahui tentang GPU atau AI yang diproses keluar jendela, karena TSP polos aneh. Ini adalah sepotong silikon raksasa dengan hampir tidak ada apa pun kecuali unit pemrosesan dan cache Vektor dan Matriks, jadi tidak ada pengontrol atau backend apa pun. Kompiler memiliki kontrol langsung.

TSP dibagi menjadi 20 superlanes. Superlanes dibangun dari, dalam urutan kiri ke kanan: a Matrix Unit (320 MACs), Switch Unit, Unit Memori (5,5 MB), Unit Vektor (16 ALU), Unit Memori (5,5 MB), Switch Unit, Unit Matriks (320 MAC). Anda akan melihat bahwa komponen-komponen dicerminkan di sekitar Unit Vektor, ini membagi superlane menjadi dua belahan yang dapat bertindak hampir secara independen.

Aliran instruksi (hanya ada satu) dimasukkan ke setiap komponen superlane 0, dengan 6 instruksi untuk Matrix Units, 14 untuk Switch Unit, 44 untuk Unit Memori, dan 16 untuk Unit Vektor. Setiap siklus jam, unit melakukan operasi mereka dan memindahkan potongan data ke tempat selanjutnya di superlane. Setiap komponen dapat mengirim dan menerima 512B dari tetangga sebelahnya.

Setelah operasi superlane selesai, ia akan meneruskan semuanya ke superlane berikutnya dan menerima apa pun yang dimiliki superlane di atas (atau pengontrol instruksi). Instruksi selalu diturunkan secara vertikal di antara superlanes, sementara data hanya mentransfer secara horizontal di dalam superlane.

Groq TSPNvidia Tesla V100Nvidia Tesla T4
Core151202560
Frekuensi maksimum1250 MHz1530 MHz1590 MHz
FP16 TFLOPS205 TFLOPS125 TFLOPS65 TFLOPS
INT8 TOPS1000 TOPS250 TOPS130 TOPS
Cache Chip (L1)220 MB10 MB2,6 MB
Memori PapanT / A32 GB HBM216 GB GDDR6
Dewan Daya (TDP)300W300W70W
Proses14nm12nm12nm
Area Mati725 mm²815 mm²545 mm²

Semua itu membuat prosesor yang sangat bagus dalam pelatihan dan menyimpulkan jaringan saraf, dan tidak mampu melakukan hal lain. Untuk menempatkan beberapa tolok ukur untuk itu, di ResNet-50 dapat melakukan 20.400 Inferensi per Detik (I / S) pada ukuran batch apa pun, dengan latensi inferensi 0,05 ms.

Tesla V100 Nvidia dapat melakukan 7.907 I / S pada ukuran batch 128, atau 1.156 I / S pada ukuran batch satu (ukuran batch umumnya tidak serendah ini, tetapi ini menunjukkan keserbagunaan TSP). Latensi pada batch 128 adalah 16 ms dan 0,87 ms pada batch satu. Jelas, TSP mengungguli kartu Nvidia yang paling setara dalam beban kerja ini.

Salah satu kekuatan TSP adalah memiliki begitu banyak cache L1, tetapi ia juga tidak memiliki hal lain. Jika jaringan saraf berkembang melebihi volume itu atau jika berhadapan dengan input yang sangat besar, itu akan sangat menderita. Kartu Nvidia memiliki memori gigabyte yang dapat menangani skenario itu.

Ini meringkas TSP dengan sangat baik. Dalam beban kerja tertentu, ini lebih dari dua kali lebih kuat dari Tesla V100, tetapi jika beban kerja Anda bervariasi, atau jika Anda ingin melakukan sesuatu dengan lebih dari setengah presisi, Anda tidak bisa. TSP pasti memiliki masa depan di bidang-bidang seperti mobil self-driving, di mana volume input dapat diprediksi, dan jaringan saraf dapat dijamin sesuai. Dalam hal ini latensi spektakulernya, 320x lebih baik daripada Nvidia, berarti mobil dapat merespons lebih cepat.

TSP saat ini tersedia untuk memilih pelanggan sebagai akselerator dalam Nimbix Cloud.

Pos terkait

Back to top button