Groq meluncurkan kartu akselerator AI pertama yang mampu 1 PetaOPS

8 2 minutes read

Mengapa itu penting: Groq adalah startup ke seratus yang mencoba membuat kartu akselerator AI, yang kedua untuk pasar, dan yang pertama memiliki produk mencapai operasi 1 kuadriliun per ambang kedua. Itu empat kali lipat kinerja kartu Nvidia yang paling kuat.

Prosesor Streaming Groq Tensor (TSP) menuntut 300W per inti, untungnya, ia hanya punya satu. Bahkan lebih beruntung, Groq telah mengubah itu dari kerugian menjadi kekuatan terbesar TSP.

Anda mungkin harus membuang semua yang Anda ketahui tentang GPU atau AI yang diproses keluar jendela, karena TSP polos aneh. Ini adalah sepotong silikon raksasa dengan hampir tidak ada apa pun kecuali unit pemrosesan dan cache Vektor dan Matriks, jadi tidak ada pengontrol atau backend apa pun. Kompiler memiliki kontrol langsung.

TSP dibagi menjadi 20 superlanes. Superlanes dibangun dari, dalam urutan kiri ke kanan: a Matrix Unit (320 MACs), Switch Unit, Unit Memori (5,5 MB), Unit Vektor (16 ALU), Unit Memori (5,5 MB), Switch Unit, Unit Matriks (320 MAC). Anda akan melihat bahwa komponen-komponen dicerminkan di sekitar Unit Vektor, ini membagi superlane menjadi dua belahan yang dapat bertindak hampir secara independen.

Aliran instruksi (hanya ada satu) dimasukkan ke setiap komponen superlane 0, dengan 6 instruksi untuk Matrix Units, 14 untuk Switch Unit, 44 untuk Unit Memori, dan 16 untuk Unit Vektor. Setiap siklus jam, unit melakukan operasi mereka dan memindahkan potongan data ke tempat selanjutnya di superlane. Setiap komponen dapat mengirim dan menerima 512B dari tetangga sebelahnya.

Setelah operasi superlane selesai, ia akan meneruskan semuanya ke superlane berikutnya dan menerima apa pun yang dimiliki superlane di atas (atau pengontrol instruksi). Instruksi selalu diturunkan secara vertikal di antara superlanes, sementara data hanya mentransfer secara horizontal di dalam superlane.

	Groq TSP	Nvidia Tesla V100	Nvidia Tesla T4
Core	1	5120	2560
Frekuensi maksimum	1250 MHz	1530 MHz	1590 MHz
FP16 TFLOPS	205 TFLOPS	125 TFLOPS	65 TFLOPS
INT8 TOPS	1000 TOPS	250 TOPS	130 TOPS
Cache Chip (L1)	220 MB	10 MB	2,6 MB
Memori Papan	T / A	32 GB HBM2	16 GB GDDR6
Dewan Daya (TDP)	300W	300W	70W
Proses	14nm	12nm	12nm
Area Mati	725 mm²	815 mm²	545 mm²

Semua itu membuat prosesor yang sangat bagus dalam pelatihan dan menyimpulkan jaringan saraf, dan tidak mampu melakukan hal lain. Untuk menempatkan beberapa tolok ukur untuk itu, di ResNet-50 dapat melakukan 20.400 Inferensi per Detik (I / S) pada ukuran batch apa pun, dengan latensi inferensi 0,05 ms.

Tesla V100 Nvidia dapat melakukan 7.907 I / S pada ukuran batch 128, atau 1.156 I / S pada ukuran batch satu (ukuran batch umumnya tidak serendah ini, tetapi ini menunjukkan keserbagunaan TSP). Latensi pada batch 128 adalah 16 ms dan 0,87 ms pada batch satu. Jelas, TSP mengungguli kartu Nvidia yang paling setara dalam beban kerja ini.

Salah satu kekuatan TSP adalah memiliki begitu banyak cache L1, tetapi ia juga tidak memiliki hal lain. Jika jaringan saraf berkembang melebihi volume itu atau jika berhadapan dengan input yang sangat besar, itu akan sangat menderita. Kartu Nvidia memiliki memori gigabyte yang dapat menangani skenario itu.

Ini meringkas TSP dengan sangat baik. Dalam beban kerja tertentu, ini lebih dari dua kali lebih kuat dari Tesla V100, tetapi jika beban kerja Anda bervariasi, atau jika Anda ingin melakukan sesuatu dengan lebih dari setengah presisi, Anda tidak bisa. TSP pasti memiliki masa depan di bidang-bidang seperti mobil self-driving, di mana volume input dapat diprediksi, dan jaringan saraf dapat dijamin sesuai. Dalam hal ini latensi spektakulernya, 320x lebih baik daripada Nvidia, berarti mobil dapat merespons lebih cepat.

TSP saat ini tersedia untuk memilih pelanggan sebagai akselerator dalam Nimbix Cloud.

Name	Domain	Purpose	Expiry	Type
wpl_user_preference	apsachieveonline.org	WP GDPR Cookie Consent Preferences	1 year	HTTP
YSC	youtube.com	YouTube session cookie.	Session	HTTP
AWSALB	api.intentiq.com	Amazon Web Services Load Balancer cookie.	7 days	HTTP

Name	Domain	Purpose	Expiry	Type
VISITOR_INFO1_LIVE	youtube.com	YouTube cookie.	Session	HTTP
GPS	youtube.com	Google advertising domain	Session	HTTP

Name	Domain	Purpose	Expiry	Type
uid	tynt.com	Generic AddThis tracking cookie.	1 year	HTTP
bkdc	bluekai.com	BlueKai tracking cookie.	Session	HTTP
bku	bluekai.com	BlueKai tracking cookie.	Session	HTTP
IDE	doubleclick.net	Google advertising cookie used for user tracking and ad targeting purposes.	1 day	HTTP
_cc_dc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_id	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_cc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_aud	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
vuid	vimeo.com	Vimeo tracking cookie	2 years	HTTP

Name	Domain	Purpose	Expiry	Type
CountUid	histats.com	---	1 year	---
HstCfa4342789	apsachieveonline.org	---	1 year	---
HstCmu4342789	apsachieveonline.org	---	1 year	---
HstCnv4342789	apsachieveonline.org	---	1 year	---
HstCns4342789	apsachieveonline.org	---	1 year	---
m	dtscout.com	---	Session	---
df	dtscout.com	---	3 months	---
l	dtscout.com	---	3 months	---
__stid	sharethis.com	---	1 year	---
__dtsu	apsachieveonline.org	---	3 months	---
33x_ps	33across.com	---	1 year	---
__cfduid	apsachieveonline.org	Generic CloudFlare functional cookie.	1 year	HTTP
HstCla4342789	apsachieveonline.org	---	1 year	---
HstPn4342789	apsachieveonline.org	---	1 year	---
HstPt4342789	apsachieveonline.org	---	1 year	---
b	dtscout.com	---	Session	---
st	dtscout.com	---	Session	---
pxcelPage_c010_C	t.sharethis.com	---	14 days	---
pids	tynt.com	---	3 months	---
pxcelBcnLcy	t.sharethis.com	---	51 years	---
ab	agkn.com	---	1 year	---
IQver	intentiq.com	---	2 years	---
intentIQ	intentiq.com	---	2 years	---
intentIQCDate	intentiq.com	---	2 years	---
AWSALBCORS	api.intentiq.com	---	7 days	---
bkpa	bluekai.com	---	6 months	---

Mengapa itu penting: Groq adalah startup ke seratus yang mencoba membuat kartu akselerator AI, yang kedua untuk pasar, dan yang pertama memiliki produk mencapai operasi 1 kuadriliun per ambang kedua. Itu empat kali lipat kinerja kartu Nvidia yang paling kuat.

Pos terkait

Game Android terbaik

Inilah yang Galaxy S20 Ultra terlihat seperti di bagian dalam

Remote TV OnePlus digoda oleh Pete Lau, ungkap Google Assistant tombol, port USB-C

Motorola mengumumkan Smart TV pertamanya