Amper (mikro mimari) - Ampere (microarchitecture)
Yayın tarihi | 14 Mayıs 2020 |
---|---|
Imalat süreci | |
Tarih | |
selefi | |
Varis |
Ampere , Nvidia tarafından Volta ve Turing mimarilerinin halefi olarak geliştirilen ve 14 Mayıs 2020'de resmi olarak duyurulan bir grafik işlem birimi (GPU) mikro mimarisinin kod adıdır . Adını Fransız matematikçi ve fizikçi André-Marie Ampère'den almıştır . Nvidia, 1 Eylül 2020'de bir GeForce Özel Etkinliğinde yeni nesil GeForce 30 serisi tüketici GPU'larını duyurdu. Nvidia, 16 Kasım 2020'de SC20'de A100 80GB GPU'yu duyurdu. Mobil RTX grafik kartları ve RTX 3060, 12 Ocak 2021'de tanıtıldı Nvidia, GPU Teknoloji Konferansı 2021'de Ampere'nin 2022 sürümü için geçici olarak "Ampere Next" ve 2024 sürümü için "Ampere Next Next" kod adlı haleflerini de duyurdu.
Detaylar
Ampere mimarisinin mimari iyileştirmeleri şunları içerir:
- A100 için CUDA Hesaplama Yeteneği 8.0 ve GeForce 30 serisi için 8.6
- TSMC 'in 7 mil FinFET A100 için işlem
- Özel versiyonu Samsung 'ın 8Nm GeForce 30 serisi için işlem (8N)
- FP16, bfloat16, TensorFloat-32 (TF32) ve FP64 desteği ve seyrek hızlandırma ile üçüncü nesil Tensör Çekirdekleri
- İkinci nesil ışın izleme çekirdekleri; GeForce 30 serisi için eşzamanlı ışın izleme, gölgeleme ve hesaplama
- A100 40GB ve A100 80GB üzerinde Yüksek Bant Genişlikli Bellek 2 (HBM2)
- GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti için GDDR6X bellek
- GA10x GPU'larda SM başına çift FP32 çekirdeği
- Çift başına 50 Gbit/sn çıkışlı NVLink 3.0
- SR-IOV destekli PCI Express 4.0 (SR-IOV yalnızca A100 için ayrılmıştır)
- A100'de yedi adede kadar örneği destekleyen Çoklu Örnek GPU (MIG) sanallaştırma ve GPU bölümleme özelliği
- PureVideo özellik seti GeForce 30 serisi için AV1 donanım kod çözme ile K donanım video kod çözme seti ve A100 için özellik seti J
- A100 için 5 NVDEC
- YUV420, YUV422, YUV444, YUV400, RGBA ile yeni donanım tabanlı 5 çekirdekli JPEG kod çözme ( NVJPG ) ekler . Nvidia NVJPEG ( JPEG kodlama/kod çözme için GPU hızlandırmalı kitaplık ) ile karıştırılmamalıdır.
cips
- GA100
- GA102
- GA104
- GA106
- GA107
İşlem Yeteneği Karşılaştırması: GP100 - GV100 - GA100
GPU Özellikleri | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
GPU Kod Adı | GP100 | GV100 | GA100 |
GPU Mimarisi | NVIDIA Pascal | NVIDIA Volta | NVIDIA Amper |
Hesaplama Yeteneği | 6.0 | 7.0 | 8.0 |
İplikler / Çözgü | 32 | 32 | 32 |
Maksimum Çarpıtma / SM | 64 | 64 | 64 |
Maksimum Konu / SM | 2048 | 2048 | 2048 |
Maksimum İplik Blokları / SM | 32 | 32 | 32 |
Maks 32-bit Kayıtlar / SM | 65536 | 65536 | 65536 |
Maksimum Kayıt / Blok | 65536 | 65536 | 65536 |
Maksimum Kayıt / Konu | 255 | 255 | 255 |
Maksimum İplik Blok Boyutu | 1024 | 1024 | 1024 |
FP32 Çekirdekleri / SM | 64 | 64 | 64 |
SM Kayıtlarının FP32 Çekirdeklerine Oranı | 1024 | 1024 | 1024 |
Paylaşılan Bellek Boyutu / SM | 64 KB | 96 KB'a kadar yapılandırılabilir | 164 KB'a kadar yapılandırılabilir |
Hassas Destek Matrisinin Karşılaştırılması
Desteklenen CUDA Core Precisions | Desteklenen Tensör Çekirdeği Hassasiyeti | |||||||||||||||
FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | Numara | Evet | Evet | Numara | Numara | Evet | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara |
NVIDIA P100 | Evet | Evet | Evet | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara | Numara |
NVIDIA Volta | Evet | Evet | Evet | Numara | Numara | Evet | Numara | Numara | Evet | Numara | Numara | Numara | Numara | Numara | Numara | Numara |
NVIDIA Turing'i | Evet | Evet | Evet | Numara | Numara | Evet | Numara | Numara | Evet | Numara | Numara | Evet | Evet | Evet | Numara | Numara |
NVIDIA A100 | Evet | Evet | Evet | Numara | Numara | Evet | Numara | Evet | Evet | Numara | Evet | Evet | Evet | Evet | Evet | Evet |
Efsane:
- FPnn: nn bitli kayan nokta
- INTn: n bitlik tam sayı
- INT1: ikili
- TF32: TensorFloat32
- BF16: bfloat16
Kod Çözme Performansının Karşılaştırılması
Eşzamanlı Akışlar | H.264 Kod Çözme (1080p30) | H.265(HEVC) Kod Çözme (1080p30) | VP9 Kod Çözme (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
A100 hızlandırıcı ve DGX A100
14 Mayıs 2020'de duyurulan ve piyasaya sürülen Amper tabanlı A100 hızlandırıcıydı. A100, 19,5 teraflop FP32 performansı, 6912 CUDA çekirdeği, 40 GB grafik belleği ve 1,6 TB/s grafik belleği bant genişliğine sahiptir. A100 hızlandırıcı, başlangıçta 8 A100 dahil olmak üzere yalnızca 3. nesil DGX sunucusunda mevcuttu. DGX A100'de ayrıca 15 TB PCIe gen 4 NVMe depolama, iki adet 64 çekirdekli AMD Rome 7742 CPU, 1 TB RAM ve Mellanox destekli HDR InfiniBand ara bağlantısı bulunur. DGX A100'ün ilk fiyatı 199.000 dolardı.
DGX'te kullanılan hızlandırıcıların karşılaştırılması:
Gaz pedalı |
---|
A100 80GB |
A100 |
V100 |
P100 |
Mimari | FP32 CUDA Çekirdekleri | FP64 Çekirdekleri(Tensor hariç) | INT32 Çekirdekleri | Saati Yükselt | Hafıza saati | Bellek Veri Yolu Genişliği | Bellek Bant Genişliği | VRAM | Tek hassasiyet | Çift Hassasiyet (FP64) | INT8(Tensorsuz) | INT8 Tensörü | INT32 | FP16 | FP16 Tensörü | bfloat16 Tensör | TensorFloat-32(TF32) Tensörü | FP64 Tensörü | ara bağlantı | GPU | L1 Önbellek Boyutu | L2 Önbellek Boyutu | GPU Kalıp Boyutu | Transistör Sayısı | TDP | Üretim süreci |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amper | 6912 | 3456 | 6912 | 1410 MHz | 3.2 Gbit/s HBM2 | 5120 bit | 2039 GB/sn | 80 GB | 19.5 TFLOP | 9.7 TFLOP'lar | Yok | 624 TOP | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600GB/sn | GA100 | 20736KB(192KBx108) | 40960 KB | 826mm2 | 54.2B | 400W | TSMC 7 nm N7 |
Amper | 6912 | 3456 | 6912 | 1410 MHz | 2.4Gbit/s HBM2 | 5120 bit | 1555 GB/sn | 40 GB | 19.5 TFLOP | 9.7 TFLOP'lar | Yok | 624 TOP | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600GB/sn | GA100 | 20736KB(192KBx108) | 40960 KB | 826mm2 | 54.2B | 400W | TSMC 7 nm N7 |
Volta | 5120 | 2560 | 5120 | 1530 MHz | 1,75 Gbit/s HBM2 | 4096 bit | 900 GB/sn | 16GB/32GB | 15.7 TFLOP'lar | 7.8 TFLOP'lar | 62 TOP | Yok | 15.7 TOP'lar | 31.4 TFLOP | 125 TFLOP | Yok | Yok | Yok | 300 GB/sn | GV100 | 10240KB(128KBx80) | 6144 KB | 815mm2 | 21.1B | 300W/350W | TSMC 12 nm FFN |
paskal | 3584 | 1792 | Yok | 1480 MHz | 1.4 Gbit/s HBM2 | 4096 bit | 720GB/sn | 16 GB | 10.6 TFLOP'lar | 5.3 TFLOP'lar | Yok | Yok | Yok | 21.2 TFLOP'lar | Yok | Yok | Yok | Yok | 160 GB/sn | GP100 | 1344KB(24KBx56) | 4096 KB | 610mm2 | 15.3B | 300W | TSMC 16 nm FinFET+ |
Amper kullanan ürünler
-
GeForce 30 serisi
- GeForce RTX 3050 (GA107)
- GeForce RTX 3050 Ti (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
-
Nvidia İş İstasyonu GPU'ları (eski adıyla Quadro )
- RTX A2000 (mobil) (GA10?)
- RTX A3000 (mobil) (GA104)
- RTX A4000 (mobil) (GA104)
- RTX A5000 (mobil) (GA104)
- RTX A2000 (GA106)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
-
Nvidia Veri Merkezi GPU'ları (eski adıyla Tesla )
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80GB (GA100)