GPU ускоритель NVIDIA Tesla H100 NVL 94GB HBM3 PCIe Gen5
ОПИСАНИЕ
Высокопроизводительный GPU ускоритель на архитектуре NVIDIA Hopper с 94 ГБ памяти HBM3 и пропускной способностью 3.9 ТБ/с. Предназначен для инференса больших языковых моделей (LLM) до 175 млрд параметров, тренировки ИИ-моделей и научных вычислений. Поддерживает 14,592 CUDA ядер, 528 четвёртого поколения Tensor Core и Transformer Engine для FP8 операций. Пассивное охлаждение, PCIe Gen5 x16 интерфейс, dual-slot форм-фактор, поддержка NVLink мостика для связи между GPU со скоростью 600 ГБ/с.
ОСНОВНЫЕ ХАРАКТЕРИСТИКИ
– Парт-номер: H100-PCIE
– Тип: GPU ускоритель, Hopper архитектура, full-height full-length (10.5″), dual-slot passive
– Compute: 14,592 CUDA cores, 528 Tensor Cores (4-го поколения)
– Память: 94 ГБ HBM3, 5120-bit интерфейс, 3.9 ТБ/с пропускная способность, 50 МБ L2 кэш
– Производительность: 60 TF (FP64), 3,341 TF (FP8), 3.9 ТБ/с пиковая память
– Интерфейс: PCIe Gen5 x16, поддержка NVLink мостика (600 ГБ/с GPU-to-GPU)
– Трансформер Engine: встроенная поддержка FP8, FP16, BF16, TF32, FP32, FP64
– Multi-Instance GPU (MIG): до 7 независимых GPU инстансов по 12 ГБ каждая
– Питание: 200-310-400W TGP (настраиваемое), single 8-pin EPS разъём
– Охлаждение: пассивное (для серверных шасси с активным охлаждением)
– Совместимость: Intel Xeon Scalable 3rd/4th gen, AMD EPYC 9004 series, mainstream 1U/2U серверы с PCIe Gen5 слотами
ПРЕИМУЩЕСТВА
– Максимальная производительность LLM-инференса: 94 ГБ памяти и 3.9 ТБ/с полосы пропускания позволяют разместить и обслуживать модели GPT-175B с минимальной латентностью, 12x превосходство над A100 на Llama 2 70B
– Высокая масштабируемость: NVLink мостик и PCIe Gen5 интерфейс обеспечивают сверхбыструю связь между GPU для распределённых рабочих нагрузок и многосерверных кластеров
– Энергоэффективность: 350-400W TDP при пассивном охлаждении позволяет укомплектовать до 8 GPU в 4U шасси без избыточного охлаждения, оптимизирует OPEX ЦОД
– Гибкость рабочих нагрузок: четвёртое поколение Tensor Cores и Transformer Engine поддерживают множество precision форматов (FP8, FP16, TF32, FP32, FP64) и Multi-Instance GPU для одновременного обслуживания разных моделей и приложений
Оптимальное решение для LLM-инференса, высокопроизводительных вычислений и ИИ-приложений в условиях универсальных серверных платформ с PCIe Gen5.