Описание
OEM H100 PCIE — Адаптированная версия NVIDIA H100 PCIe GPU 80 GB высокопроизводительного ускорителя ИИ для России. Версия без региональной привязки и отсутствия удаленной блокировки.
Спецификация OEM H100 80GB (Рус. версия)
Общие сведения
-
Название продукта: графическая карта
-
Модель: H100 80GB PCIe Custom Edition
-
Номер продукта: XMKJ2330H100
-
Чип: GH100
-
Техпроцесс: 4 нм
Вычислительные характеристики
-
Базовая частота ядра: 1590 МГц
-
Boost-частота: до 1980 МГц
-
Количество потоковых процессоров (CUDA-ядер): 16 896
Память
-
Объём памяти: 80 ГБ
-
Тип памяти: HBM3
-
Частота памяти: 2619 МГц
-
Разрядность шины памяти: 5120 бит
-
Пропускная способность памяти: ~1676 ГБ/с
Интерфейсы
-
Интерфейс материнской платы: PCIe 5.0 ×16
-
Подключение питания: HPWR 12+4 pin
Охлаждение
-
Тип охлаждения: двухслотовый воздушный кулер
Энергопотребление
-
Теоретическое энергопотребление (TDP): 350 Вт
Физические характеристики
-
Размеры видеокарты: 268 × 112 × 38 мм
-
Вес: 1190 г
Поддерживаемые технологии
-
CUDA
-
OpenCL
-
Vulkan
-
PhysX
-
Ray Tracing
-
OpenGL
Тест GPU-Z
Основная информация
-
Name — NVIDIA H100 80GB HBM3
-
GPU — 2330
-
Revision — 10
BIOS
-
BIOS Version — 96.00.74.00.14
-
UEFI — включено
Производитель
-
Subvendor — NVIDIA
Идентификаторы устройства
-
Device ID — 10DE 2330 – 10DE 16C0
Блоки GPU
-
ROPs / TMUs — 8 / 528
-
ROP — блоки растеризации
-
TMU — блоки текстурирования
-
Интерфейс
-
Bus Interface — PCIe x16 5.0 @ x8 4.0
(карта поддерживает PCIe 5.0 x16, но сейчас работает в режиме x8 PCIe 4.0)
Шейдеры
-
Shaders — 16896 Unified
(унифицированные CUDA-ядра)
Производительность
-
Pixel Fillrate — 15.8 GPixel/s
-
Texture Fillrate — 1045.4 GTexel/s
Память
-
Memory Size — 81558 MB (~80 GB)
-
Bus Width — 5120 bit
-
Bandwidth — 1676.2 GB/s
Драйвер
-
Driver Version — 31.0.15.5212 (NVIDIA 552.12 DCH / Windows 10 64-bit)
-
Driver Date — 02 апреля 2024
-
Digital Signature — WHQL
Частоты
-
GPU Clock — 1590 MHz
-
Memory — 2619 MHz
-
Boost — 1980 MHz
Частоты по умолчанию
-
Default Clock — 1590 MHz
-
Memory Clock — 2619 MHz
-
Boost — 1980 MHz
Дополнительно
-
NVIDIA SLI — отключено
-
Resizable BAR — включено
Поддержка вычислений
-
☑ OpenCL
-
☑ CUDA
-
☑ DirectCompute
-
☐ DirectML
Поддерживаемые технологии
-
☑ Vulkan
-
☑ Ray Tracing
-
☑ PhysX
-
☑ OpenGL 1.1
Скачок в ускорении вычислений на порядок H100 (Рус. версия)
Графический процессор NVIDIA H100 Tensor Core обеспечивает исключительную производительность, масштабируемость и безопасность для любых рабочих нагрузок. H100 использует революционные инновации, основанные на архитектуре NVIDIA Hopper™, для создания ведущего в отрасли диалогового ИИ, ускоряющего работу больших языковых моделей (LLM) в 30 раз. H100 также включает в себя специализированный механизм Transformer для обработки языковых моделей с триллионами параметров.
Надежное ускорение рабочих нагрузок от корпоративного уровня до масштабного
В 4 раза выше уровень обучения ИИ на GPT-4
Прогнозируемые показатели могут измениться. GPT-3 175B, обучение в кластере A100: сеть HDR IB, кластер H100: сеть NDR IB | Обучение с использованием смеси экспертов (MoE) в варианте Transformer Switch-XXL с 395B параметрами на наборе данных из 1 терабайта токенов, кластер A100: сеть HDR IB, кластер H100: сеть NDR IB с системой коммутации NVLink, где указано.
Трансформационное обучение искусственному интеллекту c H100
H100 оснащён тензорными ядрами четвёртого поколения и механизмом Transformer с точностью FP8, что обеспечивает в 4 раза более быстрое обучение моделей GPT-3 (175B) по сравнению с предыдущим поколением. Сочетание NVLink четвёртого поколения, обеспечивающего скорость передачи данных между графическими процессорами 900 гигабайт в секунду (ГБ/с); сети NDR Quantum-2 InfiniBand, которая ускоряет обмен данными между графическими процессорами в разных узлах; PCIe Gen5 и программного обеспечения NVIDIA Magnum IO™ обеспечивает эффективную масштабируемость от небольших корпоративных систем до масштабных унифицированных кластеров графических процессоров.
Развёртывание графических процессоров H100 в центрах обработки данных обеспечивает выдающуюся производительность и позволяет всем исследователям использовать высокопроизводительные вычисления (HPC) следующего поколения и искусственный интеллект с триллионами параметров.
H100 Вывод в режиме глубокого обучения в реальном времени
ИИ решает широкий спектр бизнес-задач, используя не менее широкий спектр нейронных сетей. Отличный ускоритель ИИ-вычислений должен обеспечивать не только высочайшую производительность, но и универсальность для ускорения работы этих сетей.
H100 расширяет лидирующие позиции NVIDIA на рынке в области логического вывода за счёт нескольких усовершенствований, которые ускоряют логический вывод до 30 раз и обеспечивают минимальную задержку. Тензорные ядра четвёртого поколения ускоряют вычисления во всех форматах, включая FP64, TF32, FP32, FP16, INT8, а теперь и FP8, чтобы снизить потребление памяти и повысить производительность, сохраняя при этом точность для больших языковых моделей.
До 30 раз более высокая производительность ИИ при обработке данных в самых больших моделях
Вывод чат-бота Megatron (530 миллиардов параметров)
Прогнозируемая производительность может измениться. Чат-бот на основе модели параметров Megatron 530B для входной последовательности длиной 128 символов, выходной последовательности длиной 20 символов | Кластер A100: сеть HDR IB | Кластер H100: система коммутаторов NVLink, NDR IB
В 7 раз выше производительность для приложений HPC
Прогнозируемая производительность может измениться. Пропускная способность 3D БПФ (4K^3) | Кластер A100: сеть HDR IB | Кластер H100: система коммутации NVLink, NDR IB | Секвенирование генома (метод Смита-Уотермана) | 1 A100 | 1 H100
Масштабируемые высокопроизводительные вычисления c H100
Платформа NVIDIA для центров обработки данных стабильно обеспечивает прирост производительности, превышающий закон Мура. А новые революционные возможности искусственного интеллекта H100 ещё больше расширяют возможности высокопроизводительных вычислений и искусственного интеллекта, ускоряя процесс открытий для учёных и исследователей, работающих над решением важнейших мировых проблем.
H100 в три раза увеличивает количество операций с плавающей запятой в секунду (FLOPS) в тензорных ядрах двойной точности, обеспечивая 60 терафлопс вычислений FP64 для высокопроизводительных вычислений. Приложения для высокопроизводительных вычислений с использованием ИИ также могут использовать точность TF32 H100 для достижения пропускной способности в один петафлопс при операциях умножения матриц с одинарной точностью без изменения кода.
H100 также поддерживает новые инструкции DPX, которые обеспечивают в 7 раз более высокую производительность по сравнению с A100 и в 40 раз более высокую производительность по сравнению с процессорами при использовании алгоритмов динамического программирования, таких как алгоритм Смита-Уотермана для выравнивания последовательностей ДНК и выравнивания белков для прогнозирования их структуры.
Сравнение инструкций DPX для NVIDIA HGX™ H100 с 4 графическими процессорами и 32-ядерного процессора IceLake с двумя сокетами.
Ускоренный анализ данных c H100
Анализ данных часто занимает большую часть времени при разработке ИИ-приложений. Поскольку большие наборы данных распределены по нескольким серверам, масштабируемые решения с использованием обычных серверов с центральным процессором не справляются с масштабируемой вычислительной производительностью.
Ускоренные серверы с H100 обеспечивают вычислительную мощность — наряду с пропускной способностью памяти 3 терабайта в секунду (ТБ/с) на графический процессор и масштабируемостью с помощью NVLink и NVSwitch™ — для анализа данных с высокой производительностью и масштабируемостью для поддержки больших наборов данных. В сочетании с NVIDIA Quantum-2 InfiniBand, программным обеспечением Magnum IO, Spark 3.0 с ускорением на графическом процессоре и NVIDIA RAPIDS™ платформа NVIDIA для центров обработки данных способна ускорять эти огромные рабочие нагрузки с более высокой производительностью и эффективностью.


Использование для корпоративных целей
ИТ-менеджеры стремятся максимально использовать (как пиковые, так и средние) вычислительные ресурсы в центре обработки данных. Они часто используют динамическую реконфигурацию вычислительных ресурсов, чтобы правильно распределять их в соответствии с используемыми рабочими нагрузками.
H100 с MIG позволяет менеджерам инфраструктуры стандартизировать свою инфраструктуру, ускоряемую графическим процессором, и при этом гибко предоставлять ресурсы графического процессора с большей степенью детализации, чтобы безопасно предоставлять разработчикам необходимый объем ускоренных вычислений и оптимизировать использование всех ресурсов графического процессора.
Встроенные конфиденциальные вычисления
Традиционные решения для конфиденциальных вычислений основаны на центральном процессоре, что слишком ограничивает их возможности для ресурсоёмких вычислений, таких как масштабный искусственный интеллект. NVIDIA Confidential Computing — это встроенная функция безопасности архитектуры NVIDIA Hopper, которая сделала H100 первым в мире ускорителем с такими возможностями. Благодаря NVIDIA Blackwell можно в разы повысить производительность, сохраняя конфиденциальность и целостность используемых данных и приложений, что позволяет получать доступ к данным как никогда раньше. Теперь клиенты могут использовать аппаратную доверенную среду выполнения (TEE), которая обеспечивает безопасность и изоляцию всей рабочей нагрузки наиболее эффективным способом.


Исключительная производительность для крупномасштабного искусственного интеллекта и HPC
Графический процессор Hopper Tensor Core будет работать на архитектуре NVIDIA Grace Hopper CPU+GPU, специально разработанной для ускоренных вычислений в терабайтных масштабах и обеспечивающей в 10 раз более высокую производительность при работе с большими моделями ИИ и высокопроизводительных вычислений. Процессор NVIDIA Grace использует гибкость архитектуры Arm® для создания процессора и серверной архитектуры, разработанных с нуля для ускоренных вычислений. Графический процессор Hopper работает в паре с центральным процессором Grace, используя сверхбыструю межпроцессорную связь NVIDIA, обеспечивающую пропускную способность 900 ГБ/с, что в 7 раз быстрее, чем PCIe Gen5. Благодаря этой инновационной конструкции совокупная пропускная способность системной памяти для графического процессора будет в 30 раз выше, чем у самых быстрых серверов на сегодняшний день, а производительность приложений, работающих с терабайтами данных, — в 10 раз выше.

Ускоренный вывод большой языковой модели С помощью H100 NVL
Для LLM с 70 миллиардами параметров (Llama 2 70B) графический процессор NVIDIA H100 NVL на базе PCIe с мостом NVLink использует технологию Transformer Engine, NVLink и 188 ГБ памяти HBM3 для обеспечения оптимальной производительности и простого масштабирования в любом центре обработки данных, делая LLM общедоступными. Серверы, оснащённые графическими процессорами H100 NVL, повышают производительность Llama 2 70B в 5 раз по сравнению с системами NVIDIA A100, сохраняя при этом низкую задержку в условиях ограниченного энергопотребления в центрах обработки данных.







