Графические процессоры Nvidia в очередной раз почти полностью заняли первое место в одном из самых популярных тестов для измерения производительности чипов в сфере искусственного интеллекта. На этот раз основное внимание уделяется генеративным приложениям ИИ, таким как большие языковые модели (LLM).

Особой конкуренции не было. Системы, собранные компаниями SuperMicro, Hewlett Packard Enterprise, Lenovo и другими, в состав которых входит до восьми чипов Nvidia, в среду заняли большинство лидирующих позиций в тестовом бенчмарке MLPerf, организованном отраслевым консорциумом MLCommons.
Тест, измеряющий, насколько быстро машины могут генерировать токены, обрабатывать запросы или выводить образцы данных, известный как ИИ-вывод, является пятой частью многолетнего теста на прогнозирование.
На этот раз MLCommons обновил тесты скорости, добавив два теста, представляющих распространённые варианты использования генеративного ИИ. Один тест показывает, насколько быстро чипы работают с LLM Llama 3.1 405b от Meta* с открытым исходным кодом, которая является одной из самых крупных программ генеративного ИИ.
MLCommons также добавил интерактивную версию Llama 2 70b от Meta. Этот тест предназначен для имитации работы чат-бота, где время отклика имеет значение. Машины тестируются на скорость генерации первого токена вывода языковой модели, чтобы имитировать необходимость быстрого ответа, когда кто-то вводит запрос.
Третий новый тест измеряет скорость обработки графовых нейронных сетей, которые представляют собой задачи, состоящие из множества объектов и их связей, например, в социальной сети.
Графовые нейронные сети стали более важными компонентами программ, использующих генеративный ИИ. Например, подразделение Google DeepMind широко использовало графовые сети для потрясающих прорывов в прогнозировании сворачивания белков с помощью модели AlphaFold 2 в 2021 году.
Четвёртый новый тест измеряет, насколько быстро можно собрать данные LiDAR в автомобильную карту дороги. MLCommons создал собственную версию нейросети для этого теста, объединив существующие подходы с открытым исходным кодом.

В соревновании MLPerf участвуют компьютеры, собранные компаниями Lenovo, HPE и другими в соответствии со строгими требованиями к точности результатов работы нейронных сетей. Каждая компьютерная система отправляла в MLCommons отчёты о своей максимальной скорости обработки данных в секунду. В некоторых задачах критерием оценки является средняя задержка — время, которое требуется для получения ответа от сервера.
Графические процессоры Nvidia показали лучшие результаты почти во всех тестах в закрытом дивизионе, где правила настройки программного обеспечения наиболее строгие.

Конкурент AMD, использующий графический процессор MI300X, набрал наибольшее количество баллов в двух тестах Llama 2 70b. Он генерировал 103 182 токена в секунду, что значительно лучше, чем второй по результатам новый графический процессор Nvidia Blackwell.
Эта победившая система AMD была создана новым участником бенчмарка MLPerf, стартапом MangoBoost, который производит подключаемые карты, ускоряющие передачу данных между стойками графических процессоров. Компания также разрабатывает программное обеспечение для улучшения работы искусственного интеллекта под названием LLMboost.
Nvidia оспаривает сравнение показателей AMD с показателями Blackwell, ссылаясь на необходимость «нормализовать» показатели в зависимости от количества чипов и компьютерных «узлов».
Google также представил систему, демонстрирующую свой чип Trillium, шестую версию собственного тензорного процессора (TPU). Эта система значительно отстала от Blackwell от Nvidia в тесте на скорость, с которой компьютер может отвечать на запросы для создания изображений с помощью Stable Diffusion.
В последнем раунде тестов MLPerf было выявлено меньше конкурентов Nvidia, чем в некоторых предыдущих выпусках. Например, подразделение Habana от микропроцессорного гиганта Intel не получило никаких заявок со своими чипами, как это было в прошлые годы. Гигант мобильных чипов Qualcomm и на этот раз не прислал никаких заявок.
Однако результаты тестов позволили Intel немного похвастаться. В каждой компьютерной системе нужен не только графический процессор для ускорения вычислений ИИ, но и центральный процессор для выполнения обычных задач по планированию и управлению памятью и хранилищем данных.
В закрытом подразделении центров обработки данных микропроцессор Intel Xeon был основным процессором, на котором работали семь из 11 лучших систем, в то время как серверный микропроцессор AMD EPYC победил только в трёх случаях. Это свидетельствует о том, что Intel показала лучшие результаты, чем несколько лет назад.
11-я самая производительная система, эталон скорости обработки гигантской модели Meta Llama 3.1 405b, была создана самой Nvidia без встроенного микропроцессора Intel или AMD. Вместо этого Nvidia использовала комбинированный чип Grace-Blackwell 200, в котором графический процессор Blackwell соединён в одном корпусе с собственным микропроцессором Nvidia Grace.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Автор: mefdayy