Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах. 5090.. 5090. IT-инфраструктура.. 5090. IT-инфраструктура. llm.. 5090. IT-инфраструктура. llm. nvidia.. 5090. IT-инфраструктура. llm. nvidia. ollama.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui. Блог компании HOSTKEY.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui. Блог компании HOSTKEY. Видеокарты.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui. Блог компании HOSTKEY. Видеокарты. искусственный интеллект.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui. Блог компании HOSTKEY. Видеокарты. искусственный интеллект. тесты производительности.. 5090. IT-инфраструктура. llm. nvidia. ollama. openwebui. Блог компании HOSTKEY. Видеокарты. искусственный интеллект. тесты производительности. Хостинг.

Несмотря на огромный дефицит, нам удалось достать несколько карт NVIDIA GeForce RTX 5090 и протестировать. Не все так однозначно, как обещал глава Nvidia, но результаты достаточно интересные.

Оборудование

С оборудованием всё достаточно просто: мы взяли сервер с 4090, вынули эту видеокарту и поставили взамен 5090. Получили вот такую конфигурацию: Intel i9-14900k, 128 Гб, 2 TB NVMe SSD и, конечно же, GeForce RTX 5090 32 Гб.

4090 вынули, 5090 поставили

4090 вынули, 5090 поставили

Если вам интересно «а что с плавящимися разъемами питания», то и здесь пока что всё ОК — в процессе работы разъем не нагревался выше 65 градусов Цельсия. Система охлаждения родная воздушная, по температурному режиму можете посмотреть вывод в следующей главе.

Нет ли страшных 150 градусов на разъеме?

Нет ли страшных 150 градусов на разъеме?

По энергопотреблению карта «поджирает» побольше, чем GeForce RTX 4090. Весь сервер потребляет 830 Вт, и ему нужен соответствующий блок питания. У нас он был установлен с запасом, поэтому замена не понадобилась.

Приложениями для ИИ, машинного обучения и науки о данных на GPU-серверах с картами NVIDIA

AI & Машинное обучение
🔹PyTorch🔹AI-чатбот🔹TensorFlow🔹Apache Spark🔹ComfyUI

Наука о данных🔹Jupyter Notebook🔹JupyterLab🔹Anaconda🔹Apache Airflow

Заказать сервер

Софт

Запускать и тестировать всё будем на Ubuntu 22.04. Ставим систему, затем устанавливаем драйвера и CUDA нашим магическим скриптом. Nvidia-smi показывает, что всё работает и наш «GPU-монстр» потребляет как блок питания компьютера целиком у некоторых дома. На скрине температура и потребление энергии уже под нагрузкой, где сам процессор загружен всего на 40%.

У некоторых блок питания в компьютере такой по мощности

У некоторых блок питания в компьютере такой по мощности

Далее добавляем пакет docker, проброс nvidia в контейнеры и ставим Ollama (просто в систему) и OpenWebUI как docker-контейнер. Запускаем, убеждаемся, что всё работает, и начинаем тестирование.

Тесты

Для начала мы решили провести тесты по скорости работы нейросетей. Для удобства используем OpenWebUI в связке с Ollama. Забегая вперед, скажем, что напрямую работа с Ollama будет и быстрей, и требовать чуть меньше ресурсов, но получить данные, увы, можно только при работе через API, а наша задача — понять, быстрее ли 5090 предыдущего поколения в лице 4090, и если быстрее, то насколько.

В качестве соперника у нас была RTX 4090 на такой конфигурации: AMD EPYC 7402P, 128 Гб ОЗУ и 1 Тб NVME и RTX 4090 24 Гб. Все тесты проводились с уже предзагруженными моделями, и значение вычислялось как усредненное после десяти запусков, чтобы минимизировать влияние процессора, ОЗУ и дисковой подсистемы.

Первой на тест пойдет DeepSeek R1 14B в q4 при установленном размере контекста 32768. Размышления у модели идут отдельными потоками и отнимают определенное число ресурсов, а эта модель все еще остается популярной для бытовых видеокарт с размером видеопамяти до 16 Гб. Плюс тут гарантированно не будет влияния скорости диска, памяти и процессора, так как все вычисления будут проводиться в видеопамяти.

Модель требует для работы 11 Гб видеопамяти.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 4

Промт мы используем следующий: «Write code for simple Snake game on HTML and JS». На выходе получаем плюс-минус 2K токенов.

RTX 5090 32 Гб

RTX 4090 24 Гб

Скорость отклика, токенов в секунду

104,5

65,8

Время отклика, секунд

20

40

Как видно, 5090 показывает себя до 40% быстрее. И это при условии, что под архитектуру Blackwell еще нет оптимизации многих популярных фреймворков и библиотек, хотя новая CUDA 12.8 вовсю уже использует преимущества архитектуры.

Змейка. И даже рабочая

Змейка. И даже рабочая

Далее тест на переводы. Мы рассказывали ранее, что используем нейросетевых агентов-переводчиков для работы над документацией, поэтому охота было посмотреть, ускорится ли наша работа при применении 5090.

Берем системный промт для перевода с английского на турецкий:

Текст промта

You are native translator from English to Turkish.

I will provide you with text in Markdown format for translation. The text is related to IT. 

Follow these instructions:

– Do not change Markdown format.

– Translate text, considering the specific terminology and features. 

– Do not provide a description of how and why you made such a translation.  

– Keep on English box, panels, menu and submenu names, buttons names and other UX elements in tags ‘** **’ and ‘~~** **~~’.

– Use the following Markdown constructs: ‘!!! warning “Dikkat”‘, ‘!!! info “Bilgi”‘, ‘!!! note “Not”‘, ‘??? example’. Translate ‘Password” as ‘Şifre’. 

– Translate ‘## Deployment Features’ as ‘## Çalıştırma Özellikleri’.

– Translate ‘Documentation and FAQs’ as ‘Dokümantasyon ve SSS’.

– Translate ‘To install this software using the API, follow [these instructions](../../apidocs/index.md#instant-server-ordering-algorithm-with-eqorder_instance).’ as ‘Bu yazılımı API kullanarak kurmak için [bu talimatları](https://hostkey.com/documentation/apidocs/#instant-server-ordering-algorithm-with-eqorder_instance) izleyin.’

И отправляем в ответ содержимое вот этой страницы документации. 

RTX 5090 32 Гб

RTX 4090 24 Гб

Скорость отклика, токенов в секунду. Чем больше, тем лучше.

88

55

Время отклика, секунд. Чем меньше, тем лучше

60

100

На выходе имеем в среднем 5K токенов при общем числе в 10K (напоминаю, что у нас окно контекста 32K установлено). Как видно и здесь, 5090 быстрее, хотя уже в пределах обещанных 30% прироста.

Далее переходим к модели «пожирнее». Берем новинку — Gemma3 27B. Для нее ставим размер контекста входного в 16384 токена. И получаем, что на 5090 модель потребляет 26 Гб видеопамяти.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 6

На этот раз попробуем нарисовать логотип для компании по аренде серверов (вдруг захотим наш старый логотип HOSTKEY поменять). Промт будет следующий: «Design an ONE complex SVG logo for a server rental company».

Учился дизайну у Артемия Лебедева

Учился дизайну у Артемия Лебедева

А результат такой:

RTX 5090 32 Гб

RTX 4090 24 Гб

Скорость отклика, токенов в секунду. Чем больше, тем лучше.

48

7

Время отклика, секунд. Чем меньше, тем лучше

44

270

Оглушительный провал RTX 4090. Смотрим, как у нас распределяется нагрузка на GPU, и видим, что у нас 17% ушло на центральный процессор и ОЗУ, а значит, скорость гарантированно упала. Причем общий объем потребляемых ресурсов из-за этого тоже вырос. 32 Гб памяти на борту RTX 5090 для моделей такого толка очень помогают.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 8

Gemma3 у нас мультимодальная модель, значит, может распознавать изображения. Берем картинку и просим ее найти всех животных на ней: «Find all animals on this picture». Размер контекста также оставляем в 16K.

Задача для детского сада

Задача для детского сада

C 4090 оказалось не всё так просто. При таком размере исходящего контекста модель зависала. Уменьшение до 8K привело к уменьшению потребления видеопамяти, но похоже, что обработка изображений на CPU даже на 5% — не самая лучшая идея.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 10

В итоге все результаты для 4090 были получены для контекста в 2K, что дало фору этой видеокарте, так как Gemma3 утилизировала только 20 Гб видеопамяти.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 11

Для сравнения в скобках цифры, которые были получены для 5090 с контекстом в 2K.

RTX 5090 32 Гб

RTX 4090 24 Гб

Скорость отклика, токенов в секунду. Чем больше, тем лучше.

49 (78)

39

Время отклика, секунд. Чем меньше, тем лучше

10 (4)

6

Следующей на тест снова выходит «убийца ChatGPT» в лице DeepSeek, но уже с 32 миллиардами параметров. Модель занимает в видеопамяти 25 Гб у 5090 и 26 Гб с частичным задействованием CPU у 4090.

Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 12
Дженсен Хуанг, как же так!? Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах - 13

Тестировать мы будем, попросив нейросеть написать нам Тетрис для браузера. Контекст ставим в 2K, памятуя о проблемах предыдущих тестов. Задаем максимально неинформативный промт «Write Tetris on HTML» и ждем результат. Пару раз даже получаем играбельную вещь.

Тетрис рабочий. Только нижнюю строку поднять чуть-чуть выше

Тетрис рабочий. Только нижнюю строку поднять чуть-чуть выше

RTX 5090 32 Гб

RTX 4090 24 Гб

Скорость отклика, токенов в секунду. Чем больше, тем лучше.

57

17

Время отклика, секунд. Чем меньше, тем лучше.

45

180

О грустном

Первые нехорошие звоночки прозвучали, когда мы решили сравнить видеокарты при работе с векторными базами данных: созданием эмбедингов и поиском результата с их учетом. У нас не получилось создать новую базу знаний. Потом не заработал поиск по интернету в OpenWebUI.

Далее мы решили посмотреть скорость в генерации графики, поставив ComfyUI с моделью Stable Diffusion 3.5 Medium. И при запуске генерации получил вот такое сообщение:

CUDA error: no kernel image is available for execution on the device

Ладно, подумали мы, возможно, у нас старые версии CUDA (нет), или драйверов (нет), или PyTorch. Обновил последний до nightly версии, запустил и получил такое же сообщение.

Полезли рыться, что пишут другие пользователи и есть ли решение, и оказалось, что проблема в отсутствии сборки PyTorch под архитектуру Blackwell и CUDA 12.8. И решения, кроме как самому всё пересобрать с нужными ключами и из исходников, нет.

Судя по стенаниям, такая же проблема существует и с другими библиотеками, которые «плотно» взаимодействуют с CUDA. Остается только ждать.

Когда мы уже оформляли эту статью, появилось частичное решение. Вы можете найти ссылку на последние сборки PyTorch с поддержкой 5090 в сообществе ComfyUI, и там же рекомендуют следить за обновлением, так как работа над адаптацией и оптимизацией под архитектуру только начата и все еще работает не очень стабильно.

Итоги

Какие выводы: Дженсен Хуанг не обманул, и в ИИ-применении 5090 работает быстрее и часто сильно быстрее предыдущего поколения. Возросший объем памяти позволяет запускать 27/32B модели даже с максимальным размером контекста. Но, как говорится, есть «но» в 32 гигабайта видеопамяти — это мало. Да, видеокарта игровая, и ждем профессиональные версии с 64 и более гигабайтами видеопамяти на замену A6000-серии (только что анонсировали RTX PRO 6000 с 96 Гб видеопамяти).

По нашему мнению, тут NVIDIA пожадничала и в топовую модель без сильного ущерба стоимости могла бы и поставить 48 Гб (или выпустить 4090 Ti для энтузиастов). Про то, что софт не адаптирован толком: NVIDIA опять же показала, что часто «забивает» на работу с сообществом, так как неработающие на старте PyTorch или TensorFlow (там такие же проблемы из-за новой версии CUDA) — это позор. Но сообщество на то и сообщество, чтобы решать и достаточно быстро такие проблемы, и уже через пару-тройку недель ситуация с поддержкой ПО, думаем, наладится.

Автор: akdengi

Источник

Рейтинг@Mail.ru
Rambler's Top100