Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим
Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.
Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA
Большая языковая модель A‑Vibe, разработанная «Авито», заняла первое место среди облегчённых моделей (до 10 млрд параметров) в российском бенчмарке MERA. Модель обошла аналоги от OpenAI, Google и Anthropic, рассказали информационной службе Хабра в пресс‑службе «Авито».Команда «Авито» разработала собственные генеративные модели A‑Vibe и A‑Vision, использовав на старте открытую модель. Open source модель плохо работала с русским языком, потому что данные включали 100 языков, а русский занимал 1%. Из‑за этого модель слабо понимала и генерировала тексты на русском.
Автоматическое обнаружение возможностей через самоисследование базовых моделей
Это перевод свежей статьи от 12 февраля 2025 года об Automated Capability Discovery (ACD)
Обзор накопителя 2 ТБ Micron 4600
Накопитель Micron 4600 порадует ценителей высокопроизводительных устройств хранения данных. Этот мощный SSD выводит скорость на новый уровень, не жертвуя энергоэффективностью. Оснащенный контроллером SMI SM2508 и новейшей 276-слойной памятью TLC NAND от Micron, он воплощает в себе все, что можно ожидать от современного накопителя. Micron 4600 знаменует собой новую эру доступных и быстрых дисков PCIe 5.0, предлагая производительность без привычных компромиссов. Хотя это нельзя назвать революционным инженерным достижением, устройство уверенно прокладывает путь к стабильному развитию рынка SSD, переживающего череду взлетов и падений. И этот накопитель — определенно один из взлетов. Micron 4600 — это OEM-накопитель, поэтому его нельзя назвать широко доступным в розничной продаже, к тому же у него относительно слабая реклама. Даже в одиночной конфигурации этот накопитель демонстрирует впечатляющие характеристики и выдающуюся энергоэффективность для своего уровня производительности. Хотя было бы замечательно увидеть версию с объёмом 8 ТБ, для большинства пользователей текущей ёмкости более чем достаточно. Теперь остаётся с интересом ждать, сможет ли Samsung дать достойный ответ с выпуском 9100 Pro. Можно задаться вопросом, зачем нужен такой быстрый диск. Micron позиционирует 4600 как решение для профессиональных задач, включая искусственный интеллект, что подразумевает, что диск является хорошим выбором для HEDT (high-end desktop). Несомненно, этот диск также более чем пригоден для игр в будущем, а его пиковая производительность превосходит аналоги. С его появлением на рынке устанавливается новая планка для SSD-накопителей, так как система хранения данных PCIe 5.0 становится все более совершенной.
Уроки химии: AMORE проверит готовность химических языковых моделей
Привет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?Чтобы выяснить это, мы создали ♡AMORE
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
Фото Яни Каасинен на Unsplash.
Насколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки
Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.
AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности
AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает