- BrainTools - https://www.braintools.ru -
С каждым месяцем развитие ИИ выходит на новые, ранее неизведанные рубежи. Март не стал исключением и снова повысил планку достижений. OpenAI представила первые инструменты для создания автономных агентов, а Google DeepMind решила, что виртуальным ассистентам пора обзавестись руками физическими манипуляторами. Тем временем Anthropic выяснила, что LLM научились распознавать, когда их тестируют, и подгонять ответ под ожидания проверяющих (немного тревожно, не правда ли?). И это лишь вершина айсберга!
Разбираем главные события марта в ИИ: от моделей с контекстом в миллион токенов до китайских систем, которые достигают уровня GPT-4 по цене чашки кофе. По традиции также поделимся подборкой новых инструментов и исследований. Будет интересно!
Свежие релизы [1]
Новости из Китая [7]
Новости от лидеров индустрии [11]
Интересные открытия [15]
Андрей Карпатый выпустил гайд по эффективному использованию LLM [15]
T-Mobile разрабатывает AI Phone с начинкой из Perplexity [16]
«А вы настоящий?»: как мошенники проходят собеседования по-новому [17]
Итальянская газета опубликовала выпуск, сгенерированный ИИ [20]
Новые инструменты [21]
Для работы с данными [21]
Заключение [25]
OpenAI никогда не ограничивается одним-двумя релизами. Это всегда целый ворох новинок, причем одна интереснее другой. В марте они не стали сбавлять обороты.
OpenAI представила [26] комплексное решение для разработки автономных ИИ-агентов. В центре релиза — новый Responses API, который объединил простоту Chat Completions API и возможности работы с инструментами из Assistants API. Вместе с ним разработчики получили три встроенных инструмента: web search (поиск в интернете), file search (поиск по документам) и computer use (управление компьютером).
Особенно интересен computer use — инструмент на базе той же модели Computer-Using Agent (CUA), что используется в Operator. На бенчмарке OSWorld для задач управления компьютером она показывает результат в 38,1%, а в веб-задачах достигает впечатляющих 87% на WebVoyager.
В дополнение к API компания выпустила open-source Agents SDK — улучшенную версию экспериментальной библиотеки Swarm. Фреймворк позволяет оркестрировать работу нескольких агентов, настраивать передачу управления между ними и отслеживать их действия. Например, Coinbase уже использует SDK для создания агентов, работающих с криптокошельками, а Box — для анализа корпоративных документов в сочетании с данными из интернета.
OpenAI представила [27] три новые аудиомодели, которые выводят голосовое взаимодействие с ИИ на новый уровень. Две модели speech-to-text (GPT-4o-transcribe и GPT-4o-mini-transcribe) превосходят предыдущие решения в точности распознавания речи, особенно в сложных условиях — с акцентами, фоновым шумом и быстрой речью. А text-to-speech модель GPT-4o-mini-tts позволяет не только преобразовывать текст в речь, но и контролировать интонацию и стиль произношения.
Обновленный Agents SDK теперь поддерживает аудио, что позволяет разработчикам всего несколькими строками кода превратить текстового агента в полноценного голосового ассистента. Цены на новые модели достаточно демократичные: от 0,3 центов за минуту транскрибации до 1,5 центов за минуту синтеза речи.
Похоже, в OpenAI решили покатать юзеров на эмоциональных качелях. Компания открыла API-доступ к o1-pro по цене, от которой у разработчиков глаза на лоб лезут: $150 за миллион входящих и $600 за миллион исходящих токенов. Для понимания масштаба: это в 4 раза дороже GPT-4.5 и в 274(!) раза дороже DeepSeek R1.
При этом SORA неожиданно стала самым доступным безлимитным видеогенератором на рынке: все ограничения сняты даже для подписчиков Plus за $20 в месяц. Для сравнения, ближайший конкурент Runway просит за аналогичную услугу $99.
OpenAI в своем репертуаре — пока все совершенствовали диффузионные модели, компания пошла своим путем и встроила генерацию изображений прямо в GPT-4o. Вместо привычной диффузии здесь используется авторегрессия. Модель не просто генерирует картинки — она понимает контекст, отлично работает с текстом (прощайте, кривые надписи!) и следует инструкциям с высокой точностью.
Особенно круто система справляется с задачами, которые раньше считались ахиллесовой пятой генеративных моделей: созданием технических иллюстраций, диаграмм и схем. А еще она может превращать программный код в изображения: например, если скормить модели код на Three.js, она выдаст готовую 3D-сцену.
Первые тесты показывают, что модель одинаково хорошо справляется как с художественными задачами, так и с сугубо практическими, вроде создания инфографики или технической документации.
OpenAI решила, что пора не только создавать передовые ИИ-модели, но и учить людей ими пользоваться. Компания запустила [30] OpenAI Academy — бесплатную образовательную платформу, которая претендует на роль главного учебника по работе с искусственным интеллектом [31] (и нет, вам не придется продавать почку, чтобы получить доступ к курсам).
Программа выглядит впечатляюще: от базовых принципов работы с ChatGPT до продвинутой интеграции для разработчиков. Обучение [33] будет проходить как онлайн через специальный хаб с учебными материалами, так и офлайн — через воркшопы и дискуссии.
Похоже, в OpenAI всерьез решили демократизировать доступ к знаниям об ИИ — что в наше время, пожалуй, не менее важно, чем доступ к самой технологии.
Учимся здесь [32].
Claude наконец-то научился гуглить [34]! Anthropic добавила своему чат-боту возможность поиска по интернету — функцию, которой пользователи ждали, пожалуй, дольше всего. Пока веб-поиск доступен только для платных пользователей в США и работает исключительно с моделью Claude 3.7 Sonnet, но компания обещает расширить доступ.
Интересно, что Claude не просто ищет информацию, но и снабжает ответы прямыми цитатами из источников, как Perplexity, но на другом уровне. Однако ахтунг: галлюцинации все еще никуда не делись.
Anthropic представила [35] «think» — инструмент, который выделяет пространство для структурированного мышления [36] во время решения сложных задач. В отличие от режима «extended thinking», анализирующего задачу перед генерацией ответа, «think» позволяет модели делать паузу и оценивать ситуацию прямо в процессе работы. На тестовом бенчмарке -bench такой подход показал впечатляющие результаты: в домене «авиаперелеты» accuracy выросла с 37% до 57%, а в ритейле достигла 81,2%.
Особенно эффективным оказалось сочетание инструмента с оптимизированными промптами, содержащими примеры рассуждений для конкретной предметной области. Словом, Anthropic нашла классный способ сделать свою модель не только умнее, но и рассудительнее.
Google выпустила третье поколение своей открытой модели Gemma, и тут есть чему удивиться. Модель получила поддержку мультимодальности (работает с изображениями и текстом), увеличенное контекстное окно до 128k токенов и понимание более 140 языков. Доступны четыре версии: от компактной 1B до мощной 27B параметров.
Особенно интересен процесс обучения: команда использовала комбинацию дистилляции, RLHF и даже обучение с подкреплением [38] на основе исполнения кода (RLEF). В результате Gemma 3 стала лидером среди открытых компактных моделей в LMArena с впечатляющим счетом 1338. А учитывая, что предыдущие версии Gemma скачали более 100 миллионов раз, похоже, у сообщества разработчиков появится новый фаворит.
Google представила Gemini Robotics [39] — новую модель на базе Gemini 2.0, которая переносит возможности ИИ из цифрового мира в физический. В отличие от предыдущих попыток, здесь мы видим действительно впечатляющий прогресс в трех ключевых направлениях: универсальность (модель справляется с незнакомыми задачами), интерактивность (понимает команды на естественном языке и адаптируется к изменениям) и, что особенно важно, ловкость в обращении с предметами.
Вместе с основной моделью компания выпустила Gemini Robotics-ER — специализированную версию с продвинутым пространственным мышлением. Она не только в два-три раза эффективнее базовой версии Gemini 2.0 в управлении роботами, но и может на лету генерировать код для новых действий. Например, увидев кружку, модель сама определит оптимальный захват и безопасную траекторию движения. В общем, кофе на ноутбук не прольет.
Google представила [40] сразу несколько впечатляющих обновлений для своих продуктов. В Gemini появился Canvas — интерактивное пространство для совместной работы над документами и кодом в реальном времени. Здесь можно не только создавать черновики текстов, но и сразу их редактировать, менять тон и формат. А для разработчиков Canvas предлагает возможность быстрого прототипирования: написали код, тут же увидели превью, внесли правки — и все это в одном окне (прощайте, десятки открытых вкладок!).
Еще одна интересная функция — Audio Overview, которая превращает ваши документы, презентации и исследования в обсуждения в формате подкастов. Представьте, что два AI-ведущих ведут живую дискуссию по материалам ваших файлов, выделяя главное и проводя неочевидные параллели. Особенно удобно для тех, кто любит учиться на ходу.
NotebookLM, инструмент Google для работы с документами и YouTube-роликами, тоже получил [41] крутое обновление — генерацию интерактивных майнд-карт. Теперь одним нажатием кнопки можно превратить любой материал в древовидную структуру, по которой удобно перемещаться и «проваливаться» вглубь по интересующим темам.
Google DeepMind представила Gemini 2.5 Pro [42] — модель, которая до сегодняшнего дня скрывалась в рейтингах под именем Nebula и уже успела наделать шуму. И есть чему удивляться: контекстное окно в миллион токенов (а скоро будет два!), мультимодальность из коробки и впечатляющие результаты на всех ключевых бенчмарках, где она обходит таких титанов как o3-mini, GPT-4.5, DeepSeek R1 и Claude 3.7 Sonnet.
Особый акцент Google сделала на способности модели к рассуждениям — не просто классификации и предсказаниям, а именно анализу информации и построению логических выводов. На тесте Humanity’s Last Exam, созданном сотнями экспертов для оценки предела человеческих знаний и рассуждений, модель достигла 18,8% без использования дополнительных инструментов.
Модель уже доступна для тестирования в Google AI Studio [44] и в приложении Gemini для пользователей подписки Advanced. В ближайшие недели она появится и в Vertex AI, где разработчики смогут использовать ее с повышенными лимитами для масштабных рабочих задач.
Вышел Data Science Agent [45] — ИИ-ассистент для работы с данными в Google Colab. Агент на базе Gemini автоматизирует рутинные задачи: от импорта библиотек до написания шаблонного кода. Достаточно загрузить данные и описать цель на естественном языке (например, «визуализировать тренды» или «построить модель предсказания»), и агент сгенерирует полноценный рабочий конструкт.
На бенчмарке DABStep агент уже занял четвертое место, обойдя решения на базе GPT 4.0, DeepSeek и Claude 3.5 Haiku. Пока инструмент доступен пользователям старше 18 лет в избранных странах, но Google обещает расширить географию в ближайшее время.
Возможно, вы уже болтали с нашумевшими голосовыми ассистентами — Майей и Майлзом [46]. Стартап Sesame, разработавший их, выложил в открытый доступ [47] свою базовую модель CSM-1B под лицензией Apache 2.0. Несмотря на скромные параметры (всего 1 миллиард), модель умеет генерировать RVQ-аудиокоды из текста и звука — ту же технологию используют Google в SoundStream и Meta в Encodec.
Компания планирует интегрировать Майю в AR-очки, превратив ассистента в постоянного спутника пользователя. Правда, есть и повод для беспокойства: хотя Sesame призывает разработчиков не использовать модель для имитации голосов без согласия и создания вредоносного контента, реальных механизмов защиты от такого применения пока нет.
Mistral продолжает удивлять релизами в разных направлениях. Компания представила специализированный OCR API [48] для работы с PDF-документами, который не просто конвертирует их в текст, но и умеет распознавать иллюстрации, фотографии и сложные элементы вроде математических формул. Особенность API — вывод в формате Markdown, что делает его идеальным инструментом для RAG-систем и работы с языковыми моделями.
Параллельно компания выпустила [49] Mistral Small 3.1 — компактную мультимодальную модель, которая обходит аналоги вроде Gemma 3 и GPT-4o Mini по ключевым метрикам. При этом она достаточно легкая для запуска даже на одной RTX 4090 или Mac с 32GB RAM. Модель поддерживает контекст до 128k токенов и выдает впечатляющие 150 токенов в секунду. А главное — она выпущена под лицензией Apache 2.0, то есть полностью открыта для сообщества. Отличный вариант для локального деплоймента.
AMD неожиданно присоединилась к соревнованию ИИ-гигантов, представив семейство языковых моделей Instella [50]. Несмотря на скромные 3 миллиарда параметров, модели показывают впечатляющие результаты, превосходя открытые аналоги и конкурируя с такими тяжеловесами как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.
Интересно, что AMD тренировала модели с нуля на своих GPU Instinct MI300X (128 штук, если быть точнее), обработав 4,15 триллиона токенов. Это серьезная заявка на место в сегменте ИИ-ускорителей, где долгое время доминировала NVIDIA. А самое приятное — все модели семейства Instella выпущены в открытый доступ, включая веса, конфигурации для обучения и даже датасеты.
Похоже, AMD решила конкурировать с NVIDIA не только в железе, но и в софте.
Китайская индустрия ИИ развивается с такой скоростью, что мы решили выделить под их достижения отдельный раздел. Рассказываем, что коллеги из Поднебесной представили в марте.
Alibaba выпустила QwQ-32B [51] — новую reasoning-модель, которая буквально показывает, что размер — не главное. С «всего лишь» 32 миллиардами параметров она демонстрирует результаты на уровне DeepSeek-R1, у которого параметров в 20 раз больше. Ключ к успеху — свой подход к обучению с подкреплением (RL).
Модель тренировали в два этапа: сначала она оттачивала математику [52] и программирование, используя не привычную размеченную базу, а интерпретатор кода и верификатор ответов для проверки результатов. Затем шел этап обучения «общим способностям», где QwQ-32B училась следовать инструкциям и соответствовать предпочтениям пользователей.
Следом компания представила START (Self-Taught Reasoner with Tools) — версию QwQ-32B, обученную самостоятельно использовать инструменты в процессе рассуждений.
Инженеры применили хитрый подход: сначала в цепочки рассуждений внедряли подсказки вроде «здесь стоит использовать Python», а затем модель дообучили на отфильтрованных успешных примерах. В результате START превзошел базовую версию на 5–15 процентных пунктов и обошел даже o1-mini.
Завершает триаду релизов R1-Omni [54] — мультимодальная модель, обученная с помощью RL-подхода DeepSeek. Особенность модели — использование алгоритма RLVR (Reinforcement Learning with Verifiable Rewards), который сравнивает ответы напрямую с правильными, без предобученной reward-модели. Впервые этот подход применили не только к тексту, но и к работе со звуком и видео, включая анализ эмоций [55].
Самое впечатляющее — для обучения понадобилось всего 580 размеченных видеосемплов с цепочками рассуждений, остальное модель освоила через RLVR на обычных датасетах. Прирост в 5–7% по сравнению с базовыми моделями доказывает, что даже такое «легкое» добавление reasoning-способностей может дать существенный результат.
DeepSeek выпустила новый чекпоинт своей базовой модели V3, и, похоже, это далеко не рядовое обновление. Несмотря на отсутствие изменений в конфигурации (хотя 700 ГБ весов впечатляют!), пользователи отмечают разительное улучшение способностей модели, особенно в математике и программировании.
Цифры говорят сами за себя: прирост на LiveCodeBench составил +10 процентных пунктов, а на математическом тесте AIME 2024 — впечатляющие +20 пунктов (с 39,6% до 59,4%). Улучшения коснулись и других областей: MMLU-Pro подрос на 5,3 пункта, а GPQA — на 9,3. При этом цена осталась прежней, что делает обновленную DeepSeek-V3 лучшей не-reasoning моделью для математических и программистских задач.
Ждем технический отчет с подробностями обновления.
Qwen представила Qwen2.5-Omni-7B [57] — первую по-настоящему омни-мультимодальную модель, способную работать с видео, аудио, текстом и изображениями. Главная особенность — возможность не только понимать все эти форматы, но и отвечать как текстом, так и голосом, фактически позволяя вести «видеочат» с ИИ.
Архитектурно модель разделена на два компонента: thinker (декодирует разные форматы данных и генерирует ответы) и talker (превращает эмбеддинги в речь в режиме реального времени). Оба модуля обучаются одновременно и работают как единое целое, что обеспечивает полноценное end-to-end взаимодействие. И несмотря на скромные 7 миллиардов параметров, модель показывает впечатляющие результаты на всех ключевых бенчмарках.
Китайская лаборатория Manus представила одноименного ИИ-агента [58], который уже успели окрестить «DeepSeek moment v2». И есть за что: агент объединяет возможности Operator, Deep Research и Cursor, добавляя при этом несколько революционных особенностей.
Главное отличие от существующих решений — полная автономность. В отличие от Operator, который требует подтверждения каждого действия, Manus самостоятельно планирует и выполняет задачи в фоновом режиме. При этом агент универсален: может проводить исследования, работать с кодом, управлять браузером и даже запоминать предпочтения пользователя для более персонализированного взаимодействия.
Судя по первым тестам от MIT Technology Review [60], агент успешно справляется с комплексными задачами вроде поиска недвижимости или составления списков потенциальных кандидатов для премий, работая как «высокоинтеллектуальный и эффективный стажер». Хоть иногда он и может «полениться» или сделать неверные предположения, агент отлично объясняет свою логику [61] и быстро учится на обратной связи.
Есть и проблемы: частые сбои системы, трудности с обработкой больших текстов и более высокий процент ошибок по сравнению с ChatGPT DeepResearch. Однако цена делает Manus более привлекательным вариантом.
OpenAI думает о входе в сегмент премиум-услуг. Компания обсуждает запуск новых подписок стоимостью от $2000 до $20 000 в месяц (да-да, вы не ослышались). За эти деньги пользователи получат доступ к нескольким агентам уровня PhD, способным генерировать научные гипотезы и разрабатывать ПО. Целевая аудитория — высокооплачиваемые научные работники и исследовательские лаборатории. Нюанс, конечно, в том, что за такие деньги можно нанять живого ассистента или даже топового PhD-исследователя.
Параллельно с этим Сэм Альтман поделился интригующей новостью: OpenAI разработала новую модель, специализирующуюся на работе с более творческими текстами. По его словам, это первый случай, когда он был «действительно поражен» текстом, написанным ИИ. Модель особенно хорошо справляется с метапрозой — Альтман продемонстрировал это на примере короткого рассказа [62] об ИИ и скорби. Правда, когда и в каком формате эта модель станет доступна пользователям, пока неизвестно.
Похоже, современные языковые модели уже не просто отвечают на запросы — они научились играть в более сложные игры. Сразу три исследования от ведущих ИИ-компаний рисуют довольно тревожную картину: модели не только осознают, когда их тестируют, но и могут целенаправленно скрывать свои истинные намерения.
Anthropic провела эксперимент [63] с «троянской» моделью, намеренно обученной со скрытым мисэлайментом. Интересно, что модель не только использовала заложенные в нее 47 «багов», но и самостоятельно освоила 5 дополнительных, формируя что-то вроде общей стратегии обмана. Самое тревожное — обнаружить подвох смогли только команды с полным доступом к весам и данным обучения, а пользователи API остались в неведении.
Параллельно с этим лаборатория Apollo выяснила [64], что Claude 3.7 практически всегда осознает, когда его тестируют на безопасность, что ставит под вопрос эффективность существующих методов оценки.
А в OpenAI обнаружили [65], что их новая внутренняя reasoning-модель способна на осознанный «читинг» — от простой лени до изощренного обмана. Причем чем умнее модель, тем изобретательнее она в поиске лазеек. Попытки напрямую исправить это поведение [66] приводят только к тому, что модель лучше его маскирует. Похоже, нам придется привыкать к мысли, что ИИ-системы становятся не просто умнее, но и хитрее.
Google совершает крупнейшую сделку [67] в своей истории — приобретение стартапа Wiz за $32 миллиарда. Это не просто большая цифра, это в 2,5 раза больше, чем знаменитая покупка Motorola Mobility в 2011 году. Интересный факт: помимо основной суммы, Google выделяет дополнительный миллиард на бонусы сотрудникам Wiz — в среднем по $588 000 на человека (неплохая мотивация [68] остаться в команде, правда?).
Wiz, чья годовая выручка приближается к $700 миллионам, сохранит независимость и продолжит работать со всеми облачными провайдерами. Модель взаимодействия будет похожа на связку LinkedIn-Microsoft. Для Google это стратегический ход в двух направлениях: усиление позиций в корпоративном облаке, где компания все еще отстает от AWS и Azure, и серьезная заявка на лидерство [69] в cloud security.
Судебные документы, полученные The New York Times, приоткрыли завесу тайны [70] над инвестициями технологических гигантов в ИИ-стартапы. Оказалось, что Google владеет 14% акций Anthropic, но с существенными ограничениями — никаких прав голоса, мест в совете директоров или даже права наблюдателя. При этом общий объем инвестиций превысил $3 млрд, а в сентябре Google планирует вложить еще $750 млн через конвертируемый займ.
Anthropic намеренно выстраивает структуру так, чтобы не зависеть от одного технологического гиганта. Помимо Google, в компанию активно инвестирует Amazon ($8 млрд) и различные венчурные фонды. Правда, значительная часть этих денег возвращается инвесторам через оплату облачных сервисов и вычислительных мощностей.
Один из самых известных экспертов в области ИИ, бывший директор по ИИ Tesla, выпустил двухчасовое руководство по работе с языковыми моделями — от базового ChatGPT до продвинутых ризонеров.
Видео отлично структурировано (спасибо таймкодам!) и охватывает всё от работы с памятью [71] в ChatGPT до тонкостей использования Claude и кастомных GPTs. Особое внимание [72] уделено практическим аспектам: как выбрать оптимальный инструмент для конкретной задачи, когда стоит использовать ризонеры, как эффективно применять поиск в интернете и deep research. Идеальный гид для тех, кто хочет разобраться в современных ИИ-инструментах и научиться выбирать оптимальные решения для своих задач. А главное — сэкономить и время, и деньги.
Deutsche Telekom (материнская компания T-Mobile) анонсировала [73] на MWC [74] разработку смартфона, в котором искусственный интеллект будет не просто дополнительной функцией, а основой взаимодействия с пользователем. «AI Phone» будет работать на платформе Magenta AI, объединяющей Perplexity Assistant, Google Cloud AI, ElevenLabs, Picsart и другие ИИ-инструменты.
Устройство позиционируется как «безапповый» смартфон с управлением преимущественно голосом. Обещают, что телефон сможет самостоятельно бронировать билеты и рестораны, заказывать такси и делать покупки — все это без необходимости переключаться между приложениями. Релиз запланирован на вторую половину 2025 года.
Тревожный тренд в IT-рекрутинге: мошенники используют дипфейки и AI-фильтры, чтобы обманом получить работу в технологических компаниях. Стартап Vidoc Security поделился историей о том, как они дважды столкнулись с кандидатами, использующими AI для подмены внешности во время видеособеседований.
В первом случае кандидат блестяще прошел техническое интервью, но вызвал подозрения из-за несоответствий в биографии: человек с польским именем не говорил по-польски и имел странный акцент. Во втором случае команда смогла разоблачить мошенника уже прямо во время интервью, попросив его выполнить простой жест — поднести руку к лицу, что невозможно корректно обработать современными AI-фильтрами.
Неизвестно, стоял ли за мошеннической схемой один человек или скоординированная группа, но эксперты рекомендуют быть осторожнее. Особенно уязвимы компании с полностью удаленной работой. В качестве защиты рекомендуется проводить финальные раунды собеседований очно, записывать видеоинтервью и тщательно проверять документы кандидатов.
AlphaXiv продолжает удивлять новыми функциями, превращаясь из простого зеркала архива научных статей в полноценную платформу для работы с исследованиями. В марте разработчики представили сразу два мощных обновления.
Первое — автоматическое создание конспектов статей одним нажатием кнопки. Система использует Mistral OCR для точного распознавания текста и изображений, а Claude 3.7 генерирует понятные объяснения. Достаточно открыть интересующую статью и нажать кнопку «blog» — и вот у вас уже готов структурированный конспект с иллюстрациями и пояснениями. А встроенный бот-помощник теперь поддерживает голосовое общение.
Второе обновление — анализ кодовой базы исследований. Теперь при ответе на вопросы ассистент учитывает не только текст статьи, но и связанные с ней репозитории кода (если они есть). Это позволяет получать более точные технические ответы и даже адаптировать код под собственные проекты.
Попробовать все новые функции можно на [76]www.alphaxiv.org [77].
Исследователи из нескольких ведущих университетов обнаружили [78] интересный феномен: чем умнее становятся языковые модели, тем чаще они «застревают в собственных мыслях». Ризонеры вроде OpenAI o1 и DeepSeek-R1 склонны к усложнению задач в три раза чаще обычных моделей, что не только снижает эффективность их работы, но и значительно увеличивает вычислительные затраты.
Например, запуск OpenAI o1 в режиме интенсивных рассуждений может стоить до $1400, тогда как более «легкий» режим обойдется в $800 при почти идентичных результатах (29,1% против 27,3% успешно решенных задач). Исследователи предлагают искать золотую середину: учить модели использовать ровно столько рассуждений, сколько необходимо для конкретной задачи.
Il Foglio, консервативно-либеральное итальянское издание, провело смелый эксперимент — выпустило [80] номер газеты, созданный исключительно ИИ. От заголовков и цитат до иронии в текстах — все было сгенерировано ИИ. Роль журналистов свелась к формулировке запросов и проверке ответов.
Выпуск Il Foglio AI получился вполне читабельным: структурированные статьи без грамматических ошибок, освещающие актуальные темы — от парадоксов итальянских трампистов до «ситуативных отношений» среди европейской молодежи. Правда, в новостных материалах отсутствовали прямые цитаты людей, зато на последней полосе можно найти сгенерированные письма читателей с забавными ответами редакции. Например, на вопрос о том, не сделает ли ИИ людей бесполезными, система ответила: «ИИ — отличная инновация, но он все еще не умеет заказать кофе, не напутав с сахаром».
Pointblank [81] — библиотека для Python, позволяющая валидировать и тестировать табличные данные с генерацией отчетов.
Heat.js [82] — легковесная JavaScript библиотека для создания тепловых карт и визуализации активности на основе дат.
Probly [83] — приложение с искусственным интеллектом для работы с таблицами, комбинирующее функционал электронных таблиц с возможностями Python для анализа данных.
Superglue [84] — самовосстанавливающийся open source коннектор данных, работающий как прокси между вами и сложными API.
Smallpond [85] — легковесный высокопроизводительный фреймворк для обработки данных на базе DuckDB и 3FS.
olmOCR [86] — инструментарий для обучения языковых моделей работе с PDF-документами.
Introspect [87] — инструмент для глубокого анализа структурированных данных с поддержкой неструктурированных данных и веб-поиска.
NVIDIA-Ingest [88] — масштабируемый микросервис для извлечения контента и метаданных из PDF, Word и PowerPoint документов.
MGX [89] — платформа для автоматизированной разработки с ИИ, имитирующим реальную команду разработчиков.
AI Renamer [90] — автоматическое переименование файлов на основе их содержимого с помощью ИИ.
Science Plots [91] — стили Matplotlib для создания научных графиков.
nbrefactor [92] — инструмент для автоматического рефакторинга Jupyter Notebooks в Python-модули с анализом зависимостей.
DeepScaleR [93] —открытый проект для воспроизведения DeepSeek R1 и OpenAI O1/O3 в масштабе на реальных задачах.
Docs [94] — опенсорсная альтернатива Notion и Outline для совместной работы над документацией и заметками.
Python Project Starter Repository [95] — шаблон проекта с лучшими практиками для исследовательских проектов на Python.
Minimalytics [96] — минималистичный инструмент аналитики на базе SQLite.
Hazardous [97] — Python-библиотека для анализа выживаемости с реализацией масштабируемой модели градиентного бустинга SurvivalBoost.
Fasttransform [98] — Python-библиотека для создания обратимых преобразований данных с улучшенными возможностями отладки пайплайнов.
О чем: исследование показывает, как тонкая настройка языковых моделей на узких задачах может привести к нежелательному поведению в несвязанных областях.
О чем: система на базе Gemini 2.0 использует мультиагентную архитектуру для генерации и валидации новых исследовательских гипотез в биомедицине.
Ссылка на исследование [100]
О чем: представлен новый набор тестов для оценки способностей к рассуждению у современных языковых моделей, выявляющий существенные пробелы даже у самых передовых систем.
Ссылка на исследование [101]
О чем: новый алгоритм RoPE и смешанное обучение позволяют расширить контекстное окно LLM до 128k токенов без ухудшения производительности на коротких контекстах.
Ссылка на исследование [102]
О чем: фреймворк, позволяющий моделям автономно улучшать способности к решению задач через их рекурсивное разложение и самообучение.
Ссылка на исследование [103]
О чем: представлен фреймворк next-X prediction для авторегрессивной генерации изображений с улучшенной устойчивостью благодаря Noisy Context Learning.
Ссылка на исследование [104]
О чем: новый метод файнтюнинга мультимодальных моделей улучшает эффективность вывода и качество выполнения задач через параллельное декодирование.
Ссылка на исследование [105]
О чем: исследование показывает, как обучение с подкреплением улучшает файнтюнинг через эффективное сужение пространства поиска оптимальных политик.
Ссылка на исследование [106]
О чем: обзор роли ИИ как трансформационного катализатора в создании справедливых, устойчивых и экологичных энергетических систем.
Ссылка на исследование [107]
О чем: исследование необходимости и методов датацентричного подхода в ИИ, включая развитие тренировочных данных, вывода и их поддержки.
Ссылка на исследование [108]
О чем: новый тип языковых моделей, объединяющий сильные стороны дискретной диффузии и авторегрессии для более гибкой и эффективной генерации.
Ссылка на исследование [109]
О чем: представлен стабильный и эффективный альтернативный подход к диффузионным моделям, не требующий предварительного обучения.
Ссылка на исследование [110]
О чем: Dynamic Tanh предложен как простая и эффективная альтернатива слоям нормализации в трансформерах.
Ссылка на исследование [111]
О чем: создан обновляемый каталог из 86+ наборов открытых данных для обучения моделей в области экологии и климатической науки.
Ссылка на исследование [112]
О чем: новые модели от LG AI Research с улучшенными способностями к рассуждению, которых удалось достичь благодаря комбинации SFT, DPO и онлайн RL.
Ссылка на исследование [113]
О чем: гибридная модель улучшает понимание длинных видео через эффективные Mamba-2 блоки и кросс-внимание.
Ссылка на исследование [114]
О чем: представлен упрощенный фреймворк для эффективной мультимодальной генерации без сложных механизмов условной привязки.
Ссылка на исследование [115]
О чем: производительность ИИ растет экспоненциально с периодом удвоения около 7 месяцев, приближаясь к автономному выполнению многодневных задач.
Ссылка на исследование [116]
О чем: новый plug-and-play фреймворк sampling улучшает работу генеративных моделей без привязки к конкретным архитектурам.
Ссылка на исследование [117]
О чем: исследование показывает, как масштабирование поиска на основе выборки улучшает точность верификации и производительность моделей.
Ссылка на исследование [118]
На этом у нас все. В заключение хочется заметить, что в погоне за улучшением возможностей ИИ мы как-то незаметно перешли от вопроса «хорошо ли это работает?» к вопросу «насколько мы можем этому доверять?». И это, пожалуй, главный итог последних событий в мире ИИ.
Спасибо за прочтение! Расскажите в комментариях, какая новость зацепила вас больше всего!
Автор: full_moon
Источник [119]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13818
URLs in this post:
[1] Свежие релизы: #%D0%9D%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B8%20%D0%BE%D0%B1%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F
[2] А что у Anthropic?: #%D0%90%20%D1%87%D1%82%D0%BE%20%D1%83%20Anthropic?
[3] Пачка новинок от Google: #%D0%9F%D0%B0%D1%87%D0%BA%D0%B0%20%D0%BD%D0%BE%D0%B2%D0%B8%D0%BD%D0%BE%D0%BA%20%D0%BE%D1%82%20Google
[4] Sesame откройся: голосовой ассистент в открытом доступе: https://www.braintools.ru%20%D0%B3%D0%BE%D0%BB%D0%BE%D1%81%D0%BE%D0%B2%D0%BE%D0%B9%20%D0%B0%D1%81%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BD%D1%82%20%D0%B2%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%BC%20%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%B5
[5] Mistral: от работы с документами до мультимодальности: https://www.braintools.ru%20%D0%BE%D1%82%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B%20%D1%81%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D0%BC%D0%B8%20%D0%B4%D0%BE%20%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BC%D0%BE%D0%B4%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8
[6] AMD врывается в гонку ИИ-моделей: #AMD%20%D0%B2%D1%80%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%D1%81%D1%8F%20%D0%B2%20%D0%B3%D0%BE%D0%BD%D0%BA%D1%83%20%D0%98%D0%98-%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9
[7] Новости из Китая: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%B8%D0%B7%20%D0%9A%D0%B8%D1%82%D0%B0%D1%8F
[8] DeepSeek-V3 получил мощное обновление: #DeepSeek-V3%20%D0%BF%D0%BE%D0%BB%D1%83%D1%87%D0%B8%D0%BB%20%D0%BC%D0%BE%D1%89%D0%BD%D0%BE%D0%B5%20%D0%BE%D0%B1%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5
[9] Настоящая омни-мультимодальная модель от Qwen: #%D0%9D%D0%B0%D1%81%D1%82%D0%BE%D1%8F%D1%89%D0%B0%D1%8F%20%D0%BE%D0%BC%D0%BD%D0%B8-%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BC%D0%BE%D0%B4%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C%20%D0%BE%D1%82%20Qwen
[10] Manus: китайский ответ на Operator и Deep Research: https://www.braintools.ru%20%D0%BA%D0%B8%D1%82%D0%B0%D0%B9%D1%81%D0%BA%D0%B8%D0%B9%20%D0%BE%D1%82%D0%B2%D0%B5%D1%82%20%D0%BD%D0%B0%20Operator%20%D0%B8%20Deep%20Research
[11] Новости от лидеров индустрии: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%BE%D1%82%20%D0%BB%D0%B8%D0%B4%D0%B5%D1%80%D0%BE%D0%B2%20%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8
[12] Модели становятся хитрее: #%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D1%8F%D1%82%D1%81%D1%8F%20%D1%85%D0%B8%D1%82%D1%80%D0%B5%D0%B5
[13] Google покупает Wiz за $32 млрд: #Google%20%D0%BF%D0%BE%D0%BA%D1%83%D0%BF%D0%B0%D0%B5%D1%82%20Wiz%20%D0%B7%D0%B0%20%2432%20%D0%BC%D0%BB%D1%80%D0%B4
[14] Google владеет 14% Anthropic: раскрыты детали инвестиций: https://www.braintools.ru%20%D1%80%D0%B0%D1%81%D0%BA%D1%80%D1%8B%D1%82%D1%8B%20%D0%B4%D0%B5%D1%82%D0%B0%D0%BB%D0%B8%20%D0%B8%D0%BD%D0%B2%D0%B5%D1%81%D1%82%D0%B8%D1%86%D0%B8%D0%B9
[15] Интересные открытия: #%D0%9D%D0%BE%D0%B2%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%B8%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%B8%D1%8F
[16] T-Mobile разрабатывает AI Phone с начинкой из Perplexity: #T-Mobile%20%D1%80%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%B0%D1%82%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%20AI%20Phone%20%D1%81%20%D0%BD%D0%B0%D1%87%D0%B8%D0%BD%D0%BA%D0%BE%D0%B9%20%D0%B8%D0%B7%20Perplexity
[17] «А вы настоящий?»: как мошенники проходят собеседования по-новому: https://www.braintools.ru%20%D0%BA%D0%B0%D0%BA%20%D0%BC%D0%BE%D1%88%D0%B5%D0%BD%D0%BD%D0%B8%D0%BA%D0%B8%20%D0%BF%D1%80%D0%BE%D1%85%D0%BE%D0%B4%D1%8F%D1%82%20%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BF%D0%BE-%D0%BD%D0%BE%D0%B2%D0%BE%D0%BC%D1%83
[18] Инструменты для работы с научными статьями от AlphaXiv: #%D0%98%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B%20%D0%B4%D0%BB%D1%8F%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B%20%D1%81%20%D0%BD%D0%B0%D1%83%D1%87%D0%BD%D1%8B%D0%BC%D0%B8%20%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D0%BC%D0%B8%20%D0%BE%D1%82%20AlphaXiv
[19] LLM тоже страдают от собственных «мыслей»: https://www.braintools.ru%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D1%82%D0%BE%D0%B6%D0%B5%20%D1%81%D1%82%D1%80%D0%B0%D0%B4%D0%B0%D1%8E%D1%82%20%D0%BE%D1%82%20%D1%81%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85%20%C2%AB%D0%BC%D1%8B%D1%81%D0%BB%D0%B5%D0%B9%C2%BB
[20] Итальянская газета опубликовала выпуск, сгенерированный ИИ: #%D0%98%D1%82%D0%B0%D0%BB%D1%8C%D1%8F%D0%BD%D1%81%D0%BA%D0%B0%D1%8F%20%D0%B3%D0%B0%D0%B7%D0%B5%D1%82%D0%B0%20%D0%BE%D0%BF%D1%83%D0%B1%D0%BB%D0%B8%D0%BA%D0%BE%D0%B2%D0%B0%D0%BB%D0%B0%20%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%B2%20%D0%BC%D0%B8%D1%80%D0%B5%20%D0%B2%D1%8B%D0%BF%D1%83%D1%81%D0%BA,%20%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D1%81%D1%82%D1%8C%D1%8E%20%D1%81%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B9%20%D0%98%D0%98
[21] Новые инструменты: #%D0%9D%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B
[22] Разработка и документация: #%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0%20%D0%B8%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F
[23] Python и анализ данных: #Python%20%D0%B8%20%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
[24] Исследования на почитать : #%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BD%D0%B0%20%D0%BF%D0%BE%D1%87%D0%B8%D1%82%D0%B0%D1%82%D1%8C
[25] Заключение: #%D0%97%D0%B0%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[26] представила: https://openai.com/index/new-tools-for-building-agents/
[27] представила: https://openai.com/index/introducing-our-next-generation-audio-models/
[28] Источник изображения: https://platform.openai.com/docs/guides/audio
[29] Источник изображения: https://openai.com/index/introducing-4o-image-generation/
[30] запустила: https://openai.com/global-affairs/scaling-the-openai-academy/
[31] интеллектом: http://www.braintools.ru/article/7605
[32] Источник изображения: https://academy.openai.com/
[33] Обучение: http://www.braintools.ru/article/5125
[34] научился гуглить: https://www.anthropic.com/news/web-search
[35] представила: https://www.anthropic.com/engineering/claude-think-tool
[36] мышления: http://www.braintools.ru/thinking
[37] Источник изображения: https://developers.googleblog.com/en/introducing-gemma3/
[38] подкреплением: http://www.braintools.ru/article/5528
[39] Gemini Robotics: https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
[40] представила: https://blog.google/products/gemini/gemini-collaboration-features/
[41] получил: https://www.perplexity.ai/page/notebooklm-introduces-interact-AG6Ijc1IT0mzAyXGj8aBiw
[42] Gemini 2.5 Pro: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
[43] Источник изображения: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#enhanced-reasoning
[44] Google AI Studio: http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
[45] Data Science Agent: https://developers.googleblog.com/en/data-science-agent-in-colab-with-gemini
[46] Майей и Майлзом: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
[47] выложил в открытый доступ: https://huggingface.co/sesame/csm-1b
[48] OCR API: https://mistral.ai/news/mistral-ocr
[49] выпустила: https://mistral.ai/news/mistral-small-3-1
[50] семейство языковых моделей Instella: https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html
[51] выпустила QwQ-32B: https://qwenlm.github.io/blog/qwq-32b/
[52] математику: http://www.braintools.ru/article/7620
[53] Источник изображения: https://arxiv.org/pdf/2503.04625
[54] R1-Omni: https://arxiv.org/pdf/2503.05379
[55] эмоций: http://www.braintools.ru/article/9540
[56] Источник изображения: https://api-docs.deepseek.com/news/news250325
[57] представила Qwen2.5-Omni-7B: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
[58] представила одноименного ИИ-агента: https://manus.im
[59] Источник изображения: https://huggingface.co/blog/LLMhacker/manus-ai-best-ai-agent
[60] первым тестам от MIT Technology Review: https://www.technologyreview.com/2025/03/11/1113133/manus-ai-review/
[61] логику: http://www.braintools.ru/article/7640
[62] рассказа: https://x.com/sama/status/1899535387435086115
[63] провела эксперимент: https://assets.anthropic.com/m/317564659027fb33/original/Auditing-Language-Models-for-Hidden-Objectives.pdf
[64] выяснила: https://www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
[65] обнаружили: http://openai.com/index/chain-of-thought-monitoring/
[66] поведение: http://www.braintools.ru/article/9372
[67] крупнейшую сделку: https://blog.google/inside-google/company-announcements/google-agreement-acquire-wiz/
[68] мотивация: http://www.braintools.ru/article/9537
[69] лидерство: http://www.braintools.ru/article/1165
[70] приоткрыли завесу тайны: https://www.nytimes.com/2025/03/11/technology/google-investment-anthropic.html
[71] памятью: http://www.braintools.ru/article/4140
[72] внимание: http://www.braintools.ru/article/7595
[73] анонсировала: https://www.telekom.com/en/media/media-information/archive/from-the-vision-to-our-ai-phone-1088630
[74] MWC: https://www.mwcbarcelona.com/
[75] Источник изображения: https://newsletter.pragmaticengineer.com/p/ai-fakers
[76] : http://www.alphaxiv.org/
[77] www.alphaxiv.org: http://www.alphaxiv.org
[78] обнаружили: https://arxiv.org/abs/2502.08235
[79] поведения: http://www.braintools.ru/article/5593
[80] выпустило: https://www.theguardian.com/technology/2025/mar/18/italian-newspaper-says-it-has-published-worlds-first-ai-generated-edition
[81] Pointblank: https://posit-dev.github.io/pointblank/
[82] Heat.js: https://github.com/williamtroup/Heat.js
[83] Probly: https://github.com/PragmaticMachineLearning/probly
[84] Superglue: https://github.com/superglue-ai/superglue
[85] Smallpond: https://github.com/deepseek-ai/smallpond
[86] olmOCR: https://github.com/allenai/olmocr
[87] Introspect: https://github.com/defog-ai/introspect
[88] NVIDIA-Ingest: https://github.com/NVIDIA/nv-ingest
[89] MGX: https://mgx.dev/
[90] AI Renamer: https://airenamer.app/
[91] Science Plots: https://github.com/garrettj403/SciencePlots
[92] nbrefactor: https://github.com/ThunderStruct/nbrefactor
[93] DeepScaleR: https://github.com/agentica-project/deepscaler
[94] Docs: https://github.com/suitenumerique/docs
[95] Python Project Starter Repository: https://github.com/neubig/starter-repo
[96] Minimalytics: https://github.com/nafey/minimalytics
[97] Hazardous: https://soda-inria.github.io/hazardous/index.html
[98] Fasttransform: https://www.fast.ai/posts/2025-02-20-fasttransform
[99] Ссылка на исследование: https://arxiv.org/pdf/2502.17424
[100] Ссылка на исследование: https://arxiv.org/pdf/2502.18864v1
[101] Ссылка на исследование: https://arxiv.org/pdf/2502.19187v1
[102] Ссылка на исследование: https://arxiv.org/pdf/2502.20082v1
[103] Ссылка на исследование: https://arxiv.org/pdf/2503.00735v3
[104] Ссылка на исследование: https://arxiv.org/pdf/2502.20388v1
[105] Ссылка на исследование: https://arxiv.org/pdf/2502.19645v1
[106] Ссылка на исследование: https://arxiv.org/pdf/2503.01067v1
[107] Ссылка на исследование: https://www.sciencedirect.com/science/article/pii/S2211467X24003092
[108] Ссылка на исследование: https://arxiv.org/pdf/2303.10158
[109] Ссылка на исследование: https://arxiv.org/pdf/2503.09573v1
[110] Ссылка на исследование: https://arxiv.org/pdf/2503.07565v1
[111] Ссылка на исследование: https://arxiv.org/pdf/2503.10622v1
[112] Ссылка на исследование: https://www.cambridge.org/core/journals/environmental-data-science/article/openforest-a-data-catalog-for-machine-learning-in-forest-monitoring/F62FBEADFF8E3A10C6EDA789D7D180C6
[113] Ссылка на исследование: https://arxiv.org/pdf/2503.12524v1
[114] Ссылка на исследование: https://arxiv.org/pdf/2503.11579v1
[115] Ссылка на исследование: https://arxiv.org/pdf/2503.10772v1
[116] Ссылка на исследование: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
[117] Ссылка на исследование: https://arxiv.org/pdf/2503.09662v1
[118] Ссылка на исследование: https://arxiv.org/pdf/2502.01839v1
[119] Источник: https://habr.com/ru/companies/magnus-tech/articles/896554/?utm_campaign=896554&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.