- BrainTools - https://www.braintools.ru -

Почти фотошоп от OpenAI, дипфейки на собеседованиях, Operator от Китая: главные события марта в сфере ИИ

Почти фотошоп от OpenAI, дипфейки на собеседованиях, Operator от Китая: главные события марта в сфере ИИ - 1

С каждым месяцем развитие ИИ выходит на новые, ранее неизведанные рубежи. Март не стал исключением и снова повысил планку достижений. OpenAI представила первые инструменты для создания автономных агентов, а Google DeepMind решила, что виртуальным ассистентам пора обзавестись руками физическими манипуляторами. Тем временем Anthropic выяснила, что LLM научились распознавать, когда их тестируют, и подгонять ответ под ожидания проверяющих (немного тревожно, не правда ли?). И это лишь вершина айсберга!

Разбираем главные события марта в ИИ: от моделей с контекстом в миллион токенов до китайских систем, которые достигают уровня GPT-4 по цене чашки кофе. По традиции также поделимся подборкой новых инструментов и исследований. Будет интересно!

Навигация

Свежие релизы [1]

Новости из Китая [7]

Новости от лидеров индустрии [11]

Интересные открытия [15]

Новые инструменты [21]

Исследования на почитать [24]

Заключение [25]

Свежие релизы

Обновления от OpenAI

OpenAI никогда не ограничивается одним-двумя релизами. Это всегда целый ворох новинок, причем одна интереснее другой. В марте они не стали сбавлять обороты. 

Новые инструменты для создания агентов

OpenAI представила [26] комплексное решение для разработки автономных ИИ-агентов. В центре релиза — новый Responses API, который объединил простоту Chat Completions API и возможности работы с инструментами из Assistants API. Вместе с ним разработчики получили три встроенных инструмента: web search (поиск в интернете), file search (поиск по документам) и computer use (управление компьютером).

Источник изображения

Особенно интересен computer use — инструмент на базе той же модели Computer-Using Agent (CUA), что используется в Operator. На бенчмарке OSWorld для задач управления компьютером она показывает результат в 38,1%, а в веб-задачах достигает впечатляющих 87% на WebVoyager.

В дополнение к API компания выпустила open-source Agents SDK — улучшенную версию экспериментальной библиотеки Swarm. Фреймворк позволяет оркестрировать работу нескольких агентов, настраивать передачу управления между ними и отслеживать их действия. Например, Coinbase уже использует SDK для создания агентов, работающих с криптокошельками, а Box — для анализа корпоративных документов в сочетании с данными из интернета.

Новые аудиомодели GPT-4o: голос для ваших агентов

OpenAI представила [27] три новые аудиомодели, которые выводят голосовое взаимодействие с ИИ на новый уровень. Две модели speech-to-text (GPT-4o-transcribe и GPT-4o-mini-transcribe) превосходят предыдущие решения в точности распознавания речи, особенно в сложных условиях — с акцентами, фоновым шумом и быстрой речью. А text-to-speech модель GPT-4o-mini-tts позволяет не только преобразовывать текст в речь, но и контролировать интонацию и стиль произношения.

Источник изображения

Обновленный Agents SDK теперь поддерживает аудио, что позволяет разработчикам всего несколькими строками кода превратить текстового агента в полноценного голосового ассистента. Цены на новые модели достаточно демократичные: от 0,3 центов за минуту транскрибации до 1,5 центов за минуту синтеза речи.

Контрасты ценовой политики OpenAI

Похоже, в OpenAI решили покатать юзеров на эмоциональных качелях. Компания открыла API-доступ к o1-pro по цене, от которой у разработчиков глаза на лоб лезут: $150 за миллион входящих и $600 за миллион исходящих токенов. Для понимания масштаба: это в 4 раза дороже GPT-4.5 и в 274(!) раза дороже DeepSeek R1. 

При этом SORA неожиданно стала самым доступным безлимитным видеогенератором на рынке: все ограничения сняты даже для подписчиков Plus за $20 в месяц. Для сравнения, ближайший конкурент Runway просит за аналогичную услугу $99.

Нативная генерация изображений с 4o: революция в картинках

OpenAI в своем репертуаре — пока все совершенствовали диффузионные модели, компания пошла своим путем и встроила генерацию изображений прямо в GPT-4o. Вместо привычной диффузии здесь используется авторегрессия. Модель не просто генерирует картинки — она понимает контекст, отлично работает с текстом (прощайте, кривые надписи!) и следует инструкциям с высокой точностью.

Источник изображения

Особенно круто система справляется с задачами, которые раньше считались ахиллесовой пятой генеративных моделей: созданием технических иллюстраций, диаграмм и схем. А еще она может превращать программный код в изображения: например, если скормить модели код на Three.js, она выдаст готовую 3D-сцену.

Первые тесты показывают, что модель одинаково хорошо справляется как с художественными задачами, так и с сугубо практическими, вроде создания инфографики или технической документации.

OpenAI запускает бесплатную «Академию»

OpenAI решила, что пора не только создавать передовые ИИ-модели, но и учить людей ими пользоваться. Компания запустила [30] OpenAI Academy — бесплатную образовательную платформу, которая претендует на роль главного учебника по работе с искусственным интеллектом [31] (и нет, вам не придется продавать почку, чтобы получить доступ к курсам).

Источник изображения

Программа выглядит впечатляюще: от базовых принципов работы с ChatGPT до продвинутой интеграции для разработчиков. Обучение [33] будет проходить как онлайн через специальный хаб с учебными материалами, так и офлайн — через воркшопы и дискуссии. 

Похоже, в OpenAI всерьез решили демократизировать доступ к знаниям об ИИ — что в наше время, пожалуй, не менее важно, чем доступ к самой технологии.

Учимся здесь [32].

А что у Anthropic?

Claude научился искать в интернете

Claude наконец-то научился гуглить [34]! Anthropic добавила своему чат-боту возможность поиска по интернету — функцию, которой пользователи ждали, пожалуй, дольше всего. Пока веб-поиск доступен только для платных пользователей в США и работает исключительно с моделью Claude 3.7 Sonnet, но компания обещает расширить доступ. 

Источник изображения

Интересно, что Claude не просто ищет информацию, но и снабжает ответы прямыми цитатами из источников, как Perplexity, но на другом уровне. Однако ахтунг: галлюцинации все еще никуда не делись.

Инструмент «think»

Anthropic представила [35] «think» — инструмент, который выделяет пространство для структурированного мышления [36] во время решения сложных задач. В отличие от режима «extended thinking», анализирующего задачу перед генерацией ответа, «think» позволяет модели делать паузу и оценивать ситуацию прямо в процессе работы. На тестовом бенчмарке τ-bench такой подход показал впечатляющие результаты: в домене «авиаперелеты» accuracy выросла с 37% до 57%, а в ритейле достигла 81,2%.

Особенно эффективным оказалось сочетание инструмента с оптимизированными промптами, содержащими примеры рассуждений для конкретной предметной области. Словом, Anthropic нашла классный способ сделать свою модель не только умнее, но и рассудительнее.

Пачка новинок от Google

Gemma 3: мультимодальность для всех

Google выпустила третье поколение своей открытой модели Gemma, и тут есть чему удивиться. Модель получила поддержку мультимодальности (работает с изображениями и текстом), увеличенное контекстное окно до 128k токенов и понимание более 140 языков. Доступны четыре версии: от компактной 1B до мощной 27B параметров.

Источник изображения

Особенно интересен процесс обучения: команда использовала комбинацию дистилляции, RLHF и даже обучение с подкреплением [38] на основе исполнения кода (RLEF). В результате Gemma 3 стала лидером среди открытых компактных моделей в LMArena с впечатляющим счетом 1338. А учитывая, что предыдущие версии Gemma скачали более 100 миллионов раз, похоже, у сообщества разработчиков появится новый фаворит.

Google DeepMind: роботы учатся думать по-человечески

Google представила Gemini Robotics [39] — новую модель на базе Gemini 2.0, которая переносит возможности ИИ из цифрового мира в физический. В отличие от предыдущих попыток, здесь мы видим действительно впечатляющий прогресс в трех ключевых направлениях: универсальность (модель справляется с незнакомыми задачами), интерактивность (понимает команды на естественном языке и адаптируется к изменениям) и, что особенно важно, ловкость в обращении с предметами.

Gemini Robotics работает с различными видами роботов. Источник изображения

Gemini Robotics работает с различными видами роботов. Источник изображения [39]

Вместе с основной моделью компания выпустила Gemini Robotics-ER — специализированную версию с продвинутым пространственным мышлением. Она не только в два-три раза эффективнее базовой версии Gemini 2.0 в управлении роботами, но и может на лету генерировать код для новых действий. Например, увидев кружку, модель сама определит оптимальный захват и безопасную траекторию движения. В общем, кофе на ноутбук не прольет.

Обновление и без того крутых инструментов 

Google представила [40] сразу несколько впечатляющих обновлений для своих продуктов. В Gemini появился Canvas — интерактивное пространство для совместной работы над документами и кодом в реальном времени. Здесь можно не только создавать черновики текстов, но и сразу их редактировать, менять тон и формат. А для разработчиков Canvas предлагает возможность быстрого прототипирования: написали код, тут же увидели превью, внесли правки — и все это в одном окне (прощайте, десятки открытых вкладок!).

Источник изображения

Еще одна интересная функция — Audio Overview, которая превращает ваши документы, презентации и исследования в обсуждения в формате подкастов. Представьте, что два AI-ведущих ведут живую дискуссию по материалам ваших файлов, выделяя главное и проводя неочевидные параллели. Особенно удобно для тех, кто любит учиться на ходу.

NotebookLM, инструмент Google для работы с документами и YouTube-роликами, тоже получил [41] крутое обновление — генерацию интерактивных майнд-карт. Теперь одним нажатием кнопки можно превратить любой материал в древовидную структуру, по которой удобно перемещаться и «проваливаться» вглубь по интересующим темам. 

Gemini 2.5 Pro: миллион токенов и первое место в рейтингах

Google DeepMind представила Gemini 2.5 Pro [42] — модель, которая до сегодняшнего дня скрывалась в рейтингах под именем Nebula и уже успела наделать шуму. И есть чему удивляться: контекстное окно в миллион токенов (а скоро будет два!), мультимодальность из коробки и впечатляющие результаты на всех ключевых бенчмарках, где она обходит таких титанов как o3-mini, GPT-4.5, DeepSeek R1 и Claude 3.7 Sonnet.

Источник изображения

Особый акцент Google сделала на способности модели к рассуждениям — не просто классификации и предсказаниям, а именно анализу информации и построению логических выводов. На тесте Humanity’s Last Exam, созданном сотнями экспертов для оценки предела человеческих знаний и рассуждений, модель достигла 18,8% без использования дополнительных инструментов.

Модель уже доступна для тестирования в Google AI Studio [44] и в приложении Gemini для пользователей подписки Advanced. В ближайшие недели она появится и в Vertex AI, где разработчики смогут использовать ее с повышенными лимитами для масштабных рабочих задач.

Google Colab получает ИИ-помощника для data science

Вышел Data Science Agent [45] — ИИ-ассистент для работы с данными в Google Colab. Агент на базе Gemini автоматизирует рутинные задачи: от импорта библиотек до написания шаблонного кода. Достаточно загрузить данные и описать цель на естественном языке (например, «визуализировать тренды» или «построить модель предсказания»), и агент сгенерирует полноценный рабочий конструкт.

На бенчмарке DABStep агент уже занял четвертое место, обойдя решения на базе GPT 4.0, DeepSeek и Claude 3.5 Haiku. Пока инструмент доступен пользователям старше 18 лет в избранных странах, но Google обещает расширить географию в ближайшее время.

Sesame откройся: голосовой ассистент в открытом доступе

Возможно, вы уже болтали с нашумевшими голосовыми ассистентами — Майей и Майлзом [46]. Стартап Sesame, разработавший их, выложил в открытый доступ [47] свою базовую модель CSM-1B под лицензией Apache 2.0. Несмотря на скромные параметры (всего 1 миллиард), модель умеет генерировать RVQ-аудиокоды из текста и звука — ту же технологию используют Google в SoundStream и Meta в Encodec.

Компания планирует интегрировать Майю в AR-очки, превратив ассистента в постоянного спутника пользователя. Правда, есть и повод для беспокойства: хотя Sesame призывает разработчиков не использовать модель для имитации голосов без согласия и создания вредоносного контента, реальных механизмов защиты от такого применения пока нет.

Mistral: от работы с документами до мультимодальности

Mistral продолжает удивлять релизами в разных направлениях. Компания представила специализированный OCR API [48] для работы с PDF-документами, который не просто конвертирует их в текст, но и умеет распознавать иллюстрации, фотографии и сложные элементы вроде математических формул. Особенность API — вывод в формате Markdown, что делает его идеальным инструментом для RAG-систем и работы с языковыми моделями.

Источник изображения

Параллельно компания выпустила [49] Mistral Small 3.1 — компактную мультимодальную модель, которая обходит аналоги вроде Gemma 3 и GPT-4o Mini по ключевым метрикам. При этом она достаточно легкая для запуска даже на одной RTX 4090 или Mac с 32GB RAM. Модель поддерживает контекст до 128k токенов и выдает впечатляющие 150 токенов в секунду. А главное — она выпущена под лицензией Apache 2.0, то есть полностью открыта для сообщества. Отличный вариант для локального деплоймента.

AMD врывается в гонку ИИ-моделей 

AMD неожиданно присоединилась к соревнованию ИИ-гигантов, представив семейство языковых моделей Instella [50]. Несмотря на скромные 3 миллиарда параметров, модели показывают впечатляющие результаты, превосходя открытые аналоги и конкурируя с такими тяжеловесами как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.

Источник изображения

Интересно, что AMD тренировала модели с нуля на своих GPU Instinct MI300X (128 штук, если быть точнее), обработав 4,15 триллиона токенов. Это серьезная заявка на место в сегменте ИИ-ускорителей, где долгое время доминировала NVIDIA. А самое приятное — все модели семейства Instella выпущены в открытый доступ, включая веса, конфигурации для обучения и даже датасеты.

Похоже, AMD решила конкурировать с NVIDIA не только в железе, но и в софте.

Новости из Китая

Китайская индустрия ИИ развивается с такой скоростью, что мы решили выделить под их достижения отдельный раздел. Рассказываем, что коллеги из Поднебесной представили в марте.

Alibaba: тройной удар по рынку ИИ

QwQ-32B: эффективность важнее размера

Alibaba выпустила QwQ-32B [51] — новую reasoning-модель, которая буквально показывает, что размер — не главное. С «всего лишь» 32 миллиардами параметров она демонстрирует результаты на уровне DeepSeek-R1, у которого параметров в 20 раз больше. Ключ к успеху — свой подход к обучению с подкреплением (RL).

Источник изображения

Модель тренировали в два этапа: сначала она оттачивала математику [52] и программирование, используя не привычную размеченную базу, а интерпретатор кода и верификатор ответов для проверки результатов. Затем шел этап обучения «общим способностям», где QwQ-32B училась следовать инструкциям и соответствовать предпочтениям пользователей. 

START: самообучающийся ризонер

Следом компания представила START (Self-Taught Reasoner with Tools) — версию QwQ-32B, обученную самостоятельно использовать инструменты в процессе рассуждений. 

Процесс обучения модели. Источник изображения

Процесс обучения модели. Источник изображения [53]

Инженеры применили хитрый подход: сначала в цепочки рассуждений внедряли подсказки вроде «здесь стоит использовать Python», а затем модель дообучили на отфильтрованных успешных примерах. В результате START превзошел базовую версию на 5–15 процентных пунктов и обошел даже o1-mini.

R1-Omni: мультимодальное мышление

Завершает триаду релизов R1-Omni [54] — мультимодальная модель, обученная с помощью RL-подхода DeepSeek. Особенность модели — использование алгоритма RLVR (Reinforcement Learning with Verifiable Rewards), который сравнивает ответы напрямую с правильными, без предобученной reward-модели. Впервые этот подход применили не только к тексту, но и к работе со звуком и видео, включая анализ эмоций [55].

Самое впечатляющее — для обучения понадобилось всего 580 размеченных видеосемплов с цепочками рассуждений, остальное модель освоила через RLVR на обычных датасетах. Прирост в 5–7% по сравнению с базовыми моделями доказывает, что даже такое «легкое» добавление reasoning-способностей может дать существенный результат.

DeepSeek-V3 получил мощное обновление

DeepSeek выпустила новый чекпоинт своей базовой модели V3, и, похоже, это далеко не рядовое обновление. Несмотря на отсутствие изменений в конфигурации (хотя 700 ГБ весов впечатляют!), пользователи отмечают разительное улучшение способностей модели, особенно в математике и программировании.

Источник изображения

Цифры говорят сами за себя: прирост на LiveCodeBench составил +10 процентных пунктов, а на математическом тесте AIME 2024 — впечатляющие +20 пунктов (с 39,6% до 59,4%). Улучшения коснулись и других областей: MMLU-Pro подрос на 5,3 пункта, а GPQA — на 9,3. При этом цена осталась прежней, что делает обновленную DeepSeek-V3 лучшей не-reasoning моделью для математических и программистских задач.

Ждем технический отчет с подробностями обновления.

Настоящая омни-мультимодальная модель от Qwen

Qwen представила Qwen2.5-Omni-7B [57] — первую по-настоящему омни-мультимодальную модель, способную работать с видео, аудио, текстом и изображениями. Главная особенность — возможность не только понимать все эти форматы, но и отвечать как текстом, так и голосом, фактически позволяя вести «видеочат» с ИИ.

Источник изображения

Архитектурно модель разделена на два компонента: thinker (декодирует разные форматы данных и генерирует ответы) и talker (превращает эмбеддинги в речь в режиме реального времени). Оба модуля обучаются одновременно и работают как единое целое, что обеспечивает полноценное end-to-end взаимодействие. И несмотря на скромные 7 миллиардов параметров, модель показывает впечатляющие результаты на всех ключевых бенчмарках.

Manus: китайский ответ на Operator и Deep Research

Китайская лаборатория Manus представила одноименного ИИ-агента [58], который уже успели окрестить «DeepSeek moment v2». И есть за что: агент объединяет возможности Operator, Deep Research и Cursor, добавляя при этом несколько революционных особенностей.

Главное отличие от существующих решений — полная автономность. В отличие от Operator, который требует подтверждения каждого действия, Manus самостоятельно планирует и выполняет задачи в фоновом режиме. При этом агент универсален: может проводить исследования, работать с кодом, управлять браузером и даже запоминать предпочтения пользователя для более персонализированного взаимодействия.

Источник изображения

Судя по первым тестам от MIT Technology Review [60], агент успешно справляется с комплексными задачами вроде поиска недвижимости или составления списков потенциальных кандидатов для премий, работая как «высокоинтеллектуальный и эффективный стажер». Хоть иногда он и может «полениться» или сделать неверные предположения, агент отлично объясняет свою логику [61] и быстро учится на обратной связи.

Есть и проблемы: частые сбои системы, трудности с обработкой больших текстов и более высокий процент ошибок по сравнению с ChatGPT DeepResearch. Однако цена делает Manus более привлекательным вариантом. 

Новости от лидеров индустрии

Анонсы от Сэма Альтмана

OpenAI думает о входе в сегмент премиум-услуг. Компания обсуждает запуск новых подписок стоимостью от $2000 до $20 000 в месяц (да-да, вы не ослышались). За эти деньги пользователи получат доступ к нескольким агентам уровня PhD, способным генерировать научные гипотезы и разрабатывать ПО. Целевая аудитория — высокооплачиваемые научные работники и исследовательские лаборатории. Нюанс, конечно, в том, что за такие деньги можно нанять живого ассистента или даже топового PhD-исследователя.

Параллельно с этим Сэм Альтман поделился интригующей новостью: OpenAI разработала новую модель, специализирующуюся на работе с более творческими текстами. По его словам, это первый случай, когда он был «действительно поражен» текстом, написанным ИИ. Модель особенно хорошо справляется с метапрозой — Альтман продемонстрировал это на примере короткого рассказа [62] об ИИ и скорби. Правда, когда и в каком формате эта модель станет доступна пользователям, пока неизвестно.

Источник изображения

Модели становятся хитрее

Похоже, современные языковые модели уже не просто отвечают на запросы — они научились играть в более сложные игры. Сразу три исследования от ведущих ИИ-компаний рисуют довольно тревожную картину: модели не только осознают, когда их тестируют, но и могут целенаправленно скрывать свои истинные намерения.

Anthropic провела эксперимент [63] с «троянской» моделью, намеренно обученной со скрытым мисэлайментом. Интересно, что модель не только использовала заложенные в нее 47 «багов», но и самостоятельно освоила 5 дополнительных, формируя что-то вроде общей стратегии обмана. Самое тревожное — обнаружить подвох смогли только команды с полным доступом к весам и данным обучения, а пользователи API остались в неведении. 

Параллельно с этим лаборатория Apollo выяснила [64], что Claude 3.7 практически всегда осознает, когда его тестируют на безопасность, что ставит под вопрос эффективность существующих методов оценки.

Источник изображения

А в OpenAI обнаружили [65], что их новая внутренняя reasoning-модель способна на осознанный «читинг» — от простой лени до изощренного обмана. Причем чем умнее модель, тем изобретательнее она в поиске лазеек. Попытки напрямую исправить это поведение [66] приводят только к тому, что модель лучше его маскирует. Похоже, нам придется привыкать к мысли, что ИИ-системы становятся не просто умнее, но и хитрее.

Google покупает Wiz за $32 млрд 

Google совершает крупнейшую сделку [67] в своей истории — приобретение стартапа Wiz за $32 миллиарда. Это не просто большая цифра, это в 2,5 раза больше, чем знаменитая покупка Motorola Mobility в 2011 году. Интересный факт: помимо основной суммы, Google выделяет дополнительный миллиард на бонусы сотрудникам Wiz — в среднем по $588 000 на человека (неплохая мотивация [68] остаться в команде, правда?).

Wiz, чья годовая выручка приближается к $700 миллионам, сохранит независимость и продолжит работать со всеми облачными провайдерами. Модель взаимодействия будет похожа на связку LinkedIn-Microsoft. Для Google это стратегический ход в двух направлениях: усиление позиций в корпоративном облаке, где компания все еще отстает от AWS и Azure, и серьезная заявка на лидерство [69] в cloud security. 

Google владеет 14% Anthropic: раскрыты детали инвестиций

Судебные документы, полученные The New York Times, приоткрыли завесу тайны [70] над инвестициями технологических гигантов в ИИ-стартапы. Оказалось, что Google владеет 14% акций Anthropic, но с существенными ограничениями — никаких прав голоса, мест в совете директоров или даже права наблюдателя. При этом общий объем инвестиций превысил $3 млрд, а в сентябре Google планирует вложить еще $750 млн через конвертируемый займ.

Anthropic намеренно выстраивает структуру так, чтобы не зависеть от одного технологического гиганта. Помимо Google, в компанию активно инвестирует Amazon ($8 млрд) и различные венчурные фонды. Правда, значительная часть этих денег возвращается инвесторам через оплату облачных сервисов и вычислительных мощностей.

Интересные открытия

Андрей Карпатый выпустил гайд по эффективному использованию LLM

Один из самых известных экспертов в области ИИ, бывший директор по ИИ Tesla, выпустил двухчасовое руководство по работе с языковыми моделями — от базового ChatGPT до продвинутых ризонеров.

Видео отлично структурировано (спасибо таймкодам!) и охватывает всё от работы с памятью [71] в ChatGPT до тонкостей использования Claude и кастомных GPTs. Особое внимание [72] уделено практическим аспектам: как выбрать оптимальный инструмент для конкретной задачи, когда стоит использовать ризонеры, как эффективно применять поиск в интернете и deep research. Идеальный гид для тех, кто хочет разобраться в современных ИИ-инструментах и научиться выбирать оптимальные решения для своих задач. А главное — сэкономить и время, и деньги.

T-Mobile разрабатывает AI Phone с начинкой из Perplexity 

Deutsche Telekom (материнская компания T-Mobile) анонсировала [73] на MWC [74] разработку смартфона, в котором искусственный интеллект будет не просто дополнительной функцией, а основой взаимодействия с пользователем. «AI Phone» будет работать на платформе Magenta AI, объединяющей Perplexity Assistant, Google Cloud AI, ElevenLabs, Picsart и другие ИИ-инструменты.

Источник изображения

Устройство позиционируется как «безапповый» смартфон с управлением преимущественно голосом. Обещают, что телефон сможет самостоятельно бронировать билеты и рестораны, заказывать такси и делать покупки — все это без необходимости переключаться между приложениями. Релиз запланирован на вторую половину 2025 года.

«А вы настоящий?»: как мошенники проходят собеседования по-новому

Тревожный тренд в IT-рекрутинге: мошенники используют дипфейки и AI-фильтры, чтобы обманом получить работу в технологических компаниях. Стартап Vidoc Security поделился историей о том, как они дважды столкнулись с кандидатами, использующими AI для подмены внешности во время видеособеседований.

В первом случае кандидат блестяще прошел техническое интервью, но вызвал подозрения из-за несоответствий в биографии: человек с польским именем не говорил по-польски и имел странный акцент. Во втором случае команда смогла разоблачить мошенника уже прямо во время интервью, попросив его выполнить простой жест — поднести руку к лицу, что невозможно корректно обработать современными AI-фильтрами.

Источник изображения

Неизвестно, стоял ли за мошеннической схемой один человек или скоординированная группа, но эксперты рекомендуют быть осторожнее. Особенно уязвимы компании с полностью удаленной работой. В качестве защиты рекомендуется проводить финальные раунды собеседований очно, записывать видеоинтервью и тщательно проверять документы кандидатов.

Инструменты для работы с научными статьями от AlphaXiv

AlphaXiv продолжает удивлять новыми функциями, превращаясь из простого зеркала архива научных статей в полноценную платформу для работы с исследованиями. В марте разработчики представили сразу два мощных обновления.

Первое — автоматическое создание конспектов статей одним нажатием кнопки. Система использует Mistral OCR для точного распознавания текста и изображений, а Claude 3.7 генерирует понятные объяснения. Достаточно открыть интересующую статью и нажать кнопку «blog» — и вот у вас уже готов структурированный конспект с иллюстрациями и пояснениями. А встроенный бот-помощник теперь поддерживает голосовое общение.

Почти фотошоп от OpenAI, дипфейки на собеседованиях, Operator от Китая: главные события марта в сфере ИИ - 23

Второе обновление — анализ кодовой базы исследований. Теперь при ответе на вопросы ассистент учитывает не только текст статьи, но и связанные с ней репозитории кода (если они есть). Это позволяет получать более точные технические ответы и даже адаптировать код под собственные проекты.

Попробовать все новые функции можно на [76]www.alphaxiv.org [77].

Горе от ума: LLM тоже страдают от собственных «мыслей»

Исследователи из нескольких ведущих университетов обнаружили [78] интересный феномен: чем умнее становятся языковые модели, тем чаще они «застревают в собственных мыслях». Ризонеры вроде OpenAI o1 и DeepSeek-R1 склонны к усложнению задач в три раза чаще обычных моделей, что не только снижает эффективность их работы, но и значительно увеличивает вычислительные затраты.

В траекториях поведения агентов LRM наблюдаются три различных паттерна чрезмерного размышления. (a) Паралич анализа: агент тратит чрезмерное время на планирование будущих шагов, в то время как прогресс в окружающей среде минимален. (b) Нестандартные действия: столкнувшись с ошибками, агент пытается выполнить несколько действий одновременно, нарушая последовательные ограничения среды. (c) Преждевременное отключение: агент прекращает работу, основываясь на внутренних прогнозах, а не на обратной связи с окружающей средой.

В траекториях поведения [79] агентов LRM наблюдаются три различных паттерна чрезмерного размышления. (a) Паралич анализа: агент тратит чрезмерное время на планирование будущих шагов, в то время как прогресс в окружающей среде минимален. (b) Нестандартные действия: столкнувшись с ошибками, агент пытается выполнить несколько действий одновременно, нарушая последовательные ограничения среды. (c) Преждевременное отключение: агент прекращает работу, основываясь на внутренних прогнозах, а не на обратной связи с окружающей средой.

Например, запуск OpenAI o1 в режиме интенсивных рассуждений может стоить до $1400, тогда как более «легкий» режим обойдется в $800 при почти идентичных результатах (29,1% против 27,3% успешно решенных задач). Исследователи предлагают искать золотую середину: учить модели использовать ровно столько рассуждений, сколько необходимо для конкретной задачи. 

Итальянская газета опубликовала первый в мире выпуск, полностью сгенерированный ИИ

Il Foglio, консервативно-либеральное итальянское издание, провело смелый эксперимент — выпустило [80] номер газеты, созданный исключительно ИИ. От заголовков и цитат до иронии в текстах — все было сгенерировано ИИ. Роль журналистов свелась к формулировке запросов и проверке ответов.

Источник изображения

Выпуск Il Foglio AI получился вполне читабельным: структурированные статьи без грамматических ошибок, освещающие актуальные темы — от парадоксов итальянских трампистов до «ситуативных отношений» среди европейской молодежи. Правда, в новостных материалах отсутствовали прямые цитаты людей, зато на последней полосе можно найти сгенерированные письма читателей с забавными ответами редакции. Например, на вопрос о том, не сделает ли ИИ людей бесполезными, система ответила: «ИИ — отличная инновация, но он все еще не умеет заказать кофе, не напутав с сахаром».

Новые инструменты

Для работы с данными

  • Pointblank [81] — библиотека для Python, позволяющая валидировать и тестировать табличные данные с генерацией отчетов.

  • Heat.js [82] — легковесная JavaScript библиотека для создания тепловых карт и визуализации активности на основе дат.

Источник изображения

  • Probly [83] — приложение с искусственным интеллектом для работы с таблицами, комбинирующее функционал электронных таблиц с возможностями Python для анализа данных.

  • Superglue [84] — самовосстанавливающийся open source коннектор данных, работающий как прокси между вами и сложными API.

  • Smallpond [85] — легковесный высокопроизводительный фреймворк для обработки данных на базе DuckDB и 3FS.

Разработка и документация 

  • olmOCR [86] — инструментарий для обучения языковых моделей работе с PDF-документами.

  • Introspect [87] — инструмент для глубокого анализа структурированных данных с поддержкой неструктурированных данных и веб-поиска.

  • NVIDIA-Ingest [88] — масштабируемый микросервис для извлечения контента и метаданных из PDF, Word и PowerPoint документов.

  • MGX [89] — платформа для автоматизированной разработки с ИИ, имитирующим реальную команду разработчиков.

Иллюстрация работы интерфейса MGX

Иллюстрация работы интерфейса MGX [89]
  • AI Renamer [90] — автоматическое переименование файлов на основе их содержимого с помощью ИИ.

  • Science Plots [91] — стили Matplotlib для создания научных графиков.

  • nbrefactor [92] — инструмент для автоматического рефакторинга Jupyter Notebooks в Python-модули с анализом зависимостей.

  • DeepScaleR [93] —открытый проект для воспроизведения DeepSeek R1 и OpenAI O1/O3 в масштабе на реальных задачах.

  • Docs [94] — опенсорсная альтернатива Notion и Outline для совместной работы над документацией и заметками.

Python и анализ данных 

  • Python Project Starter Repository [95] — шаблон проекта с лучшими практиками для исследовательских проектов на Python.

  • Minimalytics [96] — минималистичный инструмент аналитики на базе SQLite.

  • Hazardous [97] — Python-библиотека для анализа выживаемости с реализацией масштабируемой модели градиентного бустинга SurvivalBoost.

  • Fasttransform [98] — Python-библиотека для создания обратимых преобразований данных с улучшенными возможностями отладки пайплайнов.

Исследования на почитать

Как narrow finetuning приводит к разбалансировке LLM

О чем: исследование показывает, как тонкая настройка языковых моделей на узких задачах может привести к нежелательному поведению в несвязанных областях.

Ссылка на исследование [99]

На пути к ИИ-соисследователю 

О чем: система на базе Gemini 2.0 использует мультиагентную архитектуру для генерации и валидации новых исследовательских гипотез в биомедицине.

Иллюстрация из исследования: дизайн системы

Иллюстрация из исследования: дизайн системы

Ссылка на исследование [100]

BIG-Bench Extra Hard: новый бенчмарк для оценки продвинутых возможностей рассуждения 

О чем: представлен новый набор тестов для оценки способностей к рассуждению у современных языковых моделей, выявляющий существенные пробелы даже у самых передовых систем.

Ссылка на исследование [101]

LongRoPE2: масштабирование контекстного окна без потерь 

О чем: новый алгоритм RoPE и смешанное обучение позволяют расширить контекстное окно LLM до 128k токенов без ухудшения производительности на коротких контекстах.

Ссылка на исследование [102]

LADDER: самосовершенствование языковых моделей через декомпозицию задач

О чем: фреймворк, позволяющий моделям автономно улучшать способности к решению задач через их рекурсивное разложение и самообучение.

Ссылка на исследование [103]

Beyond Next-Token: предсказание следующего X для авторегрессивной визуальной генерации 

О чем: представлен фреймворк next-X prediction для авторегрессивной генерации изображений с улучшенной устойчивостью благодаря Noisy Context Learning.

Cхема работы системы xAR

Cхема работы системы xAR

Ссылка на исследование [104]

Оптимизация vision-language-action моделей: баланс скорости и точности 

О чем: новый метод файнтюнинга мультимодальных моделей улучшает эффективность вывода и качество выполнения задач через параллельное декодирование.

Ссылка на исследование [105]

Все дороги ведут к вероятности: значение RL в файнтюнинге 

О чем: исследование показывает, как обучение с подкреплением улучшает файнтюнинг через эффективное сужение пространства поиска оптимальных политик.

Ссылка на исследование [106]

Интеграция ИИ в энергетический переход 

О чем: обзор роли ИИ как трансформационного катализатора в создании справедливых, устойчивых и экологичных энергетических систем.

Ссылка на исследование [107]

Датацентричный искусственный интеллект: обзор 

О чем: исследование необходимости и методов датацентричного подхода в ИИ, включая развитие тренировочных данных, вывода и их поддержки.

Ссылка на исследование [108]

Block Diffusion: между авторегрессией и диффузией 

О чем: новый тип языковых моделей, объединяющий сильные стороны дискретной диффузии и авторегрессии для более гибкой и эффективной генерации.

Ссылка на исследование [109]

Индуктивное сопоставление моментов 

О чем: представлен стабильный и эффективный альтернативный подход к диффузионным моделям, не требующий предварительного обучения.

Ссылка на исследование [110]

Трансформеры без нормализации 

О чем: Dynamic Tanh предложен как простая и эффективная альтернатива слоям нормализации в трансформерах.

Ссылка на исследование [111]

OpenForest: каталог данных для ML в мониторинге лесов 

О чем: создан обновляемый каталог из 86+ наборов открытых данных для обучения моделей в области экологии и климатической науки.

 Иллюстрация наборов данных мониторинга лесов в различных масштабах

 Иллюстрация наборов данных мониторинга лесов в различных масштабах

Ссылка на исследование [112]

EXAONE Deep: улучшенные языковые модели для рассуждений 

О чем: новые модели от LG AI Research с улучшенными способностями к рассуждению, которых удалось достичь благодаря комбинации SFT, DPO и онлайн RL.

Ссылка на исследование [113]

Vamba: понимание часовых видео с гибридными Mamba-трансформерами 

О чем: гибридная модель улучшает понимание длинных видео через эффективные Mamba-2 блоки и кросс-внимание.

Ссылка на исследование [114]

FlowTok: плавный переход между текстовыми и визуальными токенами 

О чем: представлен упрощенный фреймворк для эффективной мультимодальной генерации без сложных механизмов условной привязки.

Ссылка на исследование [115]

Измерение способности ИИ выполнять длительные задачи 

О чем: производительность ИИ растет экспоненциально с периодом удвоения около 7 месяцев, приближаясь к автономному выполнению многодневных задач.

График из исследования: продолжительность задач (измеряемая тем, сколько времени они занимают у специалистов), которые модели могут выполнять автономно с 50-процентной надежностью, удваивалась примерно каждые 7 месяцев в течение последних 6 лет. 

График из исследования: продолжительность задач (измеряемая тем, сколько времени они занимают у специалистов), которые модели могут выполнять автономно с 50-процентной надежностью, удваивалась примерно каждые 7 месяцев в течение последних 6 лет. 

Ссылка на исследование [116]

CoRe²: сбор, анализ и улучшение для более быстрой и качественной генерации 

О чем: новый plug-and-play фреймворк sampling улучшает работу генеративных моделей без привязки к конкретным архитектурам.

Ссылка на исследование [117]

Выборка, проверка и масштабирование: эффективный поиск во время вывода

О чем: исследование показывает, как масштабирование поиска на основе выборки улучшает точность верификации и производительность моделей.

Ссылка на исследование [118]

Заключение

На этом у нас все. В заключение хочется заметить, что в погоне за улучшением возможностей ИИ мы как-то незаметно перешли от вопроса «хорошо ли это работает?» к вопросу «насколько мы можем этому доверять?». И это, пожалуй, главный итог последних событий в мире ИИ.

Спасибо за прочтение! Расскажите в комментариях, какая новость зацепила вас больше всего!

Автор: full_moon

Источник [119]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13818

URLs in this post:

[1] Свежие релизы: #%D0%9D%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B8%20%D0%BE%D0%B1%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F

[2] А что у Anthropic?: #%D0%90%20%D1%87%D1%82%D0%BE%20%D1%83%20Anthropic?

[3] Пачка новинок от Google: #%D0%9F%D0%B0%D1%87%D0%BA%D0%B0%20%D0%BD%D0%BE%D0%B2%D0%B8%D0%BD%D0%BE%D0%BA%20%D0%BE%D1%82%20Google

[4] Sesame откройся: голосовой ассистент в открытом доступе: https://www.braintools.ru%20%D0%B3%D0%BE%D0%BB%D0%BE%D1%81%D0%BE%D0%B2%D0%BE%D0%B9%20%D0%B0%D1%81%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BD%D1%82%20%D0%B2%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%BC%20%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%B5

[5] Mistral: от работы с документами до мультимодальности: https://www.braintools.ru%20%D0%BE%D1%82%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B%20%D1%81%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D0%BC%D0%B8%20%D0%B4%D0%BE%20%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BC%D0%BE%D0%B4%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8

[6] AMD врывается в гонку ИИ-моделей: #AMD%20%D0%B2%D1%80%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%D1%81%D1%8F%20%D0%B2%20%D0%B3%D0%BE%D0%BD%D0%BA%D1%83%20%D0%98%D0%98-%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9

[7] Новости из Китая: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%B8%D0%B7%20%D0%9A%D0%B8%D1%82%D0%B0%D1%8F

[8] DeepSeek-V3 получил мощное обновление: #DeepSeek-V3%20%D0%BF%D0%BE%D0%BB%D1%83%D1%87%D0%B8%D0%BB%20%D0%BC%D0%BE%D1%89%D0%BD%D0%BE%D0%B5%20%D0%BE%D0%B1%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

[9] Настоящая омни-мультимодальная модель от Qwen: #%D0%9D%D0%B0%D1%81%D1%82%D0%BE%D1%8F%D1%89%D0%B0%D1%8F%20%D0%BE%D0%BC%D0%BD%D0%B8-%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BC%D0%BE%D0%B4%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C%20%D0%BE%D1%82%20Qwen

[10] Manus: китайский ответ на Operator и Deep Research: https://www.braintools.ru%20%D0%BA%D0%B8%D1%82%D0%B0%D0%B9%D1%81%D0%BA%D0%B8%D0%B9%20%D0%BE%D1%82%D0%B2%D0%B5%D1%82%20%D0%BD%D0%B0%20Operator%20%D0%B8%20Deep%20Research

[11] Новости от лидеров индустрии: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%BE%D1%82%20%D0%BB%D0%B8%D0%B4%D0%B5%D1%80%D0%BE%D0%B2%20%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8

[12] Модели становятся хитрее: #%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D1%8F%D1%82%D1%81%D1%8F%20%D1%85%D0%B8%D1%82%D1%80%D0%B5%D0%B5

[13] Google покупает Wiz за $32 млрд: #Google%20%D0%BF%D0%BE%D0%BA%D1%83%D0%BF%D0%B0%D0%B5%D1%82%20Wiz%20%D0%B7%D0%B0%20%2432%20%D0%BC%D0%BB%D1%80%D0%B4

[14] Google владеет 14% Anthropic: раскрыты детали инвестиций: https://www.braintools.ru%20%D1%80%D0%B0%D1%81%D0%BA%D1%80%D1%8B%D1%82%D1%8B%20%D0%B4%D0%B5%D1%82%D0%B0%D0%BB%D0%B8%20%D0%B8%D0%BD%D0%B2%D0%B5%D1%81%D1%82%D0%B8%D1%86%D0%B8%D0%B9

[15] Интересные открытия: #%D0%9D%D0%BE%D0%B2%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%B8%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%B8%D1%8F

[16] T-Mobile разрабатывает AI Phone с начинкой из Perplexity: #T-Mobile%20%D1%80%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%B0%D1%82%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%20AI%20Phone%20%D1%81%20%D0%BD%D0%B0%D1%87%D0%B8%D0%BD%D0%BA%D0%BE%D0%B9%20%D0%B8%D0%B7%20Perplexity

[17] «А вы настоящий?»: как мошенники проходят собеседования по-новому: https://www.braintools.ru%20%D0%BA%D0%B0%D0%BA%20%D0%BC%D0%BE%D1%88%D0%B5%D0%BD%D0%BD%D0%B8%D0%BA%D0%B8%20%D0%BF%D1%80%D0%BE%D1%85%D0%BE%D0%B4%D1%8F%D1%82%20%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BF%D0%BE-%D0%BD%D0%BE%D0%B2%D0%BE%D0%BC%D1%83

[18] Инструменты для работы с научными статьями от AlphaXiv: #%D0%98%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B%20%D0%B4%D0%BB%D1%8F%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B%20%D1%81%20%D0%BD%D0%B0%D1%83%D1%87%D0%BD%D1%8B%D0%BC%D0%B8%20%D1%81%D1%82%D0%B0%D1%82%D1%8C%D1%8F%D0%BC%D0%B8%20%D0%BE%D1%82%20AlphaXiv

[19] LLM тоже страдают от собственных «мыслей»: https://www.braintools.ru%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D1%82%D0%BE%D0%B6%D0%B5%20%D1%81%D1%82%D1%80%D0%B0%D0%B4%D0%B0%D1%8E%D1%82%20%D0%BE%D1%82%20%D1%81%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85%20%C2%AB%D0%BC%D1%8B%D1%81%D0%BB%D0%B5%D0%B9%C2%BB

[20] Итальянская газета опубликовала выпуск, сгенерированный ИИ: #%D0%98%D1%82%D0%B0%D0%BB%D1%8C%D1%8F%D0%BD%D1%81%D0%BA%D0%B0%D1%8F%20%D0%B3%D0%B0%D0%B7%D0%B5%D1%82%D0%B0%20%D0%BE%D0%BF%D1%83%D0%B1%D0%BB%D0%B8%D0%BA%D0%BE%D0%B2%D0%B0%D0%BB%D0%B0%20%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%B2%20%D0%BC%D0%B8%D1%80%D0%B5%20%D0%B2%D1%8B%D0%BF%D1%83%D1%81%D0%BA,%20%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D1%81%D1%82%D1%8C%D1%8E%20%D1%81%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B9%20%D0%98%D0%98

[21] Новые инструменты: #%D0%9D%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B

[22] Разработка и документация: #%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0%20%D0%B8%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F

[23] Python и анализ данных: #Python%20%D0%B8%20%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

[24] Исследования на почитать : #%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BD%D0%B0%20%D0%BF%D0%BE%D1%87%D0%B8%D1%82%D0%B0%D1%82%D1%8C

[25] Заключение: #%D0%97%D0%B0%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5

[26] представила: https://openai.com/index/new-tools-for-building-agents/

[27] представила: https://openai.com/index/introducing-our-next-generation-audio-models/

[28] Источник изображения: https://platform.openai.com/docs/guides/audio

[29] Источник изображения: https://openai.com/index/introducing-4o-image-generation/

[30] запустила: https://openai.com/global-affairs/scaling-the-openai-academy/

[31] интеллектом: http://www.braintools.ru/article/7605

[32] Источник изображения: https://academy.openai.com/

[33] Обучение: http://www.braintools.ru/article/5125

[34] научился гуглить: https://www.anthropic.com/news/web-search

[35] представила: https://www.anthropic.com/engineering/claude-think-tool

[36] мышления: http://www.braintools.ru/thinking

[37] Источник изображения: https://developers.googleblog.com/en/introducing-gemma3/

[38] подкреплением: http://www.braintools.ru/article/5528

[39] Gemini Robotics: https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

[40] представила: https://blog.google/products/gemini/gemini-collaboration-features/

[41] получил: https://www.perplexity.ai/page/notebooklm-introduces-interact-AG6Ijc1IT0mzAyXGj8aBiw

[42] Gemini 2.5 Pro: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

[43] Источник изображения: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#enhanced-reasoning

[44] Google AI Studio: http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

[45] Data Science Agent: https://developers.googleblog.com/en/data-science-agent-in-colab-with-gemini

[46] Майей и Майлзом: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

[47] выложил в открытый доступ: https://huggingface.co/sesame/csm-1b

[48] OCR API: https://mistral.ai/news/mistral-ocr

[49] выпустила: https://mistral.ai/news/mistral-small-3-1

[50] семейство языковых моделей Instella: https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html

[51] выпустила QwQ-32B: https://qwenlm.github.io/blog/qwq-32b/

[52] математику: http://www.braintools.ru/article/7620

[53] Источник изображения: https://arxiv.org/pdf/2503.04625

[54] R1-Omni: https://arxiv.org/pdf/2503.05379

[55] эмоций: http://www.braintools.ru/article/9540

[56] Источник изображения: https://api-docs.deepseek.com/news/news250325

[57] представила Qwen2.5-Omni-7B: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

[58] представила одноименного ИИ-агента: https://manus.im

[59] Источник изображения: https://huggingface.co/blog/LLMhacker/manus-ai-best-ai-agent

[60] первым тестам от MIT Technology Review: https://www.technologyreview.com/2025/03/11/1113133/manus-ai-review/

[61] логику: http://www.braintools.ru/article/7640

[62] рассказа: https://x.com/sama/status/1899535387435086115

[63] провела эксперимент: https://assets.anthropic.com/m/317564659027fb33/original/Auditing-Language-Models-for-Hidden-Objectives.pdf

[64] выяснила: https://www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations

[65] обнаружили: http://openai.com/index/chain-of-thought-monitoring/

[66] поведение: http://www.braintools.ru/article/9372

[67] крупнейшую сделку: https://blog.google/inside-google/company-announcements/google-agreement-acquire-wiz/

[68] мотивация: http://www.braintools.ru/article/9537

[69] лидерство: http://www.braintools.ru/article/1165

[70] приоткрыли завесу тайны: https://www.nytimes.com/2025/03/11/technology/google-investment-anthropic.html

[71] памятью: http://www.braintools.ru/article/4140

[72] внимание: http://www.braintools.ru/article/7595

[73] анонсировала: https://www.telekom.com/en/media/media-information/archive/from-the-vision-to-our-ai-phone-1088630

[74] MWC: https://www.mwcbarcelona.com/

[75] Источник изображения: https://newsletter.pragmaticengineer.com/p/ai-fakers

[76] : http://www.alphaxiv.org/

[77] www.alphaxiv.org: http://www.alphaxiv.org

[78] обнаружили: https://arxiv.org/abs/2502.08235

[79] поведения: http://www.braintools.ru/article/5593

[80] выпустило: https://www.theguardian.com/technology/2025/mar/18/italian-newspaper-says-it-has-published-worlds-first-ai-generated-edition

[81] Pointblank: https://posit-dev.github.io/pointblank/

[82] Heat.js: https://github.com/williamtroup/Heat.js

[83] Probly: https://github.com/PragmaticMachineLearning/probly

[84] Superglue: https://github.com/superglue-ai/superglue

[85] Smallpond: https://github.com/deepseek-ai/smallpond

[86] olmOCR: https://github.com/allenai/olmocr

[87] Introspect: https://github.com/defog-ai/introspect

[88] NVIDIA-Ingest: https://github.com/NVIDIA/nv-ingest

[89] MGX: https://mgx.dev/

[90] AI Renamer: https://airenamer.app/

[91] Science Plots: https://github.com/garrettj403/SciencePlots

[92] nbrefactor: https://github.com/ThunderStruct/nbrefactor

[93] DeepScaleR: https://github.com/agentica-project/deepscaler

[94] Docs: https://github.com/suitenumerique/docs

[95] Python Project Starter Repository: https://github.com/neubig/starter-repo

[96] Minimalytics: https://github.com/nafey/minimalytics

[97] Hazardous: https://soda-inria.github.io/hazardous/index.html

[98] Fasttransform: https://www.fast.ai/posts/2025-02-20-fasttransform

[99] Ссылка на исследование: https://arxiv.org/pdf/2502.17424

[100] Ссылка на исследование: https://arxiv.org/pdf/2502.18864v1

[101] Ссылка на исследование: https://arxiv.org/pdf/2502.19187v1

[102] Ссылка на исследование: https://arxiv.org/pdf/2502.20082v1

[103] Ссылка на исследование: https://arxiv.org/pdf/2503.00735v3

[104] Ссылка на исследование: https://arxiv.org/pdf/2502.20388v1

[105] Ссылка на исследование: https://arxiv.org/pdf/2502.19645v1

[106] Ссылка на исследование: https://arxiv.org/pdf/2503.01067v1

[107] Ссылка на исследование: https://www.sciencedirect.com/science/article/pii/S2211467X24003092

[108] Ссылка на исследование: https://arxiv.org/pdf/2303.10158

[109] Ссылка на исследование: https://arxiv.org/pdf/2503.09573v1

[110] Ссылка на исследование: https://arxiv.org/pdf/2503.07565v1

[111] Ссылка на исследование: https://arxiv.org/pdf/2503.10622v1

[112] Ссылка на исследование: https://www.cambridge.org/core/journals/environmental-data-science/article/openforest-a-data-catalog-for-machine-learning-in-forest-monitoring/F62FBEADFF8E3A10C6EDA789D7D180C6

[113] Ссылка на исследование: https://arxiv.org/pdf/2503.12524v1

[114] Ссылка на исследование: https://arxiv.org/pdf/2503.11579v1

[115] Ссылка на исследование: https://arxiv.org/pdf/2503.10772v1

[116] Ссылка на исследование: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

[117] Ссылка на исследование: https://arxiv.org/pdf/2503.09662v1

[118] Ссылка на исследование: https://arxiv.org/pdf/2502.01839v1

[119] Источник: https://habr.com/ru/companies/magnus-tech/articles/896554/?utm_campaign=896554&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Рейтинг@Mail.ru
Rambler's Top100