Автоматизация A-B-экспериментирования
Я сейчас работаю над автоматизированной системой A/B-экспериментирования заголовков и/или обложек статей и новостей на одной медиа-платформе в одиночку. Решил рассказать вам, как эта система работает и показать некоторые технические нюансы. Сразу оговорюсь, что название и сферу упоминать не стану, система находится в разработке, но есть, что рассказать.Немного об экспериментах
Технологический скепсис: как отличить настоящие научные открытия от хайпа в IT
Каждый год мы слышим о «революциях» в IT: то квантовый компьютер «сломает» криптографию, то новый фреймворк «убьёт» всех конкурентов, то искусственный интеллект уже «почти человек». Но где проходит граница между настоящим научным прорывом и маркетинговым шумом? В статье попробуем разобраться, как развивать здоровый скепсис, не впадая в цинизм, и чем нам, инженерам, он может помочь в работе.
HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах
Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.
Code Review с помощью ИИ: замена лиду или помощь стажёру?
Привет, Хабр!Последние пару лет часто возникает вопрос: «А может ли ИИ заменить тимлида на code review?»
GLM-4.6 уже доступна в плагине Koda для VS Code. Можно попробовать бесплатно
Вчера GLM выпустили очередное обновление своей флагманской модели. Что завезли:Контекстное окно выросло до 200k токенов.Обещают, что кодинг стал быстрее и точнее. По крайней мере в бенчмарках.Больше «агентности» — модель умнее пользуется инструментами, анализирует и выводы делает без растраты лишних токенов.GLM-4.6 бьет по метрикам DeepSeek-V3.1-Terminus и даже Claude Sonnet 4.
Первые 48 часов Claude Sonnet 4.5 — анализ отзывов разработчиков и выявленных проблем
Вчера вечером Anthropic представила Claude Sonnet 4.5
Вышло публичное превью GitHub Copilot CLI
Команда GitHub запустила публичное превью утилиты GitHub Copilot CLI. С её помощью разработчики могут управлять ИИ-агентами и настраивать MCP через терминал.Возможности GitHub Copilot CLI:Работа в терминале.
Создание умных AI-агентов: полный курс по LangGraph от А до Я. Часть 3. Даём ИИ руки: работа с инструментами и MCP
В предыдущих частях мы создали умных агентов с памятью и мультимодельными системами. Но есть проблема — они всё ещё умные болтуны.Критическое ограничение: агенты без рукНаши агенты могут анализировать, классифицировать и синтезировать ответы, но НЕ МОГУТ:Зайти в базу данных за информациейПрочитать файл с дискаСделать HTTP-запрос к APIСоздать отчёт и сохранить егоОтправить email или выполнить git commit

