llm. - страница 3

llm.

Гибридный подход к контексту: как сделать LLM-агентов быстрее и дешевле

Команда AI for Devs подготовила перевод статьи о том, как AI-агенты на базе LLM тратят лишние деньги из-за разрастающегося контекста и как простое маскирование наблюдений нередко работает лучше сложного LLM-суммирования. Авторы предлагают гибридный метод, который делает агентов дешевле и надёжнее без дообучения модели.

продолжить чтение

Почему токсичные эксперты больше никому не нужны — и при чём тут ИИ

ВступлениеЕсли вспомнить профессиональные чаты, форумы и тот же Stack Overflow нескольких лет назад, легко представить типичную сцену: новичок спрашивает, почему не работает скрипт, а в ответ слышит набор знакомых реплик — «читай документацию», «это очевидно», «ты вообще код видел?». И это ещё мягкая версия. Тогда информация была распределена неравномерно, документация — фрагментированной, и получение помощи зависело от настроения тех, кто был готов объяснять. Эксперт — даже токсичный — оставался ключевым источником знаний.

продолжить чтение

Фактчекинг за $0.09: GPT-5-mini + Perplexity sonar-pro в продакшене

Новости противоречат друг другу. Один источник пишет «завод встал», второй — «встала первая линия», третий копипастит статью двухлетней давности. Когда через твой пайплайн проходят сотни таких новостей в сутки, ручная верификация перестаёт масштабироваться.Мы столкнулись с этим при построении новостного пайплайна StatCar — нишевого СМИ об автомобилях. Стандартные LLM не подходят — их знания устаревают на момент обучения. Вариант «LLM + web_search tool» рассматривали, но отказались: дороже и менее эффективно. Perplexity заточен под поиск — это его core competency.

продолжить чтение

Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)

Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальнос��и его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки, а теперь настал черед уровня данных, который оказался для нас минным полем.

продолжить чтение

Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

продолжить чтение

Бенчмарк конца эпохи — Humanity’s Last Exam

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)

продолжить чтение

Вайб-ЛЛМинг. AI агенты теперь сами обучают LLM с помощью Hugging Face Skills

Hugging Face релизнули Skills — Agent Context Protocol (ACP), через который упаковываются определения разных задач для ИИ агентов. По сути — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл  “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. Сама концепция повторяет Claude Skills (о чем Hugging Face открыто заявляет).LLM обучает LLM

продолжить чтение

Claude Opus 4.5: как Anthropic сделала флагманскую модель в 3 раза дешевле и при этом умнее

24 ноября 2025 года Anthropic выстрелила релизом Claude Opus 4.5 — модели, которая переписывает правила игры для всех, кто использует LLM в production. Главная фишка? Цена упала в 3 раза, а качество выросло. Звучит как маркетинг, но цифры говорят сами за себя.Разбираем, что реально изменилось, смотрим независимые бенчмарки и прикидываем, сколько это сэкономит вашей команде.TL;DR для тех, кто спешит 💰 Цена: $5/1M input tokens (было $15) — снижение в 3 раза⚡ Скорость: задачи, на которые уходило 2 часа, решаются за 30 минут🎯 Качество: 80.9% на SWE-bench (лучше GPT-4 и Gemini)🛡️ Безопасность: в 4.6 раза устойчивее к prompt injection, чем GPT-5.1

продолжить чтение

Технический обзор моделей DeepSeek от V3 до V3.2

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский. Эта технически глубокая статья известного исследователя LLM о том, как эволюционировали флагманские модели с открытыми весами от DeepSeek и обзор DeepSeek V3.2.

продолжить чтение

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

В 2025 году retention снова стал главной метрикой рынкаТрафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам.Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».если вы тоже сейчас грустите, глядя на свой retention, — вы не один Давайте разберём, как всё работает в реальности.1. Почему классический retention устарел

продолжить чтение

Rambler's Top100