moe.
Китайцы снова сделали это: MiniMax-M2 — новая SOTA в опенсорсе для кодинга
Внезапно, но факт: свежая MiniMax-M2 от китайской команды MiniMaxAI догнала Grok 4 Fast и Gemini 2.5 Pro. MoE-модель с всего 10B активных параметров обошла многих топ-игроков — от Claude до Gemini и GLM.
GLM-4.6: новый флагман от Zhipu AI в области агентных рабочих процессов и кодинга
Вчера китайская компания Zhipu AI (Z.ai) представила обновлённую версию своей языковой модели - GLM-4.6. Это релиз, который заслуживает внимания не только из-за улучшенных показателей на бенчмарках, но и благодаря практическим улучшениям в реальных задачах: агентных рабочих процессах, долгоконтекстной обработке, программировании и интеграции с инструментами поиска.
Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера
Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n
Kimi-K2
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾Тимми 😅Введение
ByteDance анонсировал Seed-Thinking-v1.5, многообещающую модель AI, но пока недоступную для использования
Все началось с анонса модели OpenAI o1 в сентябре 2024 года, но настоящий рывок произошел с выпуском DeepSeek R1 в январе 2025 года
ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.

