Архивные записи BrainTools за

Локализация данных и рост дата-центров — история тренда

Во многих странах набирает обороты локализация данных и сервисов. Причины разные, включая вопрос безопасности и регулирования. Посмотрим на преимущества и возможные недостатки ситуации, а также на то, как она влияет на рынок облака. Старый новый тренд

продолжить чтение ......

Оставлено в

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано

продолжить чтение ......

Оставлено в

Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей

Мой коллега Никита Габдуллин работает в Отделе перспективных исследований ИТ-компании «Криптонит». Он автор библиотеки Loss Landscape Analysis (LLA) и научной статьи о ней, препринт которой доступен на английском языке. Здесь мы подробнее рассказываем о самой библиотеке, в то время как научная публикация в основном посвящена исследованию разных свойств ландшафтов функций потерь. Также в русскоязычной статье мы допускаем некоторые лингвистические вольности, которые не приняты в академической среде, но упрощают восприятие текста.

продолжить чтение ......

Оставлено в

Вокруг да около ChatGPT: AI-ассистенты, о которых вы могли не слышать

ChatGPT – лишь один из множества инструментов, меняющих подход к работе с текстом. В этой статье мы разберем его альтернативы, а заодно расскажем, как искусственный интеллект помогает ускорять создание контента и оптимизировать управление знаниями в системе Документерра. Если вам интересны практичные AI-решения и их применение в реальных задачах, эта статья для вас. source:

продолжить чтение ......

Оставлено в

Альтернатива приказу ФСТЭК №17: зачем она нужна и что изменит

ФСТЭК представила для финального обсуждения проект приказа «Об утверждении Требований о защите информации, содержащейся в государственных информационных системах, иных информационных системах государственных органов, государственных унитарных предприятий, государственных учреждений». Предполагается, что он заменит аналогичный приказ от 2013 года. Разберемся, зачем понадобились эти перемены и как к ним подготовиться.

продолжить чтение ......

Оставлено в

Исследователи из Unsloth сжали DeepSeek R1 на 80% от оригинального размера

Исследователи из компании Unsloth, которая специализируется на обучении и файнтюнинге языковых моделей, сжали нейросеть DeepSeek R1 на 80% от оригинального размера. В итоге языковая модель занимает 131 ГБ вместо 720 ГБ, а запускать её можно на более слабом железе. При этом производительность модели всё ещё остаётся на достаточно высоком уровне.

продолжить чтение ......

Оставлено в

Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов

Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.

продолжить чтение ......

Оставлено в

AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи

Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.

продолжить чтение ......

Оставлено в

Альтернативы ChatGPT на смартфонах без интернета: как установить и использовать локальные языковые модели на iPhone

LLM – это, по сути, ChatGPT без интернетаНесмотря на то, что искусственный интеллект только начал входить в нашу жизнь, он уже перестал быть привилегией супер-компьютеров и облачных платформ. Теперь даже не самые новые iPhone способны нативно запускать продвинутые языковые модели

продолжить чтение ......

Оставлено в

Индустрия искусственного интеллекта в Китае или как зарождался DeepSeek

Индустрия искусственного интеллекта в КитаеКраткий дайджестКонец 1970-х - начало 2010-хКонец 2010-х - начало 2020-хОсновные цели и задачи китайского правительстваДеятельность в военной сфере

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Локализация данных и рост дата-центров — история тренда

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей

Вокруг да около ChatGPT: AI-ассистенты, о которых вы могли не слышать

Альтернатива приказу ФСТЭК №17: зачем она нужна и что изменит

Исследователи из Unsloth сжали DeepSeek R1 на 80% от оригинального размера

Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов

AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи

Альтернативы ChatGPT на смартфонах без интернета: как установить и использовать локальные языковые модели на iPhone

Индустрия искусственного интеллекта в Китае или как зарождался DeepSeek

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов