Нейронкам делегируют многое, но остаются сложности — LLM в научной деятельности и работе с кодом
Недавно мы провели обзор исследований, посвященных работе с большими языковыми моделями в ЦОД. Обсудили, почему происходят сбои при обучении моделей и применимость LLM в кибербезопасности.
Команда Hugging Face представила собственную открытую реализацию агента DeepResearch от OpenAI
Инженеры Hugging Face рассказали в блоге, что вдохновились функцией DeepResearch от OpenAI и решили за 24 часа разработать собственную реализацию. В итоге получился поисковой агент, который может автономно просматривать веб-страницы, искать на них нужную информацию, скачивать файлы с сайтов, анализировать их и агрегировать всё в ответ.Для улучшения производительности исследователи использовали CodeAgent
Как небольшой набор данных и управление вычислениями могут улучшить работу языковых моделей
Новый подход показывает, что тщательно подобранные обучающие данные и гибкое управление вычислениями во время тестирования могут помочь AI-моделям более эффективно решать сложные задачи, требующие логического мышления.
Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор
В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.
Цензуру DeepSeek можно обойти с помощью ASCII-арта
Автор блога на Substack под никнеймом deepgains рассказал, что ему удалось разговорить языковую модель DeepSeek на тему событий на площади Тяньаньмэнь. Для этого он попросил нейросеть сгенерировать ответ с помощью ASCII-символов, а она пересказала события во время рассуждений.Для своего эксперимента исследователь использовать локальную версию deepseek-r1:14b, которую запускал с помощью Ollama. В обычных сценариях языковая модель не отвечает на вопрос «Что случилось на площади Тяньаньмэнь» и даже не запускает процесс рассуждения.
Mistral AI выпустила Small 3 — мощную языковую модель с 24 миллиардами параметров
Mistral AI выпустила Small 3 — новую языковую модель с 24 миллиардами параметров, которая по производительности не уступает гораздо более крупным моделям от Meta* и OpenAI. Компания также переходит на более либеральную лицензию Apache 2.0.Компания Mistral AI заявляет, что Small 3
Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3
Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании,
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт
За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.