ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста
Компания OpenAI представила новое семейство моделей GPT-4.1 с впечатляющими улучшениями в области программирования, следования инструкциям и работы с длинным контекстом. Рассмотрим ключевые особенности новинок и их преимущества для разработчиков.P.S кратко написал об этом в Телеграм канале, cсылка на постТри модели для разных задачOpenAI выпустила сразу три модели: флагманскую GPT-4.1, более компактную GPT-4.1 mini и сверхлегкую GPT-4.1 nano
Как работает Трансформер: очень простое описание
Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста.Как вы, вероятно, знаете, LLM — это всего лишь статистический предсказатель следующего слова в предложении на основе предыдущих. По крайней мере, такое предсказание и является целью обучения, хотя возникающие в процессе способности модели выходят далеко за рамки простого предсказания токенов.Например, если LLM видит: «The dog sits on the …», она продолжит: «… floor».
Нейросетевой подход для классификации событий отслеживаемых сверхширокополосным радаром
В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 ". Моя работа основана на публикации " UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors
Твой ИИ тебя понимает? Разбираем тайны внутреннего мира языковых моделей
Современные крупные языковые модели, такие как ChatGPT, Claude или Gemini, поражают своими возможностями. Но главный вопрос остаётся открытым: как именно они думают?
Клон ChatGPT в 3000 байтах на C, основанный на GPT-2
Эта программа представляет собой свободную от зависимостей реализацию GPT-2. Она загружает матрицу весов и файл BPE из оригинальных файлов TensorFlow, токенизирует вывод при помощи простого энкодера, работающего по принципу частотного кодирования, реализует базовый пакет для линейной алгебры, в котором заключены математические операции над матрицами, определяет архитектуру трансформера, выполняет инференс трансформера, а затем очищает вывод от токенов при помощи BPE-декодера. Всё это — примерно в 3000 байт на C.
Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM
Все современные LLM построены на архитектуре трансформера. GPT-4o от OpenAI, Gemini от Google, Claude Sonet от Anthropic, Grok от xAI... перечислять можно долго. Трансформер – действительно очень мощная архитектура (и кстати тоже была придумала в Google), но и в ней есть свои недостатки.