llm-модели.

Всё, что я узнал о запуске локальных языковых моделей

В мире, где облачные решения диктуют свои правила, локальные модели дают свободу — полную приватность, работу офлайн и отсутствие ограничений. Эта статья для тех, кто хочет впервые попробовать самостоятельно запустить LLM на своем компьютере.

продолжить чтение ......

Оставлено в

Чем Grok лучше ChatGPT: изучаем базовые преимущества нейросети Илона Маска

Grok и правда очень хорош. Grok, разработанный компанией Илона Маска xAI, – относительно новый игрок на рынке чат-ботов. Но довольно быстро стало понятно, что это не просто еще один генеративный ИИ

продолжить чтение ......

Оставлено в

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.1. Самый простой (но не всегда рабочий) способ: через сайт DeepseekПереходим на официальный сайт chat.deepseek.com

продолжить чтение ......

Оставлено в

Telegram бот + ИИ Jlama своими руками

Хабр, привет! Сегодня мы попробуем сделать свой ИИ с телеграм ботом для возможности простого общения с ней. Сразу оговорюсь, мы не будем в очередной раз использовать открытый API ChatGPT или новомодного Deepseek. Мы развернем свой полноценный ИИ локально и сынтегрируем его с телеграм ботом.LLM модель

продолжить чтение ......

Оставлено в

Первый шаг к кибернетическому тимлиду: автоматическое ревью кода на основе LLM

Привет, Хабр! Меня зовут Евгений Зорин

продолжить чтение ......

Оставлено в

Почему DeepSeek Janus-7B — это нечто действительно невероятное

Полчаса назад вышла новость о выходе DeepSeek Janus-7B - новой мультимодальной модели от DeepSeek, которая, по заявлениям авторов, рвёт DALL-E 3, Stable Diffusion XL и Stable Diffusion 3 (Medium) в бенчмарках.В этой статье я не буду дублировать новость, а хочу подробнее рассмотреть, что именно в этой модели такого уникального, из-за чего многие связанные с AI медиа сегодня захлебываются от восторга.

продолжить чтение ......

Оставлено в

Субъективный взгляд на перспективы Больших Языковых Моделей

Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию к технологическому тупику. Главные проблемы связаны с экспоненциальным ростом вычислительных мощностей, дефицитом качественных данных и ограничениями архитектуры.Итак, можно подвести некоторые итоги, что же мы увидели за прошедшее время.

продолжить чтение ......

Оставлено в

SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей

Исследовательская группа Snowflake AI представляет SwiftKV - решение, разработанное для повышения производительности LLM-выводов и снижения связанных с этим затрат. SwiftKV использует методы кэширования пар «ключ-значение» для повторного использования промежуточных вычислений во время выводов. Устраняя избыточные вычисления, оно оптимизирует процесс вывода и повышает эффективность использования LLM.

продолжить чтение ......

Оставлено в

Внедрение LLM в разработку ПО: стоит ли?

Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, тема которой касается именно использования Large Language Models (LLM) как части вашего продукта, а не использования ИИ как инструмента в процессе разработки (например, таких инструментов, как Cursor или Zed AI).

продолжить чтение ......

Оставлено в

Думающие модели o1-3: краткий обзор и чего программистам ждать дальше

Когда LLM впервые появились, они были немного похожи на детей - говорили первое, что приходило им в голову, и не особо заботились о логике. Им нужно было напоминать: «Подумай, прежде чем отвечать». Но, как и с детьми, даже тогда это не означало, что они действительно будут думать.Многие утверждали, что из-за этого у моделей нет настоящего интеллекта и что их необходимо дополнять либо человеческой помощью, либо каким-то внешним каркасом поверх самой LLM, например Chain of Thought.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm-модели.

Всё, что я узнал о запуске локальных языковых моделей

Чем Grok лучше ChatGPT: изучаем базовые преимущества нейросети Илона Маска

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Telegram бот + ИИ Jlama своими руками

Первый шаг к кибернетическому тимлиду: автоматическое ревью кода на основе LLM

Почему DeepSeek Janus-7B — это нечто действительно невероятное

Субъективный взгляд на перспективы Больших Языковых Моделей

SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей

Внедрение LLM в разработку ПО: стоит ли?

Думающие модели o1-3: краткий обзор и чего программистам ждать дальше

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm-модели.