- BrainTools - https://www.braintools.ru -
Сфера ИИ продолжает стремительно развиваться, и последние достижения бросают вызов устоявшимся парадигмам. В начале 2025 года китайская лаборатория ИИ DeepSeek представила новую модель, которая произвела фурор в индустрии ИИ [1] и привела к 17-процентному [2] падению акций Nvidia, а также [3] других акций, связанных со спросом на центры обработки данных ИИ. Эта реакция [4] рынка, как сообщалось в многочисленных публикациях, была вызвана очевидной способностью DeepSeek создавать высокопроизводительные модели по цене, значительно меньшей, чем у конкурентов в США, что вызвало дискуссию о последствиях для центров обработки данных ИИ [5].
Чтобы понять, что именно привнёс DeepSeek, надо рассмотреть более широкий сдвиг в сфере ИИ, вызванный нехваткой дополнительных обучающих данных. Поскольку основные лаборатории ИИ уже обучили свои модели на большей части доступных общедоступных данных в интернете, нехватка данных замедляет дальнейшее совершенствование предварительного обучения [6].
В результате поставщики моделей стремятся к «вычислениям во время тестирования» (TTC), при которых модели-рассуждения (например, серия моделей «o» от OpenAI) «размышляют» перед тем, как ответить на вопрос во время логического вывода, в качестве альтернативного метода повышения общей производительности модели.
В настоящее время считается, что TTC может демонстрировать улучшения по закону масштабирования, аналогичные тем, которые когда-то обеспечили предварительное обучение [7], потенциально открывая путь к следующей волне революционных достижений в области ИИ.
Эти события указывают на два важных изменения: во-первых, лаборатории, работающие с меньшими (по сравнению с заявленными) бюджетами, теперь способны выпускать самые современные модели. Во-вторых, TTC становится следующим потенциальным двигателем прогресса в области ИИ. Ниже рассмотрены обе эти тенденции и их потенциальное влияние на конкурентную среду и рынок ИИ в целом.
Считается, что переход к TTC и усиление конкуренции между моделями рассуждений могут иметь ряд последствий для более широкого ландшафта ИИ [8] в сфере аппаратного обеспечения, облачных платформ, базовых моделей и корпоративного программного обеспечения.
Однако, если прогресс в вычислении времени движения поездов действительно находится на плаву, угроза быстрого перемещения уменьшается. В мире, где повышение производительности моделей достигается за счет оптимизации TTC, перед игроками прикладного уровня могут открыться новые возможности. Инновации в алгоритмах постобучения для конкретной предметной области, такие как структурированная оперативная оптимизация [9], стратегии рассуждения с учетом задержек [10] и эффективные методы выборки, могут обеспечить значительное повышение производительности в целевых вертикалях.
Любое повышение производительности будет особенно актуально в контексте моделей, ориентированных на рассуждения, таких как GPT-4o и DeepSeek-R1 от OpenAI, которые часто демонстрируют время отклика в несколько секунд.
В приложениях, работающих в режиме реального времени, сокращение задержек и повышение качества логического вывода в рамках определённой области может обеспечить конкурентное преимущество. Таким образом, компании, работающие на прикладном уровне и обладающие экспертными знаниями в определённой области, могут сыграть ключевую роль в оптимизации эффективности логического вывода и тонкой настройке результатов.
DeepSeek демонстрирует снижение внимания [11] к постоянно растущему объему предварительной подготовки как единственному фактору качества модели. Вместо этого разработка подчеркивает растущую важность TTC. Хотя прямое внедрение моделей DeepSeek в корпоративные программные приложения остается неопределенным из-за продолжающегося изучения, их влияние на улучшение других существующих моделей становится все более очевидным.
Достижения DeepSeek побудили ведущие лаборатории в области ИИ внедрить аналогичные методы в свои инженерные и исследовательские процессы, дополнив существующие аппаратные преимущества. Как и предполагалось, снижение стоимости моделей, по-видимому, способствует более широкому использованию моделей в соответствии с принципами парадокса [12] Джевонса.
Источник [13]
Автор: mefdayy
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13962
URLs in this post:
[1] в индустрии ИИ: https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/
[2] 17-процентному: https://www.wsj.com/livecoverage/stock-market-today-dow-sp500-nasdaq-live-01-27-2025
[3] а также: https://www.reuters.com/business/energy/us-power-stocks-plummet-deepseek-raises-data-center-demand-doubts-2025-01-27/
[4] реакция: http://www.braintools.ru/article/1549
[5] последствиях для центров обработки данных ИИ: https://www.datacenterknowledge.com/ai-data-centers/deepseek-s-ai-breakthrough-signals-major-shifts-for-data-centers
[6] замедляет дальнейшее совершенствование предварительного обучения: https://www.youtube.com/watch?v=1yvBqasHLZs
[7] обучение: http://www.braintools.ru/article/5125
[8] ландшафта ИИ: https://venturebeat.com/ai/i-asked-an-ai-swarm-to-fill-out-a-march-madness-bracket-heres-what-happened/
[9] структурированная оперативная оптимизация: https://arxiv.org/html/2406.10504v1
[10] стратегии рассуждения с учетом задержек: https://arxiv.org/html/2406.06461v3
[11] внимания: http://www.braintools.ru/article/7595
[12] парадокса: http://www.braintools.ru/article/8221
[13] Источник: https://venturebeat.com/ai/deepseek-jolts-ai-industry-why-ais-next-leap-may-not-come-from-more-data-but-more-compute-at-inference/
[14] Источник: https://habr.com/ru/companies/bothub/news/898262/?utm_source=habrahabr&utm_medium=rss&utm_campaign=898262
Нажмите здесь для печати.