- BrainTools - https://www.braintools.ru -

ТАО: как Databricks оптимизирует точную настройку AI LLM

Эффективность моделей AI определяется качеством данных, используемых для их обучения [1] или настройки. Размеченные данные были основополагающим элементом машинного обучения и генеративного AI на протяжении большей части их истории. Размеченные данные — это информация, помеченная для того, чтобы помочь моделям AI понимать контекст во время обучения.

ТАО: как Databricks оптимизирует точную настройку AI LLM - 1

Поскольку предприятия спешат внедрить приложения AI, скрытым узким местом часто оказывается не технология, а многомесячный процесс сбора, отбора и маркировки данных, специфичных для домена. Этот «налог на маркировку данных» заставил технических руководителей выбирать между задержкой развертывания и принятием неоптимальной производительности общих моделей.

Databricks [2] нацелен на решение этой проблемы. На этой неделе компания опубликовала исследование нового подхода под названием Test-time Adaptive Optimization (TAO). Основная идея подхода заключается в том, чтобы обеспечить настройку большой языковой модели (LLM) корпоративного уровня, используя только входные данные, которые уже есть у компаний — без необходимости в метках — и при этом достигать результатов, превосходящих традиционную тонкую настройку на тысячах помеченных примеров. Databricks начиналась как поставщик платформы для хранения данных [3] и в последние годы все больше внимания [4] уделяла AI. Databricks  приобрела MosaicML [5]  за 1,3 миллиарда долларов и постоянно внедряет инструменты, которые помогают разработчикам быстро  создавать приложения AI [6] Исследовательская группа Mosaic в Databricks разработала новый метод TAO.

«Получить маркированные данные сложно, а плохие маркировки напрямую приведут к плохим результатам, поэтому передовые лаборатории обращаются к поставщикам маркировки данных, чтобы покупать дорогие данные с аннотациями от людей», — рассказал VentureBeat Брэндон Куи, старший научный [7] сотрудник Databricks. «Мы хотим встречаться с клиентами там, где они есть, маркировки были препятствием для внедрения корпоративного AI, а с TAO — больше нет».

Источник [8]

Автор: cognitronn

Источник [9]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13692

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] Databricks: https://www.databricks.com/

[3] платформы для хранения данных: https://venturebeat.com/data-infrastructure/databricks-reinforces-commitment-to-open-data-lakehouses-with-delta-lake-3-0/

[4] внимания: http://www.braintools.ru/article/7595

[5] приобрела MosaicML: https://venturebeat.com/data-infrastructure/databricks-is-acquiring-mosaicml-for-a-jaw-dropping-1-3-billion/

[6]  создавать приложения AI: https://venturebeat.com/data-infrastructure/databricks-now-lets-developers-create-ai-apps-in-5-minutes-heres-how/

[7] научный: http://www.braintools.ru/article/7634

[8] Источник: https://venturebeat.com/data-infrastructure/the-tao-of-data-how-databricks-is-optimizing-ai-llm-fine-tuning-without-data-labels/

[9] Источник: https://habr.com/ru/companies/bothub/news/895618/?utm_source=habrahabr&utm_medium=rss&utm_campaign=895618

www.BrainTools.ru

Рейтинг@Mail.ru
Rambler's Top100