- BrainTools - https://www.braintools.ru -
Эффективность моделей AI определяется качеством данных, используемых для их обучения [1] или настройки. Размеченные данные были основополагающим элементом машинного обучения и генеративного AI на протяжении большей части их истории. Размеченные данные — это информация, помеченная для того, чтобы помочь моделям AI понимать контекст во время обучения.
Поскольку предприятия спешат внедрить приложения AI, скрытым узким местом часто оказывается не технология, а многомесячный процесс сбора, отбора и маркировки данных, специфичных для домена. Этот «налог на маркировку данных» заставил технических руководителей выбирать между задержкой развертывания и принятием неоптимальной производительности общих моделей.
Databricks [2] нацелен на решение этой проблемы. На этой неделе компания опубликовала исследование нового подхода под названием Test-time Adaptive Optimization (TAO). Основная идея подхода заключается в том, чтобы обеспечить настройку большой языковой модели (LLM) корпоративного уровня, используя только входные данные, которые уже есть у компаний — без необходимости в метках — и при этом достигать результатов, превосходящих традиционную тонкую настройку на тысячах помеченных примеров. Databricks начиналась как поставщик платформы для хранения данных [3] и в последние годы все больше внимания [4] уделяла AI. Databricks приобрела MosaicML [5] за 1,3 миллиарда долларов и постоянно внедряет инструменты, которые помогают разработчикам быстро создавать приложения AI [6] Исследовательская группа Mosaic в Databricks разработала новый метод TAO.
«Получить маркированные данные сложно, а плохие маркировки напрямую приведут к плохим результатам, поэтому передовые лаборатории обращаются к поставщикам маркировки данных, чтобы покупать дорогие данные с аннотациями от людей», — рассказал VentureBeat Брэндон Куи, старший научный [7] сотрудник Databricks. «Мы хотим встречаться с клиентами там, где они есть, маркировки были препятствием для внедрения корпоративного AI, а с TAO — больше нет».
Источник [8]
Автор: cognitronn
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13692
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] Databricks: https://www.databricks.com/
[3] платформы для хранения данных: https://venturebeat.com/data-infrastructure/databricks-reinforces-commitment-to-open-data-lakehouses-with-delta-lake-3-0/
[4] внимания: http://www.braintools.ru/article/7595
[5] приобрела MosaicML: https://venturebeat.com/data-infrastructure/databricks-is-acquiring-mosaicml-for-a-jaw-dropping-1-3-billion/
[6] создавать приложения AI: https://venturebeat.com/data-infrastructure/databricks-now-lets-developers-create-ai-apps-in-5-minutes-heres-how/
[7] научный: http://www.braintools.ru/article/7634
[8] Источник: https://venturebeat.com/data-infrastructure/the-tao-of-data-how-databricks-is-optimizing-ai-llm-fine-tuning-without-data-labels/
[9] Источник: https://habr.com/ru/companies/bothub/news/895618/?utm_source=habrahabr&utm_medium=rss&utm_campaign=895618
Нажмите здесь для печати.