Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?

Илья Суцкевер, соучредитель и бывший главный ученый OpenAI, утверждает, что данные — это ископаемое топливо ИИ, и мы его исчерпали. Правда ли это?

Дисклеймер: это вольный перевод колонки ^[1] издания Forbes, которую написал Гамильтон Ман. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» ^[2] — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь ^[3].

Это заявление сделано в контексте объяснения того, что ограничение для ИИ (особенно для LLM) заключается в качестве данных, необходимых для имитации интеллекта ^[4], — ограничение, часто называемое «энтропийным разрывом».

Энтропия в теории информации — это мера неопределенности или непредсказуемости в пробабилистической системе. В контексте ИИ энтропия количественно оценивает вариабельность и богатство информации внутри набора данных, отражая, насколько равномерно распределены или разнообразны данные по возможным исходам. Это разнообразие способствует неопределенности, обеспечивает широкий спектр шаблонов или характеристик, которые охватывает набор данных, и на которых ИИ может учиться.

По-другому «энтропийный разрыв» можно определить как разницу между вариабельностью и богатством шаблонов, присутствующих в обучающих данных, и вариабельностью, необходимой для имитации сложности человеческого интеллекта или реальных сценариев.

В ИИ этот разрыв подчеркивает несоответствие между разнообразием и неопределенностью, присутствующими в обучающих данных, и более широким, более непредсказуемым разнообразием, с которым модель сталкивается при развертывании в реальных условиях.

Чем значительнее этот энтропийный разрыв, тем менее способна модель к обобщению на невидимые данные, адаптации к новым условиям или достижению значимой производительности в разнообразных задачах.

Преодоление этого разрыва требует не только большего количества данных, но и данных более высокого качества, контекстуально богатых и разнообразных наборов данных, которые отражают сложность задач, для выполнения которых предназначен ИИ.

С этой точки зрения ^[5], утверждение «данные — это ископаемое топливо ИИ, и мы его исчерпали» равносильно тому, что качественные, контекстуально богатые и разнообразные наборы данных являются конечным ресурсом, аналогичным ископаемому топливу.

Однако это неправда. В отличие от ископаемых видов топлива, которые универсально конечны, дефицит качественных данных сильно зависит от контекста. В некоторых областях, таких как исследования редких заболеваний или специализированные промышленные приложения, доступность специфичных для задачи качественных данных может восприниматься как ограниченная.

Тем не менее, этот дефицит часто можно решить с помощью методов, таких как генерация синтетических данных, дополнение данных или трансферное обучение ^[6], которые позволяют уточнить или расширить доступные данные.

Нужно признать, что эти методы не универсальны. Например, синтетические данные могут не полностью охватывать нюансы реальных сценариев, а трансферное обучение может испытывать трудности с обобщением по значительно различающимся доменам. Кроме того, ни один из методов не решает проблемы предвзятости или заполняет пробелы в высокоспециализированных или этически чувствительных наборах данных, где точная и контекстуально-специфическая информация критична. Эти ограничения подчеркивают важность тщательной курации данных и экспертизы в домене для преодоления дефицита качественных данных.

Тем не менее, данные, генерируемые человеком, являются по своей природе возобновляемым ресурсом для ИИ, так как они постоянно генерируются человеческой деятельностью, технологиями и окружающей средой, в отличие от ископаемых видов топлива, которые конечны и не возобновляемы во всех случаях, независимо от обстоятельств.

Как полезность возобновляемости данных, генерируемых человеком, зависит от значительных усилий по предварительной обработке, курации и обеспечению доменной релевантности, сырые данные сами по себе часто недостаточны для ИИ, и недавние исследования показывают, что синтетические данные сами по себе не могут служить заменой.

Таким образом, реальная проблема ИИ, связанная с данными, заключается не в их исчерпании, а в дефиците полезных качественных данных для конкретных задач. Это создает узкие места, имитирующие вызовы исчерпания, но не похожие на них.

Кроме того, что считается «полезным», сильно зависит от задачи и варьируется в зависимости от доменов, так как это полностью зависит от контекста и целей системы ИИ. В отличие от абсолютного дефицита ископаемых видов топлива, дефицит полезных данных — это относительное понятие, формируемое требованиями конкретного приложения и способностью к предварительной обработке, курации или генерации данных, релевантных для задачи.

Более подходящая аналогия может быть такой: данные — это «питьевая вода» ИИ.

Не все данные сразу полезны, как и не вся вода пригодна для питья. Сырые данные, как сырая вода, должны пройти процесс очистки, чтобы стать ценными для систем ИИ. Этот процесс очистки включает очистку данных для удаления шума и ошибок, маркировку для добавления структуры и значения, а также дополнение для повышения разнообразия и применимости. Только после этих шагов данные могут соответствовать конкретным стандартам качества и релевантности, необходимым для приложений ИИ, так же как вода должна быть обработана, чтобы стать безопасной и эффективной для человеческого потребления. Эта аналогия подчеркивает важность подготовки и уточнения в превращении сырых данных в ресурс, который питает развитие ИИ.

Реальная проблема ИИ заключается не в возобновляемости данных, которые постоянно генерируются по замыслу, а в преобразовании этих данных в полезные качественные наборы данных для решения дефицита. Этот процесс должен включать борьбу с критическими вызовами, такими как идентификация и минимизация предвзятостей, обеспечение справедливости и навигация по этическим соображениям. Контекстуальная специфичность также играет ключевую роль, так как данные, которые являются релевантными и полезными в одном домене, могут не подходить для другого.

Эти сложности подчеркивают необходимость вдумчивой курации, строгой валидации и приверженности этическим принципам в превращении сырых данных в надежную основу для систем ИИ.

Когда говорят: «Данные — это ископаемое топливо ИИ, и мы его исчерпали!», мы делаем две ошибки ^[7]: первое – недооцениваем или забываем ^[8], что существуют природные ресурсы, от которых зависит ИИ, которые действительно ископаемые и поэтому невозобновляемы (в отличие от данных).

Вторая, возможно, еще более серьезная, — это делать невидимым то, что создает условия для существования данных, необходимых для обучения ИИ: люди.

Данные не существуют независимо от человеческих действий, решений или систем. Будь то генерируемые через явные действия (например, посты в социальных сетях) или неявно (например, данные сенсоров), люди непосредственно или косвенно ответственны за создание условий для генерации данных. Поскольку данные происходят из человеческой деятельности, их существование и полезность зависят от человеческих вкладов, креативности и труда.

Пока существуют люди, будут существовать данные, включая качественные данные.

По определению, ИИ не выпил все данные, и что важно, не должен, из-за природных ресурсов, которые устанавливают устойчивое ограничение, о котором мы должны заботиться, чтобы поставить искусственную целостность выше любого интеллекта.

Автор: technokratiya

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/10752

URLs in this post:

[1] колонки: https://www.forbes.com/sites/hamiltonmann/2024/12/20/data-is-not-the-fossil-fuel-of-ai/?ss=ai

[2] «Голос Технократии»: https://t.me/+vvm8PwCuv-EyZGY6

[3] здесь: https://t.me/TechnokratosAMABot

[4] интеллекта: http://www.braintools.ru/article/7605

[5] зрения: http://www.braintools.ru/article/6238

[6] обучение: http://www.braintools.ru/article/5125

[7] ошибки: http://www.braintools.ru/article/4192

[8] забываем: http://www.braintools.ru/article/333

[9] Источник: https://habr.com/ru/articles/870668/?utm_campaign=870668&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.