Проблема контекстного окна: Почему AI забывает середину длинного текста. ai.. ai. llm.. ai. llm. llm-модели.. ai. llm. llm-модели. technology.. ai. llm. llm-модели. technology. Блог компании BotHub.. ai. llm. llm-модели. technology. Блог компании BotHub. искусственный интеллект.

В недавнем интервью бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей (LLM) можно использовать как краткосрочную память. Однако есть проблема — если загрузить достаточно длинный текст (например, несколько книг) в контекстное окно, AI забудет середину.

Проблема контекстного окна: Почему AI забывает середину длинного текста - 1

По словам Шмидта, это делает AI похожим на людей, поскольку, по его мнению, человеческий мозг ведет себя так же. Но это утверждение неправильно по двум причинам.

Контекстное окно — это объем текста, который LLM может видеть и учитывать при создании нового текста. Важно понимать, что это не вся информация, на которой была обучена модель, а только небольшой фрагмент, который используется непосредственно для генерации ответа.

С математической точки зрения нейросеть — это не поисковая система, а инструмент для анализа статистических данных. Она предсказывает слова и значения на основе массивов данных, на которых была обучена. Для этого LLM использует весовые параметры, представляющие собой специальные вектора.

По этой причине любой текст, вводимый в LLM, превращается в набор чисел — этот процесс называется эмбеддингом. Причем каждый фрагмент текста, вне зависимости от его длины, вводится в виде цифровой последовательности одинаковой длины.

Этот набор чисел — это не код содержания текста, а координаты точки в векторной базе данных. Чем выше размерность этой базы, тем длиннее будет последовательность чисел, кодирующих эту точку. В некоторых продвинутых языковых моделях эта последовательность может быть очень длинной (например, координаты точки в пространстве размерностью 3072).

Однако, несмотря на сложность, это всего лишь координаты в многомерном пространстве — ничего больше.

В векторной базе данных AI эти точки группируются по смысловым значениям. Например, точки, связанные со страхом, будут находиться рядом с точками, связанными с ужасом, а радости — рядом с точками, связанными с удовольствием. Таким образом, задача нейросети заключается в поиске ближайших точек, которые имеют смысловую связь с запросом и другими частями генерируемого ответа.

Проще говоря, чем ближе смысл, тем ближе точки. И чем выше размерность модели, тем точнее анализ смыслов и связей между ними.

Этот процесс напоминает попытку параллельно соединить две спутанные веревки: длинную и короткую. Как бы вы ни старались, у вас идеально совпадут только начала и концы обеих веревок. В середине обязательно возникнут проблемы — она не будет совпадать из-за разной степени запутанности и длины веревок. В контексте LLM это означает, что AI просто не может математически совместить все части длинного запроса, чтобы дать связный ответ, не теряя информации из середины.

По этой причине AI лучше справляется с короткими запросами — они требуют меньше усилий для поддержания смысловой связности.

В отличие от AI, мозг человека действительно запоминает начало и конец текста лучше, но это связано с двумя независимыми процессами.

Эффект первичности, описанный Беннетом Мёрдоком в 1962 году, объясняет запоминание начала текста тем, что первые элементы получают больше внимания, и поэтому они переносятся в долгосрочную память. Однако длина текста, наоборот, ослабляет этот эффект.

Эффект новизны, впервые описанный Гланцером и Куницем в 1966 году, объясняет запоминание конца текста особенностями кратковременной памяти. Этот эффект слабее, чем первичность, и связан с тем, что кратковременная память ограничена по объему и фиксируется на последних элементах.

Эти примеры показывают, что схожие явления в AI и человеческом мозге — это скорее совпадения, чем признаки системного сходства.

Источник

Автор: cognitronn

Источник