Специалисты из OpenAI опубликовали исследование, в котором описали, как при помощи языковой модели GPT-4 они пытались объяснить работу нейронов её предшественницы, GPT-2. Сейчас разработчики компании стремятся продвинуться в «интерпретируемости» нейросетей и понять, почему те создают именно тот контент, который мы получаем.
В первом же предложении своей статьи авторы из OpenAI признаются: «Языковые модели стали более функциональными и более распространёнными, но мы не понимаем, как они работают». Это «незнание» того, как именно отдельные нейроны в нейронной сети ведут себя для получения выходных данных, называют «чёрным ящиком». Как пишет Ars Technica, пытаясь заглянуть внутрь «чёрного ящика», исследователи из OpenAI использовали свою языковую модель GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в более простой языковой модели, GPT-2. В идеале наличие интерпретируемой модели ИИ помогло бы достичь более глобальной цели, которую называют «согласование ИИ». В этом случае у нас появились бы гарантии, что системы ИИ будут вести себя так, как задумано, и отражать человеческие ценности.
В OpenAI хотели выяснить, какие шаблоны в тексте вызывают активацию нейрона, и двигались поэтапно. На первом этапе предполагалось объяснить активацию нейронов с помощью GPT-4. На втором — смоделировать активацию нейронов с помощью GPT-4, учитывая объяснение из первого этапа. На третьем — оценить объяснение, сравнив смоделированные и реальные активации. GPT-4 выявляла конкретные нейроны, нейронные цепи, и «головы внимания» (attention head) и создавала удобочитаемые объяснения роли этих компонентов. Также большая языковая модель генерировала оценку объяснения, которую в OpenAI называют «мерой способности языковой модели сжимать и реконструировать активации нейронов с использованием естественного языка».
В процессе исследования специалисты OpenAI предложили продублировать работу GPT-4 человеку и сравнили их результаты. Как признали авторы статьи, и нейросеть, и человек «показали плохие результаты в абсолютном выражении».
Одно из объяснений этой неудачи, предложенное в OpenAI, заключается в том, что нейроны могут быть «полисемантичными», что означает, что типичный нейрон в контексте исследования может иметь несколько значений или быть связанным с несколькими понятиями. Кроме того, языковые модели могут содержать «чуждые понятия», для которых у людей просто нет слов. Такой парадокс мог возникнуть из-за разных причин: например, из-за того, что языковые модели заботятся о статистических конструкциях, используемых для прогнозирования следующей лексемы; или из-за того, что модель обнаружила естественные абстракции, которые людям ещё предстоит открыть, например, семейство аналогичных понятий в несопоставимых областях.
В итоге в OpenAI пришли к тому, что не все нейроны можно объяснить на естественном языке; и пока исследователи способны увидеть только корреляции между входными данными и интерпретируемым нейроном при фиксированном распределении, причём прошлые научные работы показывают, что это может не отражать причинно-следственную связь между ними. Несмотря на это, исследователи настроены достаточно оптимистично и уверены, что им удалось создать основу для машинной интерпретируемости. Сейчас они выложили на GitHub код системы автоматической интерпретации, нейроны GPT-2 XL и наборы данных объяснений.
Автор: Markaty