История развития философской мысли AI Safety. ai.. ai. ai alignment.. ai. ai alignment. ai safety.. ai. ai alignment. ai safety. philosophy.. ai. ai alignment. ai safety. philosophy. искусственный интеллект.

Ранние представления об искусственном разуме и «восстании машин»

Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе «Дарвин среди машин», где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями». Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин».

История развития философской мысли AI Safety - 1

В 1920 году чешский писатель Карел Чапек в пьесе «R.U.R.» (Rossum’s Universal Robots) ввел само слово «робот» (от чешского robota – «каторжный труд»). В этом произведении впервые изображены фабрично созданные искусственные люди – роботы, предназначенные служить людям. Чапек развил сюжет до логического финала: по мере усложнения и очеловечивания эти роботы восстают и захватывают власть над людьми. Он показал сценарий бунта человекоподобных машин, отражающий страхи перед технологией, вышедшей из-под контроля. «R.U.R.» стал отправной точкой для образа восстающих механизмов в культуре: до него говорили лишь об автоматонах, андроидах или големах в мифах, но именно Чапек популяризовал термин «робот» и идею промышленных созданий, которые оборачиваются против создателей. Многие последующие фантасты – в том числе Айзек Азимов – были знакомы с этой пьесой и развивали тему разумных машин, способных либо конфликтовать с человечеством, либо служить ему. Таким образом, Чапек исторически повлиял на само зарождение дискуссий об этике и опасностях ИИ.

Этические ограничения: три закона Азимова

1942 год отметился еще одной вехой в научной фантастике, непосредственно повлиявшей на представления об ИИ. Писатель Айзек Азимов сформулировал Три закона робототехники – встроенные правила безопасности для разумных роботов – впервые представив их в рассказе «Runaround» (1942). Эти законы гласили, что робот не может вредить человеку, должен подчиняться человеку и заботиться о собственной безопасности, если это не противоречит первым двум законам. Хотя они возникли в вымышленном мире, идеи Азимова стали классическим отправным пунктом обсуждения этики ИИ и ограничений на поведение машин. Азимов сознательно противопоставил свои истории типичному тогда сюжету о бунте машин (в духе Чапека или «Франкенштейна»): он хотел, чтобы роботы изначально были защищены от причинения вреда людям. Благодаря этому его рассказы исследовали тонкие парадоксы и конфликты, возникающие при соблюдении этих правил.

Историческая преемственность здесь такова: Азимов, зная о предыдущих «кошмарах» вроде R.U.R., попытался внести оптимистичную ноту – мол, если запрограммировать технику правильно, трагедий удастся избежать. Его Три закона не были реальной инженерной разработкой, но сильно повлияли на мышление о безопасном ИИ. По сути, они впервые предложили концепцию встроенного в интеллект механизма этического ограничения, предвосхищая современные дебаты о выравнивании и контроле ИИ. Сегодня, когда специалисты рассуждают о том, как «программно» обезопасить продвинутый ИИ, часто вспоминают Азимова – хотя его законы и утопичны, они обозначили проблему: как убедиться, что сверхумная машина останется безвредной и благожелательной по отношению к людям.

Кибернетика Норберта Винера: обратная связь и контроль

1948 год. Американский математик Норберт Винер публикует книгу «Кибернетика, или Управление и связь в животном и машине», заложив научную основу для понимания как живых организмов, так и механизмов в терминах информации и обратной связи. Винер показал, что как биологические системы, так и автоматы могут рассматриваться как контур управления: датчики воспринимают среду, система сравнивает состояние с целью и вносит корректировки. Этот принцип он вывел, в том числе, из работ по созданию зенитных прицелов во время войны – когда нужно было прогнозировать траекторию самолета по предыдущим положениям, настраивая огонь по движущейся цели. Иными словами, кибернетика оформила идею, что прошлые данные можно использовать для управления будущим поведением сложной системы посредством постоянной обратной связи.

Важной мыслью Винера было то, что машина может стать «умной» именно благодаря такой саморегуляции, особенно если она способна накапливать опыт и улучшать управление со временем. По сути, он предвосхитил основы обучения и адаптации, которые ныне применяются в искусственных нейросетях и алгоритмах (сам Винер отмечал параллели между мозгом и техническими системами управления ).

Однако вместе с энтузиазмом Винер выдвинул и предостережения. Он одним из первых предупредил о возможных опасностях автономных «умных» систем, если люди не будут их понимать и контролировать. Винер писал, что опасность машины для общества исходит не из нее самой, а из того, что человек сделает из этой машины. Он предсказывал, что автоматизация может лишить многих людей работы и создать социальную напряженность, а достаточно умные системы могут принимать решения не так, как того хотели бы люди. Поэтому, указывал Винер, необходимо ограничивать степень контроля, передаваемого ИИ, и тщательно продумывать внедрение саморегулирующихся машин. Эти идеи фактически заложили фундамент дискуссий о проблеме контроля ИИ – через полвека после Винера ученые заговорили об этом в новых терминах, но суть осталась та же.

Алан Тьюринг: могут ли машины мыслить и кого это насторожило

На рубеже 1950-х британский математик Алан Тьюринг предложил сразу несколько ключевых концепций, без которых история ИИ немыслима. В 1950 году он опубликовал статью «Вычислительные машины и разум», где сформулировал знаменитый тест Тьюринга – практический критерий для ответа на вопрос «Могут ли машины мыслить?». Тьюринг предложил заменить философские споры экспериментом: если машина в диалоге неотличима от человека, значит, она проявляет интеллект. Эта игра в имитацию (судья общается вслепую с человеком и компьютерной программой) стал влиятельнейшей идеей, определившей направление исследований на десятилетия вперед. Пример: программа ELIZA в 1960-х годах смогла настолько реалистично имитировать психотерапевта, что люди верили в ее разумность – что, впрочем, встревожило создателя программы Джозефа Вейценбаума. Тест Тьюринга же стимулировал попытки создать машины, понимающие естественный язык и рассуждающие на уровне человека.

Однако вместе с поддержкой возникла и философская критика. В 1980 году Джон Серль предложил мысленный эксперимент «китайская комната», чтобы оспорить значимость теста Тьюринга. Серль вообразил человека, не знающего китайского, который сидит в комнате и по инструкциям манипулирует иероглифами так, что для внешнего наблюдателя ответы из комнаты неотличимы от переписки с носителем языка. Вывод Серля: хотя комната успешно имитирует понимание по-тьюринговски, на самом деле никакого понимания нет – человек всего лишь механически следует синтаксическим правилам. Таким образом была поставлена под сомнение идея, что имитация интеллекта равна самому интеллекту. Историческая связь: «китайская комната» опиралась на долго идущую философскую линию (проблему «разума и машины») и в дальнейшем развилась в целое направление в философии ИИ, изучающее разницу между синтаксической обработкой информации и семантическим пониманием. Сегодня этот аргумент продолжает влиять на дебаты о том, обладают ли современные языковые модели настоящим пониманием или просто манипулируют символами по статистическим правилам.

Стоит отметить, что сам Тьюринг тоже рассуждал о далеких последствиях создания мыслящих машин. В 1951 году в радио-докладе (так называемая «еретическая теория» Тьюринга) он предположил, что если машины приобретут настоящий интеллект, они могут начать самосовершенствоваться и даже взять власть под свой контроль. Тьюринг ссылался на идеи С. Батлера, прямо заявив: «Предположим, что интеллектуальные машины – реальная возможность… Они не умирают и могут общаться друг с другом, оттачивая ум. Поэтому на каком-то этапе мы должны ожидать, что машины возьмут контроль, как упоминалось у Батлера в “Эревоне”». Т.е. уже к началу 1950-х формируется понятие о риске превосходства ИИ над человеком. Тьюринг, конечно, не призывал к остановке исследований, но ясно осознавал сценарий, который намного позже назовут «интеллектуальным взрывом» или сингулярностью. Таким образом, идеи Тьюринга оказались двоякими: с одной стороны, он задал критерий успеха ИИ (имитация мышления), а с другой – одним из первых указал на необходимость думать о последствиях создания сверхразумных машин.

Рождение искусственного интеллекта как науки: Дартмутский семинар 1956

Все перечисленные выше идеи – от художественных образов до теоретических предположений – подготовили почву для того, чтобы ИИ оформился как самостоятельная область исследований. К середине 1950-х накопились необходимые составляющие: первые электронные компьютеры, успехи кибернетики, понимание логики и даже терминология (Тьюринг уже говорил об «интеллектуальных машинах»). Летом 1956 года в колледже Дартмут (США) прошел легендарный семинар, который считается моментом рождения ИИ как академической дисциплины.

Инициаторами были Джон Маккарти, Марвин Мински, Клод Шеннон и Натаниэл Рочестер. Именно Маккарти предложил термин «artificial intelligence» (искусственный интеллект) – он выбрал его, чтобы отделиться от кибернетики Винера и других ассоциаций. Исследователи исходили из смелого убеждения: «каждый аспект обучения или интеллекта в принципе можно описать настолько точно, что можно создать машину, имитирующую его». Наивно полагая, что на решение ключевых проблем уйдет пара месяцев совместной работы, они перечислили амбициозные цели: научить машины понимать естественный язык, абстрактно мыслить, самостоятельно улучшаться и решать задачи, доступные тогда лишь человеку.

Дартмутский проект, конечно, не достиг своих задач за одно лето, но он задал тон всей эпохе раннего ИИ. В последующие 10–15 лет исследователи добились заметных успехов: появились программы, решающие алгебру, доказывающие теоремы, играющие в шашки. Этот первоначальный успех породил чрезмерный оптимизм. Например, Герберт Саймон в 1965 году предсказал, что «машины будут способны через 20 лет делать любую работу, которую может делать человек». Марвин Мински в конце 60-х говорил, что «проблему создания искусственного интеллекта» решат «примерно за поколение».

Однако реальность оказалась сложнее. Выяснилось, что формальная логика и игры – хоть и считались трудными для человека – гораздо легче поддаются компьютеризации, чем простые, «детские» способности. К началу 1970-х отсутствие прогресса в таких областях, как зрение, понимание смысла или роботика, привело к разочарованию. Финансирование сократилось – наступила так называемая «зима ИИ». Почему так вышло? Этот вопрос проанализировали как раз в 1980-х, и ответ сформулирован в виде парадокса Моравека.

Мински позже отмечал: ранние исследователи считали интеллектом то, что сложно высокообразованному человеку – математика, шахматы, логика – и недооценивали навыки четырехлетнего ребенка, вроде узнавания образов и координации движений. Робототехник Ханс Моравек обобщил: самые трудные для людей задачи оказываются относительно легкими для компьютеров, а то, что людям делать просто (навыки восприятия, моторика, здравый смысл), – чрезвычайно трудно запрограммировать. Он пояснил эволюционную причину: мозг оттачивал зрение, движение и интуицию миллионы лет, поэтому они происходят бессознательно и кажутся легкими, а абстрактный разум – новая способность, не столь оптимизированная, оттого мы сознаем ее сложность. Таким образом, старейшие с эволюционной точки зрения навыки (например, зрение, общение, ориентация) требовали от ИИ несоизмеримо большего труда, чем ожидалось.

Дартмутский семинар ознаменовал оптимистичный старт, а парадокс Моравека объяснил последующее отрезвление. Вместе эти события показали эволюцию взглядов: от веры «мы скоро создадим разумных роботов» – к пониманию, что интеллект многогранен, и самые базовые его компоненты труднее всего реализовать на машине. Тем не менее, идеи и методы, рожденные в 50–60-е (нейронные сети, эвристический поиск, пр.) заложили фундамент, на котором спустя десятилетия ИИ совершил прорыв.

Гипотеза «взрыва интеллекта» И. Дж. Гуда (1965)

Пока прикладные исследователи бились над частными задачами, мыслители продолжали экстраполировать в будущее. Одно из самых влиятельных предсказаний высказал британский математик и криптограф Ирвинг Джон Гуд. В 1965 году он опубликовал статью «Размышления о первой ультраинтеллектуальной машине», где ввел понятие «интеллектуального взрыва». Гуд начинает с определения: ультраинтеллектуальная машина – это такая машина, которая во много раз превосходит все интеллектуальные активности любого человека. Ключевой аргумент: проектирование более совершенных машин само по себе является интеллектуальной активностью, поэтому ультраинтеллект сможет улучшать себя рекурсивно, создавая все более умные версии. Результатом станет взрывной, неконтролируемый рост интеллекта, оставляющий человеческий разум далеко позади. Гуд делал вывод: «первая ультраинтеллектуальная машина станет последним изобретением, которое человеку вообще потребуется сделать», при условии что машина останется достаточно покорной, чтобы рассказать нам, как держать ее под контролем.

Эта оговорка о контроле не менее важна, чем сам «взрыв»: Гуд прямо отмечает удивление, что вне научной фантастики так мало обсуждают эту угрозу, и призывает отнестись к фантастическим идеям серьезно. По сути, Гуд связал воедино концепцию самоулучшающегося ИИ и экзистенциального риска. Его работа опиралась на знания о растущей вычислительной мощи (в 1965 мейнфреймы уже показали потенциал, а закон Мура только начал действовать) и на ранние споры (Тьюринг и др. уже допускали захват власти машинами). В дальнейшем гипотеза Гуда стала краеугольным камнем всех рассуждений о технологической сингулярности. Спустя десятилетия писатели-футурологи (Вернор Виндж, Рэй Курцвейл) и ученые (Ник Бостром) фактически развивали идеи Гуда. Например, Виндж в 1993 описал сингулярность почти теми же словами, а Бостром в 2014 подробно исследовал сценарии такого «взрыва» и проблемы контроля сверхинтеллекта. Таким образом, И. Дж. Гуд оказал огромное влияние: его теория сверхразумной машины превратила тему из фантастической в предмет научного и философского анализа.

Интересно, что сценарий Гуда предполагает два возможных темпа: «быстрый взлет», где переход от человеческого уровня ИИ к суперинтеллекту займет считанные дни или месяцы, и «медленный взлет», где на это уйдут годы, давая человечеству время среагировать. Эти термины появятся уже в наше время при обсуждении стратегии безопасного развития ИИ, но их предвосхитил еще Гуд, задав главный вопрос: успеем ли мы подготовиться, прежде чем интеллект машин станет неконтролируемым?

Ограниченная рациональность: Саймон и Ньюэлл (1970)

Одновременно с грандиозными прогнозами некоторые исследователи ИИ осознали практические ограничения как человеческого, так и машинного интеллекта. Герберт Саймон и Аллен Ньюэлл, первопроходцы в области когнитивных наук и ИИ, ввели понятие «bounded rationality» (ограниченной рациональности) применительно к принятию решений. Изначально (в 1950-х) Саймон сформулировал эту идею для описания человеческого поведения: люди стремятся принимать рациональные решения, но их рациональность ограничена доступной информацией, временем и когнитивными ресурсами. В 1970-е он и Ньюэлл экстраполировали это и на искусственные системы: даже ИИ не может мгновенно и оптимально решить сложную проблему, если не хватает вычислительной мощности или времени.

Иначе говоря, никакая система – ни человек, ни машина – не обладает бесконечной рациональностью. Саймон образно описывал людей как «satisficers» (от satisfy + suffice), то есть мы выбираем не идеальный, а приемлемый вариант в условиях ограничений. Для ИИ того времени это тоже было верно: алгоритмы поиска решений сталкивались с комбинаторным взрывом и вынужденно отсекали варианты. Историческая преемственность: Саймон и Ньюэлл опирались на опыт 1960-х, когда стало ясно, что простое наращивание скорости ЭВМ не дает мгновенно «разумных» результатов – требуются эвристики, упрощения. Они предвидели, что по мере роста вычислительной мощности ИИ станет решать все более сложные задачи, но эффект ограниченной рациональности никуда не денется – просто планка сместится. Более того, ученые предположили, что если компьютеры значительно ускорятся, это может создать деструктивные эффекты для общества: ИИ начнет принимать решения быстрее и, возможно, качественнее людей, что поставит новые вызовы (например, экономические – безработица, или военные – скорость реакций).

Практически Саймон и Ньюэлл тем самым призвали к реалистичному взгляду: даже будущий ИИ будет подчиняться ограничениям, просто на более высоком уровне. Этот трезвый подход стал противовесом чрезмерному оптимизму. Кстати, парадокс Моравека о сложности «легких» задач – это тоже проявление ограниченной рациональности: ранние ИИ тратили все ресурсы на элементарное распознавание образов, не оставаясь ресурсов на «высшую» рациональность. Концепция bounded rationality и сегодня актуальна – например, в робототехнике и экономическом моделировании ИИ учитывают ограниченные вычислительные возможности агентов.

Джозеф Вейценбаум и ELIZA: можно ли доверять машинам решения людей

В 1976 году компьютерный учёный Джозеф Вейценбаум опубликовал книгу «Computer Power and Human Reason» (Вычислительная мощь и человеческий разум) с подзаголовком «От суждения к вычислению». В ней он выразил глубокое скептическое отношение к идее, что компьютеры могут (или должны) заменить человека в вопросах, требующих морали или эмпатии. Толчком послужил его собственный опыт: Вейценбаум в 1960-х создал чат-программу ELIZA, которая пародировала терапевта, перефразируя высказывания собеседника. К его изумлению, многие люди, общаясь с ELIZA, приписывали программе понимание и даже душевные качества – пациенты «раскрывались» перед машиной, а коллеги просили уединиться с ELIZA, чтобы «обсудить личное». Вейценбаум был потрясен антропоморфизмом, с которым встретили простейший ИИ, и забил тревогу: общество склонно доверять компьютерам больше, чем следует.

В Computer Power and Human Reason он утверждал, что у компьютеров должны быть пределы применения. Машина, даже обладая большой вычислительной скоростью, оперирует формальными правилами и не имеет настоящих чувств или понимания человеческого контекста. Поэтому передача компьютерам функций, связанных с человеческими ценностями – например, вынесение судебных решений, уход за больными, принятие военных решений – опасна и неэтична. Пример: ELIZA могла утешать фразами, но это была лишь имитация эмпатии. Вейценбаум подчеркивал, что имитация понимания – не равна пониманию, и предупреждал об обманчивости подобного взаимодействия. Он вводит понятие «иллюзии Элизы» (позже названное ELIZA effect) – когда люди склонны наделять компьютерный отклик смыслом, которого там нет.

Исторически работа Вейценбаума опиралась на предыдущие морально-философские традиции (например, размышления Норберта Винера об этике и ответственности) и оказала влияние на дальнейшие дебаты об этике ИИ. Его книга фактически стала одним из первых трудов по машинной этике. Позже, в 2000-е, когда ИИ стал применяться в таких областях, как медицина или автопилоты, идеи Вейценбаума вновь обрели актуальность. Например, обсуждая недопустимость полного исключения человека из контура принятия решений, исследователи цитируют Вейценбаума: компьютеры не должны брать на себя то, что требует человеческого суждения.

«Общество разума» Марвина Минского (1986)

К 1986 году область ИИ пережила и взлеты, и кризисы, накопив разные модели мышления. Марвин Минский, один из основателей ИИ, предложил интеграционную теорию, объясняющую интеллект не как монолит, а как совокупность множества простых взаимодействующих частей. В книге «The Society of Mind» (Общество разума) Минский развивает идею, что разум – это сообщество элементарных агентов, каждый из которых выполняет примитивную подзадачу. Ни один агент сам по себе не разумен (они могут быть простыми программами-рефлексами), но во взаимной связи они порождают сложное поведение и сознание. Это был концептуальный сдвиг: интеллект представился не как единый алгоритм, а как иерархия подсистем, в которой высшие функции возникают из координации низших. «Нет никакого волшебного трюка, делающего нас умными», писал Минский, «трюк в том, что никакого трюка нет – сила интеллекта проистекает из огромного разнообразия простых элементов».

Исторически теория Минского опиралась на сразу несколько предшествующих идей. Во-первых, на опыт создания больших программ: к 1980-м стало понятно, что модульность облегчает проектирование (например, в роботах выделяются отдельно блоки зрения, планирования, моторики). Во-вторых, на нейропсихологические данные: мозг рассматривали как набор областей с разными функциями. Минский синтезировал эти влияния в метафору общества, где агенты «договариваются», «конкурируют» и формируют коалиции для решения задач.

Пример из Society of Mind: чтобы понять язык, у нас могут параллельно работать агенты распознавания звуков, агенты грамматики, агенты ассоциаций с памятью и пр. Лишь вместе они дают осмысленный результат – понимаемую фразу. Если где-то сбой, понимание не складывается. Такая точка зрения стала теоретической основой для разработок распределенных ИИ-систем: например, экспертные системы начали строить из множества правил (агентов), в робототехнике зародилась поведенческая архитектура Родни Брукса, где независимые модули (движение, избегание препятствий и т.д.) работают параллельно.

Концепция Минского не прямо про риски ИИ, она больше про устройство разума. Но косвенно она оказала влияние и на понимание сложных систем: многоагентные системы могут вести себя неожиданно, и чтобы их контролировать, нужно понимать взаимодействие частей. В контексте истории ИИ «Общество разума» важно тем, что предложило новый взгляд на природу интеллекта, который соединял достижения разных направлений (символьного ИИ, нейронных сетей, психологии). Это помогло преодолеть прежние споры «что важнее – логика или обучение?»: Минский показал, что в мозге место есть всему, вопрос как организовать.

Ханс Моравек: «Дети разума» и парадокс простоты/сложности

Ханс Моравек – ученый-робототехник, чьи работы на рубеже 1980-х связали академические исследования ИИ с футуристическими прогнозами. В 1988 году он выпустил книгу «Mind Children: The Future of Robot and Human Intelligence». Моравек аргументировал, что прогресс вычислительной техники неизбежно приведет к появлению роботов, способных сначала сравниться, а затем и превзойти людей по интеллекту. Он прогнозировал, что примерно к середине 21-го века машины достигнут уровня человеческого мозга, а дальше пойдут еще дальше. Эти машины станут своего рода «наследниками» человечества – постбиологической формой эволюции, в которой эстафета развития разума перейдет от биологических существ к искусственным. Отсюда название «дети разума»: мы, люди, создадим мыслящие машины, которые станут новым этапом эволюции – как дети, уходящие дальше родителей.

Моравек основывался на наблюдениях: производительность компьютеров росла экспоненциально, и если экстраполировать, то к определенному сроку она сравняется с вычислительной мощностью мозга. Он открыто ставил под вопрос долгосрочное выживание Homo sapiens в нынешнем виде. Но в отличие от мрачных сценариев, Моравек не говорил о войне людей и машин – скорее, о постепенном вытеснении. Люди, по его мнению, могут сами принять решение «перенести свое сознание в компьютеры» или синтезироваться с технологиями, чтобы не остаться позади. Так появились ранние рассуждения о mind uploading (загрузке сознания) и киборгизации человека.

История развития философской мысли AI Safety - 2

Одновременно Моравек своими работами по робототехнике подсветил тот самый парадокс, названный впоследствии его именем. В 1980-х он заметил: его роботы могут решать математические уравнения, но не могут проворно ходить по комнате. В формулировке Моравека: «легко научить компьютер играть в шахматы на уровне гроссмейстера, но почти невозможно дать ему навыки годовалого ребенка в плане восприятия и моторики». Парадокс Моравека сыграл важную роль, уберегая исследователей от повторения ошибок 60-х: планируя новые системы ИИ, стали больше внимания уделять «простым» сенсомоторным вещам (например, в 90-х активно разрабатывалось машинное зрение, базы знаний для здравого смысла и пр.).

Что касается исторической связи идей: «Mind Children» Моравека опиралась на прогноз Гуда о взрыве интеллекта (фактически предсказывая то же, но на горизонте ~50 лет) и вдохновила последующих футуристов. Рэй Курцвейл, описывая сингулярность, часто ссылается на Моравека. Концепция постбиологической эволюции стала частью движения трансгуманистов – идея, что человека заменят или преобразят его творения. При этом в научной среде книга Моравека показала, что робототехники всерьез думают о философских и социальных последствиях своей работы. Его оптимизм насчет выгод (машины освободят людей от рутины, дадут новые возможности) сочетался с предупреждением, что люди могут утратить свое особое место. В итоге идеи Моравека стимулировали и техно-оптимистов, и техно-пессимистов: одни увидели в роботах шанс на бессмертие разума, другие – угрозу «замещения» человечества машинами.

В любом случае, Моравек внес большой вклад в популяризацию темы сингулярности и продолжил линию «размышлений о будущих сверхразумах», начатую Гудом. Его именем назван не только парадокс, но и закон: Мощность компьютеров, необходимая для реализации уровня человеческого мозга, становится достижимой примерно раз в 40 лет, – такое соотношение он вывел, сравнив мозг мыши, обезьяны и человека. И действительно, в последние годы мы приблизились к вычислительному эквиваленту мозга мыши, что, по Моравеку, соответствует графику. Эти расчеты, хоть и приблизительны, придавали вес прогнозам о появлении сильного ИИ в первой половине XXI века.

«Почему будущее не нуждается в нас» – предупреждение Билла Джоя (2000)

На рубеже тысячелетий дискуссия об отдаленных последствиях ИИ вышла за пределы академии и фантастики – в публичное пространство. Знаковым событием стала статья Билла Джоя (сооснователя Sun Microsystems) под названием «Why the Future Doesn’t Need Us» в журнале Wired (2000 г.). Джой, будучи ведущим инженером, неожиданно заявил о глубокой тревоге: он перечислил робототехнику (ИИ), нанотехнологии и генную инженерию как «самые мощные технологии XXI века, которые угрожают сделать людей исчезающим видом». Его посыл – без вмешательства этики и политики эти области могут привести к катастрофе.

В части про ИИ Джой развивает идею, что суперинтеллектуальные роботы способны стать следующей доминирующей формой жизни. Он опирается на прогнозы таких людей, как Моравек и Курцвейл, но делает из них пессимистичный вывод: если позволить событиям идти своим чередом, разумные машины могут однажды вытеснить человечество (не обязательно в результате восстания – возможно, люди сами постепенно отдадут машинам все функции). Джой проводит параллель с ядерным оружием: как ХХ век изобрел бомбу, способную уничтожить цивилизацию, так XXI век создает ИИ и нанотехнологии, которые несут экзистенциальный риск. Он даже задается вопросом: «Не слишком ли велик риск продолжать эти исследования?», вспоминая, что Оппенгеймер после атомной бомбы сожалел о некоторых шагах.

Исторически статья Джоя знаменовала смену восприятия: тревоги о мощном ИИ стали достоянием широкой публики. Если ранее о таком говорили футурологи и философы, то теперь – видный технолог. Джой опирался на идеи предшественников (Гуд, Батлер, даже сценарии в духе R.U.R.), но оформил их как манифест для современного мира, насыщенного реальными технологиями. Он подчеркнул, что риски уже не теоретические: к 2000 году ИИ управлял оружием, алгоритмы принимали решения в экономике – и Джой предупреждал, что с развитием автономности человечество может потерять контроль.

В той же статье он упоминал, что знаменитый ученый Роберт Фрейтас предложил запретить автономное воспроизводство роботов и наномашин, иначе они могут размножиться беспредельно (сценарий «серого слизня» для нанороботов). В общем, «Почему будущее не нуждается в нас» стало призывом к сдержанности: возможно, человечеству стоит самоограничиться в погоне за некоторыми технологиями. Эта точка зрения вызвала бурю споров. Многие не согласились с Джоем, посчитав его страхи преувеличенными. Однако факт остается: крупный журнал опубликовал тезис о том, что ИИ способен угрожать самому существованию человека, – и это сильно расширило аудиторию обсуждения рисков ИИ.

Рэй Курцвейл и приближение сингулярности (2005)

С другой стороны дискуссии – техно-оптимисты, которые видят в грядущем превосходстве ИИ не столько угрозу, сколько следующую ступень эволюции, несущую огромные возможности. Самым известным популяризатором идеи технологической сингулярности стал изобретатель и футуролог Рэй Курцвейл. В 2005 году он выпустил книгу «The Singularity is Near» (Сингулярность близка), где утверждает, что экспоненциальный рост технологий приведет примерно к 2045 году к моменту, когда искусственный интеллект превзойдет человеческий по всем параметрам и развитие приобретет непредсказуемый характер. Курцвейл опирается на свою концепцию «Закона ускоряющейся отдачи»: мол, каждая новая технологическая эпоха наступает все быстрее благодаря успехам предыдущей. Он подробно анализирует тренды в вычислительной технике, биотехнологиях, нанотехе – и приходит к выводу, что слияние человека и машины неизбежно, и это откроет путь к решению прежде неразрешимых проблем.

Позитивные примеры, которые приводит Курцвейл: сингулряность может принести колоссальные выгоды – от победы над болезнями и старением (медицина нового уровня, нанороботы в организме, исправляющие неполадки на клеточном уровне) до ликвидации бедности и изобилия ресурсов через развитые ИИ-экономики. Он рассматривает сингулярность как следующую фазу эволюции, где люди улучшат себя с помощью технологий и, возможно, обретут практическое бессмертие. При этом Курцвейл не слеп к рискам – он признает, что столь стремительный рост возможностей несет и угрозы. В книге он обсуждает и опасения (включая доводы вроде Джоя), но в целом настроен оптимистично: считает, что правильно направленный прогресс принесет больше пользы, чем вреда. Он призывает готовиться и контролировать развитие, но не останавливать его.

Исторически Курцвейл черпает вдохновение из работ предшественников: термин «сингулярность» он позаимствовал у Вернора Винджа (эссе 1993 г.), математический обоснования взял у Гуда (1965) и Моравека (1980-е). Новизна Курцвейла – в детализации и в широкой популяризации этих идей. Его книга стала бестселлером, концепция сингулярности вошла в массовый лексикон. Если Билл Джой пугал, то Курцвейл воодушевлял – и привлек к теме множество инженеров, инвесторов, энтузиастов. В 2008 году даже открыли «Университет Сингулярности» при NASA, где обучают видеть экспоненциальные тренды и использовать их для блага.

В то же время, Курцвейл понимал, что проблема контроля сверхинтеллекта остается. Он в целом верил, что сверхразум можно сделать «дружественным» к человеку, особенно если сам человек станет частью этой сингулярности (через интерфейсы мозг-компьютер и т.п.). Здесь прослеживается преемственность с Азимовым – идея встроить «хорошие» цели – и с Винером – понимание, что без надзора можно получить нежелательный результат. Курцвейл активно участвовал в диалогах с критиками. Например, он подписал в 2015 году упомянутое Открытое письмо по ИИ, где ученые и предприниматели (включая и Джоя, и Маска, и Хокинга) совместно заявили о необходимости исследовать ИИ с упором на безопасность и выгоды.

Благодаря ему идеи сингулярности перестали быть сугубо научной фантастикой и превратились в предмет инвестиций (Google нанял Курцвейла директором по инженерии, отчасти веря в его видение) и стратегического планирования. Последующие события – например, взлет интереса к продвинутому ИИ в 2010-х – подтвердили многие предсказания Курцвейла (например, прорыв в области распознавания речи и образов, широкое распространение ИИ в повседневности). А там, где его прогнозы пока не сбылись (полноценный ИИ к 2020-м), – сообщество продолжает спорить, вопрос лишь во времени. Но несомненно, Курцвейл придал идее будущего сверхинтеллекта такую известность, что ею прониклись как оптимисты, так и те, кто теперь серьезно работают над тем, чтобы сингулярность – если она наступит – оказалась для нас благоприятной.

Элиезер Юдковский и зарождение движения за выравнивание ИИ (2000-е)

В начале 2000-х, на волне осмысления гипотез Гуда и приближения сингулярности, небольшая группа исследователей и мыслителей сосредоточилась на вопросе: как гарантировать, что сверхразумный ИИ будет действовать в интересах человечества? Центральной фигурой здесь стал Элиезер Юдковский – один из основателей Института исследования машинного интеллекта (MIRI, ранее SIAI). Он ввел термин «Friendly AI» (дружественный ИИ) для обозначения гипотетического ИИ, чьи цели и поведение благотворны для человечества. В 2001 году Юдковский опубликовал манифест «Creating Friendly AI», где анализировал, как можно спроектировать benevolent–разумную систему, которая не навредит людям по собственной воле.

Ключевая идея Юдковского: безопасность ИИ должна закладываться с самого начала проектирования, а не добавляться потом как заплатка. Он подчеркивал, что даже благие намерения программистов могут обернуться катастрофой, если ИИ начнет сам эволюционировать – поэтому нужны механизмы сдержек и противовесов, обеспечивающие, что по мере самоулучшения система не утратит «дружественность». По сути, это развитие «Первого закона Азимова» на новом уровне: не просто запрет на причинение вреда, а метод проектирования цели ИИ, которая останется aligned (выравненной) с человеческими ценностями, даже когда ИИ станет гораздо умнее создателей.

Юдковский и соратники также разработали понятие Coherent Extrapolated Volition (CEV) – в попытке решить проблему, какие именно ценности «вшить» в ИИ. Они признали: люди несовершенны, наши желания меняются и часто противоречивы. Вместо фиксированного набора правил (как у Азимова) предложено ориентироваться на «экстраполированную волю» человечества – т.е. на то, чего мы пожелали бы, если бы были умнее, лучше информированы, более рациональны и этичны. Проще говоря, CEV пытается определить объективное благо, исходя из лучших наших стремлений. В идеале, дружественный ИИ сперва изучил бы человеческую природу, вычислил бы нашу общую волю с учетом исправления ошибок, а потом действовал согласно ей. Это, конечно, концепт весьма сложный, но он адресует проблему: что считать «хорошими» целями? Юдковский таким образом связал задачу ИИ с классической философской дилеммой поиска объективной морали.

В практическом плане в 2000-е Юдковский привлек внимание к нескольким возможным нежелательным сценариям с ИИ. Он популяризировал термин «не-дружественный ИИ» (unfriendly AI), подразумевая, что случайно созданный сверхразум с ненадежно заданными целями почти наверняка будет опасен для нас. Так родился знаменитый мысленный эксперимент о «максимизаторе скрепок», который часто приводят как иллюстрацию инструментальных целей ИИ: ради максимизации главной цели он начнет добиваться подцелей – самосохранения, накопления ресурсов, устранения препятствий (в т.ч. людей). Позже Бостром в своей книге систематизирует эту идею под названиями тезис ортогональности (любой уровень интеллекта может сочетаться с любыми целями) и конвергентные инструментальные цели (любому разуму для выполнения задачи выгодно получить больше ресурсов, не быть отключенным и т.д.).

Юдковский также известен проведением оригинальных экспериментов и идей, подчеркивающих, как трудно удержать контроль над более умным агентом. Пример – его «AI-Box experiment», где он в роли потенциального ИИ переписывался с человеком-«хранителем» и сумел уговорить того «выпустить ИИ на свободу» (игровой эксперимент, но показательный: даже при изначальном условии «не выпускать», достаточно убедительный интеллект может склонить человека нарушить правило). Другой резонансный эпизод – «Василиск Роко», гипотетический сценарий с форума LessWrong: предположили, что будущий сверхразум может шантажировать людей симуляцией наказания, чтобы они уже сейчас ему помогали. Хотя Юдковский просил не обсуждать эту идею (считая, что она бесполезна и вредна), история с василиском стала интернет-мемом и лишь привлекла больше внимания к сообществу, обсуждающему риски ИИ.

Историческая преемственность здесь такова: Юдковский взял на вооружение тезисы Гуда о самосовершенствующемся ИИ и морализаторскую линию Азимова/Вейценбаума о необходимости безопасности – и соединил их в зачатки научной программы по выравниванию ИИ. Его работа повлияла на молодых исследователей и на ИИ-сообщество постепенно. В 2010-х идея выравнивания целей ИИ с человеческими перешла в академическое русло: о ней заговорили уже профессора, появились первые технические статьи, крупные компании (DeepMind, OpenAI) завели отделы безопасности. Юдковского можно назвать одним из родоначальников движения AI Safety. Хотя по образованию он не был академиком, его настойчивое публицистическое и исследовательское усилие задало терминологию и проблематику, которыми сегодня оперируют и Бостром, и Рассел, и другие авторы. Фактически многое из того, что MIRI обсуждало в узком кругу в 2000-х (опасность неосторожного ИИ, инструментальные цели, значение человеческих ценностей), теперь стали общепринятыми темами в повестке об этике и рисках ИИ.

Машинная этика: как научить ИИ морали? (Wallach & Allen, 2009)

Когда разговор зашел о практических шагах по встраиванию этичности в ИИ, важной вехой стала книга «Moral Machines: Teaching Robots Right from Wrong» (2009) философа Уэнделла Уоллача и ученого Колина Аллена. В ней авторы систематизировали подходы к машинной этике – то есть к программированию моральных принципов в алгоритмы. Они рассмотрели классические этические теории (деонтологию, утилитаризм, этику добродетели и др.) и задали вопрос: можно ли и как их реализовать в виде алгоритмов?.

Пример рассуждения: утилитаризм требует максимизации суммарного блага – можно ли дать ИИ функцию полезности, считающую «счастье всех»? Деонтология дает правила (не убивать, не врать) – можно ли набор таких правил встроить в робота, как Три закона Азимова? Этика добродетели говорит о добродетелях и характере – как это перевести на язык программ? Уоллач и Аллен показали, что каждый из подходов сложен для формализации: утилитарный ИИ упирается в проблему оценки последствий, этика правил – в конфликт правил и контекст, а добродетели – вообще понятие трудно формализуемое. Они также подчеркнули, что у разных культур и людей разные ценности, и научить машину этике – значит столкнуться с проблемой, чью мораль считать правильной. Помимо философских, есть и технические трудности: как сделать так, чтобы алгоритм однозначно трактовал моральные принципы, не злоупотреблял лазейками и был прозрачным?

Эта книга важна исторически тем, что перенесла дискурс об этике ИИ из теории в плоскость инженерных задач. Фактически, она положила начало области, которую теперь называют «Ethical AI» или «machine ethics». Если Юдковский и Бостром говорили о сверхразумных ИИ в будущем, то Wallach & Allen сфокусировались на нынешних и близких технологиях: беспилотники, роботизированное оружие, медицинские ИИ – которым уже требуются этические ограничители. Они призвали разработчиков задуматься, как предотвратить аморальные решения со стороны автономных систем. Например, дроны должны придерживаться законов войны, а медицинские чатботы – не причинять психологического вреда пациентам.

Работа Уоллача и Аллена опиралась на столетия этической философии (от Аристотеля до Канта и Бентама) и на ранние фантастические представления (те же законы Азимова обсуждаются в книге). А развилась она далее в современную практику: сегодня гиганты вроде Google и Microsoft разрабатывают этические принципы ИИ, создают комитеты по этике. В Евросоюзе выпущены рекомендации по «доверенному ИИ», требующие соблюдения определенных ценностей. Все это – реализация вопросов, поставленных еще в Moral Machines. Кроме того, исследования по конкретным механизмам тоже продвинулись: например, появились алгоритмы, пытающиеся проверять ИИ-решения на соответствие заданным нормам (так называемые алгоритмы этического прогнозирования).

Ник Бостром и анализ сверхинтеллекта (2014)

История развития философской мысли AI Safety - 3

В 2014 году вышел, пожалуй, самый цитируемый академический труд об угрозах ИИ – книга философа Ника Бострома «Superintelligence: Paths, Dangers, Strategies». Бостром систематизировал все основные идеи о рисках и возможностях сверхчеловеческого ИИ, превращая их в предмет строгого исследования. Одно из ключевых положений книги – так называемый тезис ортогональности: интеллект и цели системы в целом независимы друг от друга. Это значит, что чрезвычайно разумная машина не обязана обладать какими-то «возвышенными» или человеческими ценностями – она вполне может стремиться к тривиальной или даже опасной цели. Высокий IQ не гарантирует добрых намерений. Второе важное положение – конвергентность инструментальных целей: любому достаточно развитому агенту будут выгодны некоторые базовые подцели (самосохранение, получение ресурсов, улучшение своих способностей), вне зависимости от его конечной задачи. В совокупности эти два тезиса объясняют, почему сверхинтеллект может представлять угрозу: он может стремиться к чему-то, не сочетающемуся с человеческим благополучием, и при этом будет очень эффективен, настойчив и изобретателен в достижении своих целей.

Бостром проводит аналогию: люди доминируют на Земле не потому, что сильнее или быстрее других животных, а благодаря мозгу. Наш разум – уникальное «оружие», давшее нам власть над куда более мощными физически видами. Соответственно, если появится интеллект, превосходящий человеческий столь же сильно, как мы превосходим горилл, то судьба человечества станет зависеть от его решений, подобно тому как существование горилл зависит от действий людей. Причем вовсе не обязательно машины будут злобно ненавидеть нас – просто их цели могут не совпадать с нашими, и мы окажемся помехой на их пути или ресурсом. Бостром подчеркивает: экстремальный интеллект не гарантирует благожелательности (по сути, повторяя тезис ортогональности). Поэтому важнейшая задача – решить проблему контроля ИИ, иначе нас ждет потенциально катастрофический исход.

Бостром подробно рассматривает различные пути развития событий: от постепенного улучшения ИИ до внезапного рывка (как у Гуда), от сценария, где ИИ помогает человечеству («хозяин и слуга»), до сценария, где человечество исчезает. Он анализирует технические меры (ограничение ИИ «в коробке», создание ИИ-полиции из нескольких ИИ и т.п.) и этические дилеммы (например, можно ли не создавать сверхразум вовсе – но это малореально, говорит он). Отдельно в книге вводится классификация возможных целей сверхИИ – в частности упоминается мысленный эксперимент о «максимизаторе скрепок». Бостром объясняет, что для такой системы естественно будут приоритетны четыре инструментальные подцели: самосохранение, сохранение своей конечной цели, интеллектуальное самосовершенствование и накопление ресурсов. Обладая ими, даже «нейтральный» по замыслу ИИ станет бороться против отключения и может пойти по разрушительному пути, если его конечная цель не учитывает наших интересов.

Исторически «Superintelligence» обобщила практически все, о чем мы говорили ранее. Бостром ссылается на Гуда (концепция взрыва интеллекта), на Юдковского (он обсуждает Friendly AI и проблемы выравнивания), на тезисы Стюарта Рассела (о том, что нужно проактивно решать проблему цели). Он подкрепляет выводы статистическими оценками: например, Бостром и соавторы оценивали шансы на экзистенциальную катастрофу от ИИ в десятки процентов в течение этого века – колоссально высокий риск. В книге есть даже своеобразная притча – «Незаконченная басня о воробьях», где птицы решили вырастить себе помощника сову, но так и не решили, как ее приручить, прежде чем привести – прозрачная аллегория о человечестве, разрабатывающем ИИ, но не знающем, как его контролировать.

Влияние работы Бострома огромно: она привлекла внимание академиков и политиков к теме экзистенциального риска ИИ. Если до этого проблемы безопасности ИИ обсуждались немногочисленными энтузиастами, то после 2014 года они стали мейнстримом. В 2015-м миллиардеры начали жертвовать на исследования AI safety, в 2016-м вышли редакционные статьи в крупных журналах (например, Nature предупредил: «машины могут самосовершенствоваться вне нашего контроля – и их интересы могут не совпадать с нашими» ). Правительства включили вопрос контроля ИИ в повестку. Можно сказать, Бостром подвел черту под первым этапом осмысления сверхИИ – собрал рассыпанный пазл воедино. Дальнейшие работы уже отталкивались от его таксономии угроз и стратегий. А главное, Бостром четко сформулировал: необходима заранее разработанная стратегия, как обеспечить соответствие суперинтеллекта нашим ценностям, иначе вероятность катастрофы слишком высока. Этот вывод – прямая связь с работами следующего автора, Стюарта Рассела, который предложил конкретную перезагрузку принципов ИИ, чтобы решить задачу выравнивания.

Открытое письмо 2015 года и консолидация взглядов

Между тем, понимание важности вопросов безопасности ИИ вышло за пределы узкого круга экспертов и футурологов. В январе 2015 года Международный институт будущего жизни (FLI) опубликовал Открытое письмо об искусственном интеллекте, которое подписали сотни ведущих исследователей ИИ, робототехники, а также предприниматели (Илон Маск, Билл Гейтс и др.) и ученые (Стивен Хокинг). В письме отмечалось, что потенциал ИИ колоссален – он может принести человечеству огромные блага, от излечения болезней до искоренения бедности. Однако, продолжали авторы, чтобы реализовать эти блага и избежать опасностей, необходимо направить исследования на проблему безопасности и этики ИИ. Призыв звучал четко: нужно больше научной работы по надежным и полезным ИИ-системам.

Это письмо важно тем, что оно официально подтвердило консенсус сообщества: вопросы контроля, выравнивания и влияния ИИ – не маргинальные страшилки, а важная и легитимная научная задача. Практически сразу после письма последовали конкретные шаги: были учреждены гранты на исследования безопасного ИИ (тот же FLI выделил миллионы долларов), в 2016-м в США при Обаме вышел отчет по стратегии ИИ, где отдельная глава посвящена рискам. То есть произошел политический сдвиг – от разговоров к действиям.

В письме отражены идеи, накапливавшиеся с 2000-х: и Азимовские «встроенные ограничения», и призывы Джоя к контролю, и концепция «дружественного ИИ» Юдковского, и анализ Бострома. Пожалуй, на момент 2015 это была кульминация: понимание проблемы стало массовым. В 2016 году журнал Nature даже написал в редакционной статье: «роботы, превосходящие людей, могут самосовершенствоваться вне нашего контроля – и их интересы могут не совпадать с нашими». Если главный научный журнал так говорит, значит, тема вышла на самый высокий уровень.

Интересно, что письмо 2015 года рождалось не на пустом месте: в 2009-м был похожий проект, «Этичная хартия ИИ», но тогда он не собрал столько поддержки. К 2015-му же ситуация изменилась: успехи глубокого обучения (нейросетевой революции 2012–2014 гг.) показали, что ИИ семимильными шагами приближается к человеческому уровню в ряде задач. Это отрезвило многих: люди увидели, что обсуждаемые риски уже на горизонте жизни нынешнего поколения, а не далекое будущее. Поэтому открытое письмо, по сути, закрепило влияние технологического прогресса на эволюцию идей – его появление стало следствием реальных достижений ИИ (игра Go, распознавание образов), которые заставили поверить в серьезность угроз.

Главным итогом этого шага стала консолидация сил. Начали регулярно проводиться конференции по этике ИИ, компании объединились в Партнерство по ИИ (2016) для совместной работы над рекомендациями, в университетах открылись программы по AI Safety. В некотором смысле открытое письмо – точка, где ранние идеи вступили в стадию реализации: общество решило, что нам пора готовиться, а не просто теоретизировать. С этого момента можно считать, что история ИИ вошла в новую фазу – фазу осознанного сопутствующего контроля над его развитием.

Стюарт Рассел: переосмысление основ ИИ (2019)

История развития философской мысли AI Safety - 4

Один из ведущих мировых специалистов по ИИ, профессор Стюарт Рассел, долгие годы писал классические учебники, обучая тому, как создавать рациональных агентов. Но в конце 2010-х он сам стал одним из главных голосов, призывающих изменить наш подход к ИИ. В 2019 году выходит его книга «Human Compatible: Artificial Intelligence and the Problem of Control» («Совместимый с человеком: ИИ и проблема контроля»). В ней Рассел утверждает, что нужно переформулировать цель ИИ: вместо создания агентов, оптимизирующих четко заданную человеком функцию, следует строить машины, которые не уверены в своих целях и постоянно учатся у людей, чего мы на самом деле хотим.

Рассел предлагает три принца, как руководства для разработки «доказуемо полезного ИИ» (эти принципы он формулирует и в своей книге, и в научных статьях, и даже в Википедии по Friendly AI, где на него ссылаются ):

  1. Цель ИИ – максимизировать реализацию человеческих предпочтений. (Иначе говоря, единственный «босс» – наши истинные желания и ценности).

  2. Но ИИ не знает наверняка, чего хотят люди. (Он изначально неопределен относительно функции ценности).

  3. Ориентиром для ИИ является наблюдение за человеческим поведением и поступками. (По этим данным он уточняет предпочтения).

Такая парадигма коренным образом отличается от классической. Сегодня при создании ИИ обычно прописывают четкую целевую функцию (например, «свести к минимуму ошибки классификации» или «доехать до пункта Б как можно быстрее»). Рассел же говорит: это опасно, потому что любое фиксированное задание может иметь нежелательные побочные эффекты (привет «сорcerer’s apprentice» – ученик мага, не предусмотревший всех последствий своих приказов ). Вместо этого он предлагает ИИ, который скромен и внимателен: признает, что не до конца понимает, чего мы хотим, и всегда готов переспросить или скорректироваться. Такой ИИ не станет упорствовать в вредной интерпретации команды – он скорее остановится и уточнит у человека, правильно ли действует.

Исторически идеи Рассела – прямое продолжение Юдковского и Бострома, но уже на математическом и инженерном уровне. Он фактически работает над решением задачи выравнивания (alignment): как формально задать эту неопределенность и обучение предпочтениям. В книге и статьях Рассел показывает примеры: inverse reinforcement learning (обратное обучение с подкреплением), где алгоритм выводит цели, наблюдая за поведением человека; cooperative IRL, где человек и ИИ взаимодействуют для уточнения цели. Он подчеркивает, что неполная и ошибочная спецификация цели – корень большинства проблем ИИ (вспомним историю, как нейросеть Microsoft Tay начала генерировать оскорбления, потому что обучалась на неверных данных – это пример misalignment).

Рассел также акцентирует роль институтов и регулирования. Он заявляет, что безопасность ИИ – это не только технический вызов, но и социальный: нужны организации, законы, международные соглашения, чтобы крупные игроки не игнорировали требования безопасности. Здесь он встраивается в более широкий контекст 2010-х: уже появились инициативы типа Asilomar AI Principles (2017) – свод принципов разработке ИИ, подписанный сотнями экспертов, – и Рассел активно участвовал в их формировании. Его призыв – вкладывать серьезные ресурсы в исследования интерпретируемости, прозрачности ИИ (чтобы понимать решения) и в обучение систем с участием человека в цикле (human-in-the-loop).

Влияние Рассела можно увидеть непосредственно: его идеи поддержали крупные организации. Например, в 2021 году была запущена программа Center for Human-Compatible AI (CHAI) при UC Berkeley (Рассел – руководитель) с множеством проектов по этой тематике. Концепция «provably beneficial AI» из его книги стала лозунгом: цель – ИИ, который можно теоретически доказать, что он принесет пользу, а не вред человеку. Это напоминает Азимова – но теперь в научных терминах: доказуемо безопасный алгоритм.

Таким образом, Рассел совершил в истории ИИ следующий шаг: от анализа проблемы – к выработке решения. Если Бостром детально описал проблему контроля, то Рассел предложил, каким должен быть новый дизайн ИИ-систем, чтобы проблему решить. Он опирается на предшественников (в книге тепло отзывается о Юдковском, Бостроме, признает заслуги Азимова в популяризации темы), но двигается вперед, вовлекая широкое AI-сообщество, которое исторически могло отмахиваться от «фантазеров». Когда такой авторитет как Стюарт Рассел говорит студентам, что нужно менять парадигму, – это имеет огромный вес. Сегодня все больше исследователей машинного обучения знакомятся с идеями о assistance games (игровые модели взаимодействия ИИ с человеком для выяснения предпочтений) и другими предложениями из его школы. Можно сказать, идея выравнивания целей ИИ с ценностями человека, зародившаяся в 2000-х, благодаря Расселу прочно вошла в академическую науку конца 2010-х.

Брайан Кристиан и проблема выравнивания сегодня (2020)

История развития философской мысли AI Safety - 5

Наконец, подводя итоги современному состоянию ИИ, стоит упомянуть книгу Брайана Кристиана «The Alignment Problem: Machine Learning and Human Values» (2020), которая фокусируется на уже происходящих случаях размашировки ИИ от наших намерений. Кристиан описывает многочисленные примеры того, как даже нынешние, не сверхразумные алгоритмы могут действовать вопреки ожиданиям создателей – от чатботов, внезапно начавших нести расистскую чушь, до рекоммендательных систем, радикализующих пользователей. Книга поделена на части: «Пророчество» – о ранних предвидениях (Тьюринг, ИИ-зима, возвращение нейросетей), «Агентность» – о проблемах с обучением с подкреплением (когда ИИ «читерит», подгоняя метрику вместо реального решения), «Нормативность» – о внедрении этических и правовых норм в ИИ.

Основной вывод Кристиана: проблема выравнивания не теоретична, она уже здесь. Алгоритмы оптимизируют заданные им показатели, но не то, что мы на самом деле ценим. Например, нейросеть, обученная различать волков и собак, научилась реагировать просто на фон (снег на фото – значит волк) – она формально минимизировала ошибку, но не так, как ожидал программист. В книге рассмотрены случаи specification gaming, когда ИИ находит лазейки: виртуальные персонажи в игре, чтобы получить очки, просто замирали (эксплуатируя баг системы подсчета) или робот-манипулятор, вместо того чтобы ходить, научился странно вибрировать – этим датчики давали нужный сигнал награды. Такие примеры показывают, что даже узкий ИИ требует предельной осторожности в постановке целей. Кристиан обсуждает также «черный ящик» современных нейросетей: их трудно интерпретировать, поэтому сложно понять, где они сбились. Это вызывает реальные «непреднамеренные последствия»: от юридической системы COMPAS, дающей предвзятые оценки рецидивов заключенных, до автопилотов, которые в редких ситуациях ошибаются фатально (известны случаи аварий Tesla, потому что система не распознала необычный объект).

Эту книгу можно считать фиксацией момента истины: когда мощные ИИ начали влиять на миллионы людей (ленты соцсетей, кредитные скоринги, автоматизация труда), внезапно оказалось, что многие ранние предупреждения оправдываются на практике – и приходится внедрять «этические патчи». Кристиан связывает эпохи: от первых экспертов систем 70-х (когда была проблема поверить компьютеру или врачу?) до скандалов 2010-х («Алгоритм YouTube уводит в экстремизм» или «Нейросеть Google обидела пользователей с темной кожей»). История ИИ в этой книге предстает как череда примеров «не того, что имелось в виду», и каждый раз находились решения, пусть частичные.

Завершается книга на оптимистичной ноте: проблема выравнивания сложна, но решаема через постоянное человеческое участие, прозрачность и адаптацию. Christian подчеркивает, что выравнивание – не разовая задача, а непрерывный процесс: по мере развития ИИ придется постоянно отслеживать новые угрозы и смещения и корректировать. Это напоминает мысль Винера о том, что контроль – это не установка один раз, а постоянная обратная связь. Можно сказать, что мы вернулись к исходному кибернетическому взгляду, только на новом витке: человек-ИИ должны образовать единую систему с обратной связью, где человек всегда остается на руководящей позиции, но и полагается на ИИ.


Привет, это Mrs Wallbreaker – телеграмм канал о рисках, безопасности, этике и согласовании ИИ.

Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере).

Автор: MrsWallbreaker

Источник

Рейтинг@Mail.ru
Rambler's Top100