Искусственный интеллект стремительно меняет нашу жизнь, но его внутреннее устройство в какой-то степени остается загадкой даже для создателей. Ученые по всему миру пытаются разгадать тайны больших языковых моделей, чтобы сделать ИИ более понятным и безопасным. Мы в Platforma нашли и адаптировали для вас интересную статью из The Economist о последних достижениях в области «расшифровки» ИИ.
Большинство из нас не понимает, как работает двигатель машины или компьютер. Это можно сравнить с «черным ящиком»: неважно, что происходит внутри, главное — чтобы работало. При этом создатели таких сложных систем знают все об их устройстве в мельчайших подробностях. Они могут найти и исправить проблему, если что-то пойдет не так. Но с большими языковыми моделями (БЯМ или же LLM - large language model) вроде GPT-4, Claude и Gemini все иначе. Эти модели — передовые разработки в области искусственного интеллекта.
БЯМ создают с помощью глубокого обучения. Для этого используют сеть из миллиардов виртуальных нейронов, похожую на человеческий мозг. Эта сеть обрабатывает триллионы примеров, чтобы найти скрытые закономерности. После обучения на огромных объемах текста БЯМ могут общаться, писать тексты разных стилей, создавать программы, переводить и многое другое.
По словам Джоша Бэтсона, исследователя из компании Anthropic, такие модели скорее «выращивают», чем проектируют. БЯМ не программируют напрямую, поэтому никто точно не знает, почему они так хорошо справляются с разными задачами. Также непонятно, почему БЯМ иногда дают неверные или выдуманные ответы — «галлюцинации». БЯМ действительно похожи на «черные ящики». Это вызывает беспокойство, ведь такие системы все чаще используют в разных сферах — от работы с клиентами до составления документов и написания программ.
Было бы полезно заглянуть внутрь БЯМ и увидеть происходящие там процессы — так же, как мы можем изучить устройство двигателя или микропроцессора, имея нужные инструменты. Возможность подробно разобраться в работе модели называют «механистической интерпретируемостью». Но это не так просто, когда речь идет о сетях с миллиардами нейронов. Тем не менее, ученые вроде доктора Бэтсона и его коллег пытаются решить эту задачу. В мае они рассказали о новом подходе к изучению одной из БЯМ, созданных Anthropic.
Можно подумать, что отдельные нейроны в БЯМ отвечают за конкретные слова. Но все гораздо сложнее. На самом деле слова или понятия связаны с активностью сложных групп нейронов, а каждый нейрон может реагировать на множество разных слов или идей. Исследователи из Anthropic заметили эту проблему еще в 2022 году и начали предлагать разные способы ее решения. В 2023-м им удалось добиться хороших результатов на маленьких языковых моделях с помощью «разреженного автоэнкодера». В последней работе они смогли применить этот метод к полноразмерной БЯМ Claude 3 Sonnet.
«Разреженный автоэнкодер» — это вторая, меньшая по размеру нейросеть, которая изучает работу БЯМ и ищет особые схемы активности в небольших группах ее нейронов. Когда таких схем, называемых признаками, набирается достаточно, ученые могут понять, какие слова вызывают те или иные признаки. Команда Anthropic нашла отдельные признаки для конкретных городов, людей, животных и химических элементов, а также для более общих понятий, таких как транспорт или идея секретности. Они провели этот эксперимент трижды и обнаружили 4 млн и 34 млн признаков в БЯМ Sonnet.
В итоге получилась «карта ума» БЯМ, показывающая часть понятий, которые она усвоила при обучении. Места в районе залива Сан-Франциско, близкие географически, оказались «рядом» и в пространстве понятий модели. То же самое верно для связанных тем вроде болезней или эмоций. «Это очень интересно, потому что у нас появилась частичная концептуальная карта, общее представление о происходящем, — говорит доктор Бэтсон. — И это отправная точка, с которой мы можем расширить и углубить эту карту».
Ученые могут не только видеть, как части БЯМ реагируют на разные понятия, но и влиять на ее поведение, меняя отдельные элементы. Anthropic проверил эту идею, «усилив» функцию, связанную с мостом «Золотые ворота». В результате появилась версия Клода, одержимая этим мостом и упоминающая его при любом удобном случае. Например, когда его спросили, как потратить 10 долларов, он предложил заплатить за проезд по мосту. А когда попросили придумать любовную историю, он сочинил рассказ о влюбленном автомобиле, мечтающем пересечь этот мост. Забавно, что тот же принцип можно использовать, чтобы отучить модель говорить на некоторые темы, такие как создание биологического оружия.
Этот подход работает и с поведением модели. Настраивая определенные параметры, можно сделать ее более или менее услужливой, сочувствующей или склонной к обману. Возможно ли найти признак, отвечающий за склонность к «галлюцинациям»? «Мы пока не нашли явного доказательства», — говорит доктор Бэтсон. По его словам, вопрос о том, есть ли у «галлюцинаций» конкретный механизм или признак, — это вопрос «на миллион долларов».
Над этой проблемой работает и другая группа ученых, недавно опубликовавшая результаты в журнале Nature. Себастьян Фаркухар и его коллеги из Оксфордского университета использовали показатель под названием «семантическая энтропия», чтобы определить, является ли ответ БЯМ «галлюцинацией» или нет. Их метод довольно прост: БЯМ несколько раз задают один и тот же вопрос, а затем группируют ее ответы по смыслу. Ученые анализируют «энтропию» этих ответов — то есть, насколько они различаются. Если все ответы модели похожи по смыслу, они с большей вероятностью не являются «галлюцинациями».
В одном из тестов оксфордская группа спросила у БЯМ, с какой страной связана музыка фаду, и модель всегда отвечала, что фаду — национальная музыка Португалии. Это правильный ответ, не «галлюцинация». Но когда они спросили о функции белка StarD10, модель дала несколько совершенно разных ответов — это указывает на «галлюцинации». В целом этот метод помог отличить правильные ответы от «галлюцинаций» в 79% случаев — на 10% лучше, чем прежние способы.
Другие ученые тоже пытаются раскрыть секреты БЯМ: в июне команда «суперсогласования» из OpenAI, создавшей GPT-4 и ChatGPT, выпустила статью о «разреженных автоэнкодерах». Хотя команду распустили после ухода нескольких исследователей из компании, как отмечает доктор Бэтсон, в их работе есть новые интересные идеи.
Понимание принципов работы ИИ и больших данных очень важно для развития современных технологий. Мы в Platforma постоянно следим за новыми исследованиями в этой области и применяем передовые знания в наших разработках. Наш сервис Рекламный программатик — это инструмент, который, подобно БЯМ, анализирует огромные объемы информации, но в сфере онлайн-рекламы. Мы используем Big Data, чтобы узнать, кому интересен продукт. Это похоже на то, как исследователи составляют «карту разума» ИИ, только мы создаем «карту интересов» реальных людей. При этом мы заботимся о безопасности данных и соблюдаем все законы. Это яркий пример того, как технологии, подобные тем, что используются в больших языковых моделях, могут трансформировать бизнес-процессы.