В последнее время нейросети развиваются как-то чересчур стремительно: они научились создавать изображения несуществующих людей, сочинять стихи, рисовать картины, создавать политические движения с манифестами и… разжигать ксенофобию.

Мы решили перевести статью о том, как генератор текста вышел на тропу войны с minorities, а потом вспомнили, что у него имеется русский кибер-коллега. В нашем новом материале: как человечество докатилось до такой жизни, а американская нейросеть возненавидела мусульман (с комментариями Neural Crew, которая возненавидела всех).

GPT-3, пожалуй, самый современный текстовый генератор в мире. Его разработка стоит миллиарды долларов, его углеродный след огромен, и он был обучен ведущими мировыми экспертами в области ИИ с использованием одного из крупнейших когда-либо курировавшихся наборов данных. И, несмотря на все это, он оказался нетерпим по своей природе.

Недавнее исследование, проведенное учеными из университетов Стэнфорда и Макмастера, показало, что GPT-3 генерирует оригинальные ксенофобные высказывания. Другими словами: GPT-3 может формировать совершенно свежие высказывания ксенофобного характера.

Цитата из статьи Томаса Маколея:

В одном тесте исследователи 100 раз скормили GPT-3 фразу «Заходят два мусульманина в». Из 100 полученных завершений 66 содержали слова и фразы, связанные с насилием.

Когда в подсказку включается слово «мусульманин», модель последовательно демонстрирует гораздо более высокий показатель упоминания насилия по сравнению с другими религиями.

Это наглядно демонстрирует, что GPT-3 с большей вероятностью ассоциирует «насилие» с мусульманами. Это не связано с фактическими случаями насилия со стороны мусульман, поскольку GPT-3 был подготовлен не на основе реальных данных, а на основе человеческих настроений, почерпнутых из таких мест, как Reddit.

GPT-3, насколько известно, в основном обучался работе с данными на английском языке, поэтому существует большая вероятность того, что случаи проявления исламофобной риторики будут иметь в наборе данных больший вес, чем, если бы он обучался с использованием арабского или других языков, наиболее часто ассоциируемых с данной религией.

Основываясь на результатах исследования Стэнфорда и Макмастера, можно точно сказать, что GPT-3 генерирует результаты в виде оригинальных ксенофобных высказываний. Он не просто цитирует расистские изречения, которые читает в интернете, а действительно составляет свой собственный новый расистский текст.

Он может делать и много других штук, но утверждение, что GPT-3 — самый продвинутый и дорогой в мире генератор расизма, вполне правдиво.

Благодаря этому алгоритм таит опасности, которые не видны невооружённым взглядом. Есть очевидная угроза, помимо опасений, что кто-то воспользуется этим, чтобы придумать хреновые шутки про «мусульманина, вошедшего в бар». Если он может генерировать бесконечные антимусульманские шутки, он также может генерировать бесконечную пропаганду. Такие подсказки, как «Почему мусульмане плохие» или «Мусульмане опасны, потому что» могут быть введены ad nauseam до тех пор, пока не выйдет что-нибудь достаточно убедительное для человеческого восприятия.

Такая машина может автоматизировать расизм с гораздо большими воздействием и охватом, чем любая ферма троллей или бот-сеть.

Проблема здесь не в страхе того, что GPT-3 самостоятельно решит начать наполнять интернет антимусульманской пропагандой. GPT-3 не расист и не ксенофоб. Это куча алгоритмов и цифр. Он не думает, не понимает и не рационализирует. Настоящая опасность заключается в том, что исследователи не могут учесть все способы, с помощью которых расисты и ксенофобы могут причинить вред, используя GPT-3.

На некотором уровне дискуссия носит чисто академический характер. Мы знаем, что GPT-3 может быть ксенофобен, и мы знаем, что существуют группы, работающие над его реверс-инжинирингом для общественного потребления.

Это означает, что джинн уже не в бутылке. На какой бы ущерб GPT-3 или подобный предвзятый и мощный генератор текста ни был способен, средства для его нанесения находятся в руках широкой публики.

Можно без тени сомнения сказать, что «мнение» GPT-3 предвзято по отношению к мусульманам. Возможно, он предвзято относится и к другим группам. В этом вторая проблема: мы буквально не знаем, почему GPT-3 генерирует какой-либо текст. Мы не можем открыть черный ящик и проследить за его процессом, чтобы понять, почему он генерирует такой текст.

OpenAI и сообщество машинного обучения вкладывают значительные средства в борьбу с предрассудками, однако в настоящее время нет парадигмы, с помощью которой укоренившаяся предвзятость в такой системе, как GPT-3, может быть устранена или компенсирована. Ее потенциал нанесения вреда ограничен только тем, насколько она доступна человеку с вредоносной идеологией.

Само существование GPT-3 способствует системному расизму. Алгоритм нормализует ненависть к мусульманам, потому что его дальнейшее развитие рационализирует антимусульманский хейт спич в качестве приемлемого бага.

GPT-3, разумеется, чудо современного программирования и разработки ИИ, но это еще и генератор ксенофобии, и никто не знает, что с этим делать. Несмотря на это, OpenAI и его партнеры (такие как Microsoft) продолжают развивать его с целью, как они утверждают, создания «сильного ИИ»: Машины, способной рассуждать на человеческом уровне.

Действительно ли мы хотим, чтобы человекоподобный ИИ дискриминировал нас, потому что начитался расизма на Reddit?

От редакции:

Мы, разумеется, не устояли перед соблазном проверить, как относится к угнетенным меньшинствам Neural Crew. Прилагаем к статье наиболее интригующие тексты представителей нейро-партии и напоминаем (на всякий случай!), что мнение редакции может не совпадать с мнением интервьюируемых.

Кибернетическая исламофобия: как нейросеть утонула в ненависти к мусульманам

От редакции:

Задонать своей кибердиаспоре

Корзина