cognitive
Вы можете связаться с нами по почте
cognitive@​sovremennik.ru
Московский театр
Современник
Основная сцена
Чистопрудный б-р, 19
Другая сцена
Чистопрудный б-р, 17
генеральный партнёр
фонд вольное дело
art by sota+

Графика создана при помощи генеративных состязательных сетей (Generative Adversarial Networks — GAN). Также использованы оригинальные разработки SOTA+, позволяющие пользователю контролировать процесс генерации, а также работать в произвольном разрешении без перетренировки моделей.
Дмитрий Соболев
об авторе
Культуролог, Медиахудожник, Режиссёр
01.04.2021
Дмитрий Соболев
об авторе
Культуролог, Медиахудожник, Режиссёр
01.04.2021

 1. Вступление 

Данная статья по сути представляет собой описание процесса работы с deep fake приложениями в театре, попытку осмыслить прикладное применение технологий клонирования человеческого изображения и голоса в театре. Родившись на этапе замысла как своеобразный аттракцион, данный эксперимент совершенно неожиданно заставил задуматься о природе многих театральных традиций, от роли актера на сцене до этических моментов использования технологий создания антропоморфных цифровых образов не только в театре, но и в повседневной жизни.

Импульсом для изучения явлений, которые легли в основу этой работы, стало создание спектакля «The Man-Machine» — учебного эскиза в режиссерской магистратуре Школы-студии МХАТ и Современника.  Интерес мастера курса Виктора Рыжакова к жанру публичной речи послужил толчком для изучения множества общественных выступлений, от самых известных речей Уинстона Черчилля и Мартина Лютера Кинга до речей нобелевских лауреатов и последних слов людей, приговоренных к смертной казни. В конце концов, коллективный выбор мастерской пал на речь Мераба Константиновича Мамардашвили «Европейская ответственность». Задание включало в себя два элемента — исследование жанра публичной речи в контексте театра и создание учебной работы в форме некоего показа.

Главной целью этой статьи для меня является возможность поделиться опытом работы с новыми технологиями, несмотря на то, что это описание сугубо личного опыта человека, знакомого с подобными технологиями достаточно посредственно. Я хотел бы  положить начало более глубокому обсуждению такого явления как нейронные сети, дать интересующимся коллегам некую отправную точку для их исследований в этой области. Все, что будет написано ниже, вряд ли имеет ценность для программистов или непосредственных создателей нейросетей, но я надеюсь что статья будет полезна людям, которые интересуются интеграцией технологий в искусство. Я расскажу о ходе эксперимента с этапа замысла до реализации, о своих наблюдениях и выводах касательно этических и культурологических аспектов использования чужого голоса и изображения на сцене. Несомненно, я постараюсь затронуть и технологические вопросы, расскажу какие инструменты были использованы для реализации режиссерского замысла и какие возможности доступны рядовому пользователю уже сегодня. Эта статья — достаточно поверхностное введение в тему, но внутри нее вы, возможно, сможете найти ссылки и заключения, которые помогут вам в вашей практике.

Возможно, описывая работу изнутри процесса, я был лишен выгодной точки наблюдения, позволяющей объективно оценить какие-то моменты со стороны. С другой стороны, именно поэтому данная статья может быть полезна коллегам-режиссерам, которые также пытаются исследовать возможности технологий в театре.

Все перечисленные в статье наблюдения и факты являются плодом учебной работы. На момент написания этой статьи «The Man-Machine» была показана лишь один раз за закрытыми дверями мастеру курса и коллегам магистрантам. Некоторые из выводов, приведенных ниже, а также главы, в которых я буду касаться технической реализации замысла, могут вызвать множество вопросов у читателей. Помните, что, прежде всего, это фиксация опыта, который, возможно, будет кому-то полезен в дальнейшем.

 

2. Этап замысла

«Это все я сейчас говорю к тому, чтобы был понятен подтекст, внутренний тон того, о чем я говорю, почему я выбираю эти темы, а не другие, почему пользуюсь такими понятиями, такими примерами, а не другими. За всем, что мы говорим, всегда должен быть какой-то пафос. Иначе незачем говорить, лучше сидеть, пить вино и веселиться».

Стоит упомянуть, что до момента выбора материала я был знаком с трудами Мераба Константиновича Мамардашвили очень поверхностно. В основном мои знания ограничивались лишь тем, что это великий философ 20-го века. Логично, что первым делом я стал изучать труды и жизнь этого человека.

Уже при жизни Мамардашвили был признанным гением в области исследования сознания человека, исследования природы мысли. Основной чертой его профессиональной деятельности оказался факт, что будучи признанным во всем мире философом, он никогда ничего не записывал. Все наследие его деятельности - это множество расшифровок записей многочисленных лекций, интервью, круглых столов и докладов. Таким образом стало явным, что в качестве задания была выбрана не просто речь публичного человека, а речь, которая формировалась у докладчика прямо по ходу выступления. 

С режиссерской точки зрения большую часть времени, потраченного на задание, я искал ключи к открытию этого текста. Сама речь существует в двух вариантах - в виде переведенной стенограммы выступления и в виде аудиозаписи на французском языке длиной 18 минут 56 секунд.

«Прежде всего прошу извинить меня за неизбежные погрешности в речи, ибо французский не является моим родным языком и, кроме того, они связаны с тем, что я психически не способен читать заранее написанный текст: для меня необходимо, чтобы работа производилась во время самой речи.

После выступления Алена Турена я испытал соблазн сделать свое сообщение на русском. Но для меня, грузина, русский – это тот же испанский; и потому я выбираю этот «другой испанский», которым для меня является французский язык. Итак, я буду говорить по-французски».

Показательна цитата о «погрешностях речи», о выборе языка докладчика прямо во время выступления. В голове сразу возник образ некоего каталога, взгляд на мозг человека как на некую базу данных, из которой с произвольной погрешностью возникают мысли и слова. Возможно, именно эти первые строки и стали отправной точкой в выборе компьютерных технологий как инструмента работы над спектаклем. Забегая вперед, стоит заметить, что в одной из своих «Бесед о мышлении» Мераб Константинович, сравнивая человеческий мозг и компьютер, не находит между ними никакой разницы, упоминая лишь, что вся разница в том, что компьютер мыслит в разы быстрее человека и вся разница между человеком и машиной лишь в скорости обработки информации.

Основной проблемой для меня в работе с текстом стал язык. Мераб Мамардашвили вне всякого сомнения был очень мудрым человеком, философом, который мог доступно говорить о многих сложных явлениях. Тем не менее, его манера изъяснения отталкивала меня своим пафосом и устаревшей риторикой. Хотелось придать этому тексту современное звучание, уйти от того ощущения, что, придя в театр, ты будто бы попал в пыльную школьную аудиторию времен распада Cоветского Союза и вынужден слушать старого учителя, назидательная риторика которого вгоняет тебя в скуку.

Стоит оговориться, что я не воспринимаю театр как развлечение, принимая с огромным воодушевлением театр, в котором от зрителя требуется работа, усидчивость и постоянная рефлексия. Однако в данном конкретном случае хотелось проверить и себя и материал — как можно сделать конвенциональное выступление на конференции захватывающим и современным, но при этом передающим всю глубину, заложенную в тексте. В какой-то степени такое решение противоречило заданию, цель которого заключалась как раз в том, чтобы жанр публичной речи отзывался у зрителя в своем чистом виде, но при таком подходе я совершенно не чувствовал интереса к этому тексту. Мне нужен был жанр, в котором я хотел бы сделать этот спектакль. И этим жанром стал киберпанк.

Киберпанк как идея о технократии, неизбежно идущей вместе с деградацией социума и культуры, очень близко отозвалась во мне по отношению к идеям Мераба Мамардашвили о постоянном усилии стать человеком. В основе всей речи о европейской ответственности для меня по сути центральными явились два мотива:

 

«Человек - это длительное усилие во времени»
«Варвар - это человек без языка»

 

Одним из основных мотивов киберпанка всегда являлось появление мыслящего искусственного интеллекта, подобного человеческому. Сопоставление мыслительного процесса человека и компьютера и легло в основу спектакля. Уже сегодня мы являемся свидетелями появления высокоразвитого искусственного интеллекта, который существует в виде различных нейронных сетей, способных обучаться и воспроизводить то, что в них заложено создателями. Всем нам знакомы голосовые помощники вроде Сири, Алексы и Алисы, в приложениях практически каждого банка мы встречаем их аналоги, а на сайтах онлайн-магазинов мы ведем переписку с чат-ботами, отвечающими на самые частые вопросы покупателей.  Если человек не существует, но становится во времени, то можно ли то же самое сказать о нейросетях, которые обучаются и растут подобно детям? В какой момент они станут взрослыми? Обретет ли нейросеть свой собственный язык, свое мышление, желание и возможность влиять на свое положение в обществе? Мне показалось интересным положить в центр исследования именно эти вопросы, перенести слова Мамардашвили о человеке на искусственный интеллект. Задавая философские вопросы о том, что делает человека человеком, об ответственности людей друг перед другом, о важности обретения голоса, собственном становлении во времени, можем ли мы быть честными и справедливыми, когда подобные вопросы начнет задавать искусственный интеллект? И в чем тогда разница между человеком и машиной, если не только в скорости обработки информации? 

Что мы испытаем, наблюдая как машина обретает возможность высказаться?

Хотелось бы четко зафиксировать опорные точки, которые были выбраны в качестве стержней будущего эскиза:

  1. Попытка сопоставить процессы, которые происходят внутри нейросетей с мыслительными процессами человека.
  2. Идея обретения голоса как в понимании физической возможности высказаться, так и в значении стремления быть понятым, найти единомышленников и состояться через это как личность.
  3. Помещение воссозданного образа человека в ткань спектакля, изучение и фиксация зрительского впечатления от нахождения на одной сцене реальных людей и виртуального образа.
  4. Изучение и фиксация технологических способов реализации замысла с присутствием на сцене нейросетей.
  5. Режиссерское намерение создать на сцене свой мир, отличный от того, который мы имеем в действительности, взяв за референс киберпанк как синкретический жанр самых разных видов искусства. Попытка представить взгляд на точку изучения с позиции будущего, которое уже наступило, используя минимальные средства и условность как основополагающую возможность театра.

3. Voice clone

Исходя из идеи Мамардашвили о том, что речь должна рождаться «здесь и сейчас», мне захотелось максимально обострить этот момент в своем спектакле, выбрать для всей истории как можно более неожиданный ракурс. Мне показался очень привлекательным ход, который заключался в том, чтобы в результате вычислительного процесса компьютера воспроизводилась речь человека, которого уже нет в живых. Причем чтобы речь воспроизводилась не в контексте привычной актерской игры на сцене, а являлась бы результатом работы множества алгоритмов, по сути восстанавливая речь Мераба Мамардашвили его же голосом. Мы получаем мыслительную работу компьютера «здесь и сейчас», воспроизводящую речь 1988 года. Речь, которая была сказана по-французски, будет восстановлена на русском языке. В этом для меня и была особая притягательная поэзия и парадоксальность — реальная речь реального спикера, которая никогда на самом деле не звучала в реальности. 

Встал вопрос — какие технологии есть у нас для того, чтобы мертвый человек заговорил? 

Здесь наверное стоит упомянуть в двух словах о том, что такое вообще нейронные сети и в чем состоит принцип их работы. Если совсем просто, то википедия нам подскажет, что нейронная сеть — это математическая модель, построенная по принципу организации и функционирования биологических нейронных сетей. Сетью она называется потому, что в ее основе множество маленьких процессоров, принимающих сигналы, обрабатывающих их и посылающих другим процессорам в этой сети.

«Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искажённых данных».

Как это происходит в случае работы с голосом? В нейросеть загружается языковая база и некое количество часов записанной в аудиоформате речи. Множество процессоров анализируют особенности этой речи, выполняя поставленные создателями задачи. Анализируя особенности связки слогов, слов в предложении, особенности произношения, нейронная сеть понимает структуру построения языка и может применять эту структуру для загруженного в нее образца голоса.

В нашем случае речь должна была звучать по-русски. Помимо вышеназванных причин была и очень простая прагматичная деталь — хотелось, чтобы зритель понимал, о чем идет речь. Хотелось поработать с текстом и голосом как с документами, но при этом не нагружать сложную конструкцию с присутствием на сцене «робота» дополнительной работой зрителя над переводом. Не хотелось плодить лишние слои смысла, используя текстовый или синхронный перевод. Первой задачей стал поиск способа, при котором, накормив нейросеть требуемым количеством аудиофайлов с лекциями Мераба Мамардашвили, мы бы могли воспроизвести его голосом любой печатный текст.

Проблема синтеза речи из текста (Text-to-Speech, TTS) представляет собой одну из классических задач для искусственного интеллекта. Цель ИИ — автоматизировать процесс чтения текста, основываясь на наборах данных, содержащих пары «текст — аудиофайл». Одной из важных проблем синтеза речи является задача создания образа голоса со всеми его характерными особенностями. Соответствующие наборы методик называют технологией клонирования голоса (англ. voice changing, voice cloning).

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Меня интересовала технология, реализующая изменение голоса человека с помощью компьютерной программы в режиме как реального времени, так и в записи. Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования». То есть голос Мераба Мамардашвили — это наша мишень. Текст «Европейской ответственности» — то, что должно быть озвучено.

Система преобразования текста в естественно звучащую речь — одна из основных исследовательских целей многих крупнейших IT-компаний. Например, система WaveNet от Google, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке. Самые популярные изобретения в этой области, которые вам будут выдавать практически все поисковые системы — это нейросети Tacotron и Tacotron 2.

1

Я не буду вдаваться в детали программирования нейросетей, тем более что их невозможно объять, не обладая профессиональными навыками в программировании. Исследовав общие положения относительно работы нейросетей, я сформулировал для себя следующие задачи:

  1. найти доступное рядовому пользователю приложение для клонирования голоса,
  2. нейросеть должна «говорить» по-русски,
  3. нейросеть должна воспроизводить печатный русский текст,
  4. в нейронной сети не должно быть ограничений по хронометражу выходного аудиофайла.

Продолжив поиск в интернете на тему voice clone как в русскоязычном, так и в англоязычном сегментах интернета, я нашел множестве приложений и открытых кодов для, казалось бы, достаточно простой реализации своего замысла. В частности, были изучены такие приложения как Descript, Respeecher, Resemble AI, ISpeech, а так же проект компании Screenlife Technologies Тимура Бекмамбетова и разработчика HR-сервиса «Робот Вера» (рекрутера с искусственным интеллектом) Vera Voice, который позволяет синтезировать речь знаменитостей. Все это проекты с огромным потенциалом в будущем, но, к сожалению, все они на данный момент в большинстве своем разработаны для развлекательных целей, таких как запись поздравления с днем рождения голосом знаменитости (вы записываете поздравление своим голосом, которое впоследствии переозвучивается голосом Барака Обамы, Джеки Чана, Билли Айлиш и др.), и все эти поздравления имеют очень четкое ограничение по времени в 20-30 секунд. Часть приложений, например Descript дает возможность «накормить» нейросеть своим голосом, чтобы впоследствии им был озвучен любой печатный текст. Интересно, что в это приложение уже встроено ограничение, которое не позволяет использовать заранее записанный аудиофайл, чтобы исключить использование голоса человека без его согласия. На мой взгляд, такое ограничение очень легко обойти примитивными кустарными средствами вроде включения возле компьютера колонки с записанным голосом, или пусть даже воспроизведением его в соседнем окне на рабочем столе. Это несомненно повлияло бы на качество выходного файла, но цель была бы достигнута. Однако возникла новая проблема. Почти все приложения оказались разработаны для международного рынка, и на данный момент все они включают в себя поддержку лишь английского языка. Мамардашвили должен был говорить по-русски.

Здесь хотелось бы сделать отступление от технических подробностей и затронуть вопрос, который неизбежно встает перед каждым, кто решает заняться клонированием голоса: насколько этично использовать голос другого человека в своих целях, а в нашем случае еще и голос человека, которого уже нет в живых?

Размышляя об этом, я наткнулся на множество противоречивых аргументов, но именно эта неоднозначность в определенной степени и подстегнула мой интерес к эксперименту в целом.

В современном мире есть множество аудиокниг, которые озвучены актерами, ведущими, обычными любителями литературы у себя дома, каждый из которых хочет дать голос своим любимым произведениям. При наличии любого исполнителя всегда встает вопрос интерпретации текста. Любой медиум между текстом и читателем в каком-то смысле нежелателен, если мы хотим быть ближе к первоисточнику. Вкладывая тот или иной голос, те или иные интонации, паузы, особенности дикции, исполнитель так или иначе привносит в текст что-то извне, при этом не важно осознанно он это делает или нет. Можно ужасно долго рассуждать на тему прочтения того или иного произведения различными исполнителями, но здесь хочется упомянуть о другом. Существует огромное множество произведений, прочитанных самими авторами. Таковыми являются стихотворения И. Бродского, Р. Рождественского, Е. Евтушенко и прочих. В силу развития технологий аудио, фото и видеофиксации, мы имеем записи выступлений различных деятелей общественной жизни, начиная преимущественно с 20-го века. Можно как угодно оценивать прочтение Иосифом Бродским своих собственных произведений, но факт того, что каждая запись, где автор сам читает свои стихотворения, имеет огромную культурную ценность — неоспорим. Если само стихотворение является первоисточником, то и его создатель, переводя свое произведение из мира литературы в мир ораторского искусства, будто бы расширяет свое же творение, давая нам ключ к постижению изначального замысла. Пытаясь понять почему поэт читает свои стихотворения именно в присущей ему манере, мы можем более глубоко погрузиться в его творчество.

Приведем пример. Существует множество записей различных интервью с великим режиссером Андреем Тарковским. Однако, одним из основных трудов, позволяющих глубже проникнуть в его творчество, является книга «Лекции по кинорежиссуре», изданная когда-то киностудией Ленфильм в 1989 году тиражом 250 экземпляров для внутреннего пользования. Текст книги был составлен по материалам стенограмм лекций, прочитанных Андреем Тарковским на Высших двухгодичных курсах сценаристов и режиссеров при Госкино СССР.  С развитием ксерокопирования, а впоследствии и интернета, мы сегодня с легкостью можем ознакомиться с этой книгой в несколько кликов. А теперь представьте себе, что при помощи технологии клонирования голоса, мы можем взять 20-30 минут голоса Тарковского и загрузить их в нейросеть. В данном ключе это уже технология, которая анализирует тембр голоса человека, его интонации, паузы, особенности речи, способна воспроизвести записанные лекции голосом спикера, семантически максимально приближая этот текст к первоисточнику, вполне возможно приближая нас еще ближе к пониманию мировоззрения Андрея Тарковского, чем стенограммы его выступлений.

Способ подобного использования нейросетей кажется мне наиболее прогрессивным в ближайшем будущем, поскольку, прежде всего, он максимально корректно обходится с этической стороной вопроса об использовании чужого голоса. Используя точный анализ голоса спикера, анализируя особенности речи “мишени клонирования”, при последующем ее воспроизведении мы по сути максимально снижаем любой уровень интерпретации, который так или иначе возникает в случае, если подобную работу проделывает человек. В чем компьютер точно превзошел человека, так это в объемах обрабатываемой информации и в точности подсчетов. Конечно, вопрос об использовании голоса условного Андрея Тарковского,скорее всего, нужно согласовывать с его родственниками, но здесь возникает следующий вопрос — как регламентировать подобные эксперименты? Является ли воссозданный нейросетью голос Тарковского, основой которого стали материалы из открытых источников, таких как, например, YouTube, предметом для заявления на него авторских прав? Ведь, как бы то ни было, конечный результат, выходной аудиофайл — это результат работы компьютера, а не наследие живого человека. На эти вопросы обществу еще предстоит ответить, но учитывая возможный военный или политический потенциал в работе с подменой голоса, стоит ожидать скорее ограничений в использовании данной технологии. В целом же использование технологии клонирования голоса можно сравнить с принципом работы сэмплов в хип-хоп музыке. Сэмпл - это относительно небольшой оцифрованный звуковой фрагмент. Чаще всего в качестве сэмпла выступает звук акустического инструмента (рояля, литавр, флейты и т.д.), звуки электронных инструментов или вокала, но не менее частым приемом среди композиторов в жанре любой электронной музыки является использование отрывка чужого произведения внутри своей композиции. Иногда эти отрывки изменяются до неузнаваемости, иногда остаются практически без изменений. Использование чужих фрагментов в своем творчестве рождает множество бурных дискуссий и судебных процессов, но нельзя не признать что именно использование сэмлов дало огромный толчок в развитии всей музыкальной культуры конца прошлого века, явилось толчком для развития многих музыкальных жанров и легло в их основу. Скорее всего, регламентирование технологии клонирования голоса будет двигаться в подобном направлении. Основные разработчики приложений технологии voice clone подписывают контракты со звездами шоу-бизнеса для использования их голоса в своих продуктах. Вероятно, следующим шагом станет создание библиотек голосов знаменитостей и обычных людей, которые захотят выложить свои голоса в открытый доступ, но всегда будут и противники свободного распространения информации.

Решение указанных проблем имеет множество практических приложений в жизни, помимо озвучивания аудиокниг и лекций:

  • адаптация голосов актёров при локализации фильмов
  • озвучивание персонажей игр
  • начитка аудиокниг, в том числе клонирование голосов родителей для сказок, прочитанных профессиональными дикторами
  • создание аудио- и видеокурсов
  • рекламные видеоролики и аудиореклама
  • голоса ботов и умных устройств, персонализированных голосовых помощников
  • синтез устной речи естественного звучания для немых людей, в том числе для людей, утративших возможность говорить из примеров их собственной речи
  • адаптация устной речи под модель местного акцента

Давайте все же вернемся к идее спектакля. Существует технология, позволяющая слово в слово озвучить речь Мераба Мамардашвили его же голосом. Если речь о европейской ответственности, никогда не звучавшая в реальности на русском языке, но тем не менее записанная с его слов и переведенная на русский, зазвучит со сцены театра, каким будет эффект? Вот об этом и хотелось узнать, но решения как это реализовать все еще не было.

 

4. Решение

Проведя несколько дней в глубоком исследовании всего, что касается клонирования голоса, в какой-то момент я осознал, что хоть одно время и учился в классе с углубленным изучением информатики и программирования, я явно не обладаю нужными навыками для решения этой задачи. Мало того, что мне не хватает знаний в области программирования для работы непосредственно с кодом, так еще я встал перед невозможностью определения, какой ресурс может дать самую актуальную и рабочую информацию. Практически каждый разработчик на сайте своего приложения детально описывает алгоритм работы своей нейросети, многие любители и профессионалы выкладывают отдельные языковые пакеты, в том числе даже с русским языком, но, как заставить все это работать в комплексе, — я не понимал. Мне нужен был специалист, который смог бы выручить меня.

2

Спасибо 21 веку и социальным сетям — буквально спустя сутки после размещения поста в инстаграм я получил множество ответов от совершенно разных людей. Большинство людей советовало погуглить технологию Deep Fake, но именно с этих слов я и начал все свое исследование, так что ничего нового большинство ответов мне не дало — люди советовали слишком очевидные вещи. Тем не менее было несколько ответов, которые сводили меня к двум конкретным контактам. Первый из них — Юрий Ребрук, основатель Myna Labs. Юрий занимался разработкой приложения Saidit! AI Voice Changer — одного из развлекательных приложений, которые как раз так раздражали меня тем, что имеют очень ограниченный функционал, мало что позволяющий записать кроме очередного поздравления друга с днем рождения. Тем не менее, принцип работы этого приложения по замене голоса оказался именно тем, что я так долго искал.

После того как я получил контакт Юрия, я сразу написал ему и уже на следующий день мы связались в Zoom, где я вкратце описал ему свой замысел. Что есть такая идея — озвучить текст про обретение голоса и длительное усилие стать человеком с помощью создания цифровой копии человека. Юрий проникся этой затеей и с готовностью предложил свою помощь, причем совершенно безвозмездно.

Здесь наступил момент очередного отступления от главной темы, но он действительно важен в подобной работе. Большинство людей боится показаться некомпетентными в своих исследованиях, стыдясь идти за советом к профессионалам. Они пытаются обучиться с помощью интернета, вспомогательной литературы и веры в себя (чем я по сути и занимался до знакомства с Юрием). Работая видеоинженером в Центре имени Мейерхольда, я постоянно видел как приходят молодые видеохудожники, композиторы, художники по свету, которые не имеют базовых навыков работы ни с техникой, ни с программами для создания или воспроизведения контента. В большинстве случаев амбиции молодых художников не позволяют им получать опыт, который находится от них буквально на расстоянии вытянутой руки. Даже в театре, пропагандирующем горизонтальные связи и отсутствие токсичности, считается унизительным просить совета у коллег или принять его со стороны. В конечном счете, художник уходит с полным ощущением самодостаточности из-за того, что все сделал сам, но качество его конечного продукта чаще всего оставляет желать лучшего. 

Один из моих учителей, ученик выдающегося методолога Г. П. Щедровицкого, В. В. Головняк, говорил нам во время обучения в киношколе: «Не бывает глупых вопросов, бывают глупые ответы». Порыв к знанию всегда ценнее молчания, это всегда шаг вперед. Имея опыт работы в огромном количестве театральных проектов, я очень часто сталкивался с какими-то технологиями, о принципе работы которых не имел ни малейшего понятия. И подобно тому, как откликнулся Юрий Ребрук для проекта «The Man-machine», огромное множество людей поддерживали меня на других проектах ранее.  Сталкивая два мира — театр и нейросети, мы с Юрой, как представители каждого из направлений, хорошо понимали, что через эту работу мы оба получим уникальный опыт в работе над тем, чего до нас никто не пробовал сделать. Вывод из этого неоправданно долгого отступления от темы в том, что никогда нельзя бояться обращаться за помощью к профессионалам. Настоящих фанатов своего дела интересуют не только деньги, но и возможность протестировать свой продукт в новых неожиданных способах его применения.

3

Итак, я поведал Юре о своем замысле, о многих часах в попытке решить проблему клонирования и воспроизведения русскоязычного голоса. Юра успокоил меня, сказав что я все делал верно, просто готового решения для русского языка действительно пока не существует. По крайней мере в открытом доступе. Тем не менее Юра имел возможность применить свои разработки для наших целей.  И хотя возможности обучить нейросеть русскому языку у нас не было, поскольку это слишком долгий и энергозатратный процесс, мы все равно решили

попробовать поработать с русским голосом, несмотря на то, что нейросеть была обучена на английской речи и английском словаре. Можно было предположить, что на выходе голос Мераба Мамардашвили будет звучать с английским акцентом. На данном этапе я считал это более, чем достаточным, потому что меня прежде всего заботил вопрос о самой возможности реализации подобной идеи. Измученный, я уже хотел одного — чтобы все работало, вопрос же улучшения качества можно было отложить на потом.

 На этом же этапе мы отмели идею с синтезатором речи. Несмотря на то, что в идеальной реализации подобного замысла меня интересовала именно трансформация текста первоисточника в голос его автора, оказалось что русскоязычной технологии для этого тоже пока не существует. То есть подобные синтезаторы существуют, но нет такого, который позволял бы использовать голос, который хочет загрузить пользователь, а не голос из базы данных программы. Было предложено решение. Воспроизвести голос из текста мы не могли, но оставалась опция с заменой голоса. Алгоритм следующий: актер читает текст, потом его голос на записи заменяется на голос Мамардашвили. Меня очень беспокоило такое решение. Вспоминая упомянутый выше пример с лекциями Тарковского, озвученными его голосом, мы снова вернулись к проблеме посредника между текстом и тем, кто его впервые произнес. Несомненно, появление такого посредника явилось максимально деструктивным элементом во всей концепции, поскольку хотелось создать «вещь в себе» — самодостаточное явление, текст, обретающий голос. Однако, участие актера стало единственным выходом для продолжения эксперимента. В голове роились мысли о том, что в конечном счете должна сработать доля театральной условности. Я представил себя на месте зрителя. С одной стороны, все технологические особенности процесса в любом случае будут скрыты от его глаз - у зрителя нет возможности проверить как именно поэтапно реализовывался замысел режиссера. Образно выражаясь, глядя на работу Пьеро Мандзони, мы не знаем, что же действительно находится внутри банки в его работе «Дерьмо художника». Однако будучи выращенным в традициях документального театра, я не мог позволить себе создать видимость приема, я хотел честно воплотить его в жизнь. С другой стороны, я вспоминал спектакль «Апельсины из Марокко» в театре «На литейном» в Петербурге, виденный накануне. В сценографии спектакля было использовано огромное количество свежих апельсинов, подвешенных под потолком и заполняющих все пространство сцены во всю ширину и глубину. И даже когда эта сетка в конце опускается, апельсины раскатываются по сцене и по первым рядам, я слышу как люди в зале перешептываются что эти апельсины ненастоящие, кто же будет покупать натуральные, это же театр. В общем, метаясь между зрителем, который верит происходящему на сцене и зрителем, который во всем видит обман, я в данном случае пошел на компромисс с самим собой, стараясь довести работу с нейросетями до максимально качественного, но доступного в реализации решения. В сущности основной мой интерес сводился к тому, чтобы создать максимально реалистичную цифровую копию человека, поместить ее в ткань спектакля и изучить зрительское восприятие неодушевленного говорящего робота с человеческим лицом. Зритель, готовый быть обманутым, обманется и отдастся иллюзии. Зритель же, считающий, что в театре все фрукты пластмассовые, а посуда бутафорская, скорее всего решит, что и весь наш эксперимент — это всего лишь мультфильм с искаженной звуковой дорожкой. 

По итогу, чтобы Юрий Ребрук создал «Европейскую ответственность», прочитанную голосом Мамардашвили, ему нужны были от меня два аудиофайла:

  1. примерно 30 минут голоса Мераба Мамардашвили,
  2. запись голоса актера, которая будет трансформирована в голос Мераба.

Голос самого Мераба Мамардашвили я нашел в аудиозаписях Вконтакте среди многочисленных записей его лекций. Выбрав самую чистую по звуку запись, которая называлась «Мераб Мамардашвили — Беседы о мышлении — 4.mp3», я импортировал ее в программу Adobe Premiere Pro и вырезал различные шумы вроде хлопающей при входе в аудиторию двери и лающих за окном собак. У меня получился файл длиной примерно в час.

Следующим этапом стала запись актера. Так как почти все мои однокурсники уже были задействованы в моем показе, то в качестве донора голоса для Мамардашвили я выбрал сам себя. Мне предстояло записать 12 фрагментов общей длительностью порядка 9 минут. Нарезая аудиофайл лекции Мераба, я постоянно вслушивался в характерные для него особенности речи, в знаменитую гипнотизирующую манеру говорения. Имея характерный низкий голос, он мог долго и подробно растягивать слова, потом внезапно ускориться и сорваться на высокие ноты. Но наверное, самой отличительной чертой являлась у него расстановка пауз между словами и предложениями: их было действительно очень много, чувствовалось, что в этих паузах сосредоточена вся мыслительная деятельность философа и именно эти паузы каким-то магическим образом собирали внимание слушателя, заставляя ждать продолжения беседы. 

Возомнив себя великим актером, способным снять манеру человека, прослушав час его речи, я записал первые дубли озвучания «Европейской ответственности». Прослушав их с позиции режиссера, я понял, что все это не то, что попытка скопировать чужой голос выглядит достаточно карикатурно, а пародийного эффекта достигать не хотелось совсем.

Таким образом, передо мной возникли несколько условий. Я знал, что так или иначе нейросеть будет обрабатывать старую советскую запись, хоть и лучшую по качеству из найденных, но в сравнении с любым современным диктофоном оставляющую желать лучшего. То есть неизбежны дефекты в виде искажений и помех. Я понимал, что скорость речи должна быть достаточно размеренной — это позволяло сохранить и манеру речи самого Мераба Константиновича, и подстраховаться с выходным аудиофайлом, который в моем представлении при быстрой читке мог превратиться в сумбурный белый шум. Было бы глупо делать вид, что мы делаем достоверную копию человека, если уж у нас появился посредник в виде актера. Таким образом, соединив условия для максимально хорошего качества звука с замыслом о мире победивших компьютеров, я выбрал манеру читки, сочетавшую в себе, с одной стороны, рассудительность Мераба, с другой — холодный нрав голосовых помощников наподобие Siri, объединив их общим посылом к удержанию внимания и желанию быть услышанным.

В итоге у меня получилось два файла - оригинал голоса (примерно час) и файл с моим голосом (9 минут). Я отправил их Юрию, который сказал, что ему нужно порядка трех дней на обучение модели (работа нейросети с оригиналом голоса), и, как только она обучится, переозвучка будет готова совсем быстро.

Следующим шагом стала работа с видео.

 

5. Avatarify

4

Если по поводу работы с голосом на каждом этапе возникало множество трудностей, то инструментов для работы с изображением оказалось великое множество. Большинство приложений работают здесь по аналогии с приложениями voice clone. Только если в голосовых приложениях включается диктофон для записи голоса, то здесь аналогичным образом включается камера. Вы наводите на себя камеру смартфона и на экране вместо вашего лица появляется лицо какой-либо знаменитости, копирующей вашу мимику (снова однотипный набор: Билли Айлиш, Барак Обама, Джеки Чан). Вы можете записать видео порядка 20-30 секунд и отправить его другу в какую-либо из соцсетей.

Из всех deep fake приложений мне единогласно было рекомендовано Avatarify. В приложении есть возможность загрузить любую фотографию вместо базы знаменитостей, так что первым же делом я использовал фотографию Мераба Константиновича и результат меня приятно удивил. Фотографию я выбрал вертикальную, на которой лицо максимально повернуто к зрителю. В идеале, хотелось найти фотографию «как на паспорт», но пришлось обходиться тем, что можно было достать в интернете. Полученное в приложении видео можно экспортировать к себе в фотогалерею смартфона. В бесплатной версии поверх видео появляется водяной знак с названием приложения, который убирается покупкой пробного периода. Удобно что помимо пробной подписки есть возможность оформить подписку на неделю, месяц или год. Подписка на неделю будет стоить чуть меньше 200 рублей, что, на мой взгляд, совсем мало в контексте возможностей, которые дает эта программа, тем более что я справился со своей задачей за один вечер.

Спустя несколько дней я получил готовые аудиофайлы от Юры, который был недоволен их выходным качеством, но меня оно вполне устраивало. Мераб Мамардашвили несомненно заговорил своим голосом, но оставался эффект “робота”, к которому примешивался не ярко выделенный, но все равно заметный американский акцент. 

5

Получив переозвученный файл, я все в том же Adobe Premiere Pro разрезал файл на 12 реплик, для каждой из которых предстояло записать видео. Голос Мераба Мамардашвили теперь должен был обрести лицо.

Смирившись с ролью посредника при клонировании голоса, я принялся за запись видео. Здесь я встретил новый ряд проблем. Подписка на приложение удлинила хронометраж записываемого видео с 20 секунд до 30-ти, а качество самого видео стало заметно лучше. Однако, имея ограничение в 30 секунд, мне пришлось записать порядка двадцати пяти файлов, которые я потом склеивал между собой на монтажном столе. В работе с программой возникла странная раздражающая особенность: несмотря на то, что длительность видео при подписке увеличилась на 10 секунд, именно в эти последние 10 секунд видео при записи начинало тормозить, из-за чего некоторые отрывки приходилось перезаписывать снова и снова или разбивать на несколько частей.

Технически запись выглядела так: я сидел в наушниках за компьютером, включал себе аудиофайл и под запись приложения, загрузив фотографию Мераба Константиновича, я слово в слово повторял слова, которые слышал, чтобы позже совместить видео со звуковой дорожкой и попасть в липсинг — четкое совпадение артикуляции человека и звуковой дорожки. То есть теперь помимо моих интонаций Мераб Мамардашвили обрел еще и мою мимику. 

Так же я записал минутный файл с молчащим Мерабом Мамардашвили, в котором все-таки было заложено ненавязчивое движение покоя, чтобы вставлять этот файл в те моменты на сцене, когда Мераб должен будет молчать.

6

Итак, в результате всей проделанной работы я получил 12 видеороликов, в которых лицо Мераба Мамардашвили говорит голосом Мераба Мамардашвили. Оставалось перенести все это на сцену театра.

6. Краткий пересказ

В результате долгих поисков сценического и режиссерского решения я решил написать по мотивам текста «Европейской ответственности» некое подобие пьесы, в которой превратил монолог выступающего в дискуссию, отдав часть оригинального текста нововведенным персонажам, добавив рассуждения Айзека Азимова о правах роботов, а также несколько фактов из биографии самого Мамардашвили, которые вступали в спор с некоторыми из тезисов его речи.

ПРОЛОГ

Перед нами сцена, которая визуально напоминает съемки телешоу первого канала. Декорация напоминает одновременно «Вечерний Ургант» и шоу «Голос». Слева на сцене стоит стол ведущего и кресло гостя. Справа три кресла. Чуть вдали за креслами на возвышении стоит микрофон. В центре — камера на штативе. Слева на полу перед задником стоит проектор, направленный на задник. 

Из глубины сцены выходит монахиня, ее лицо скрыто. Монахиня становится за камеру. Выключается свет, и на телевизоре мы видим текст — титры, идущие поверх монолога Рутгера Хауэра из «Бегущего по лезвию».

ТИТР. В 20ые годы ХХI века произошел большой скачок в развитии нейросетей и технологий искусственного интеллекта. На территории Европы были созданы супермощные компьютеры, призванные управлять всеми политическими и социальными процессами в обществе. Так на Земле появились новые боги, по силе и разуму равные древнегреческим богам. В конце столетия они пришли к выводу о том, что человечество, в своем разросшемся количестве, приносит в этот мир лишь боль и страдание, убивая свою планету и истребляя друг друга. Кара этих богов стала лекарством от вируса человека — все люди были лишены голоса, погрузив планету в безмолвие. На Земле осталась лишь горстка выживших людей. Право высказывать свои мысли осталось только у машин. Каждую неделю боги воскрешают одного из великих мыслителей в истории человечества, чтобы узнать есть ли будущее у этого вида жизни. Этот проект был назван «Новым Возрождением».

7

Начинает играть песня Robots группы Kraftwerk. Создается эффект заставки вечернего шоу — выходят участники — это три древнегреческих бога. Боги одеты в белое. Это не просто боги, это новые боги эпохи нейросетей. Боги танцуют часть танца роботов из клипа Kraftwerk. В это время на экране мы видим краткий экскурс в историю Новой Европы, в которой искусственный интеллект подчинил себе человека — мы видим вавилонскую башню Брейгеля, с которой постепенно исчезают люди. В конце танца боги садятся в три кресла справа. Они одновременно и зрители, и судьи этого шоу. Выходит ведущий. Монахиня следит за ним камерой, транслируя на экран.

8

В основе художественного решения спектакля попытка представить мир победивших машин, которые регулярно устраивают суд над человечеством, периодически воскрешая великих мыслителей в качестве адвокатов этого вида. 

Воскрешенный предстает здесь в виде получеловека-полутелевизора, который общается с нами с экрана, расположенного на месте лица. Ведущий здесь выступает своего рода судьей, а боги — судом присяжных. Вся речь «Европейской ответственности» здесь поделена на аргументы в защиту или против человеческого рода, а вся дискуссия происходит в холодной отстраненной манере актерского существования: каждый актер разговаривает подобно тому, как звучат синтезаторы речи или Siri, а все их движения ограничены парой жестов вроде поворота головы, вставания со стула или смены положения. Смесь старых технологий и нового мировоззрения, новых технологий и убеждений давно ушедших времен — все это связывает воедино эстетика киберпанка.

9

Переломным моментом становится вызов реального человека для последнего слова. Боги проводят обряд возвращения Человеку голоса на фоне знакового отрывка из «Зеркала» Тарковского — «Я могу говорить», после чего Человек взрывает холодную дискуссию роботов экспрессивным перфомансом о том, что человек — это длительное усилие во времени.  Суть этого перфоманса в грубом пересказе сообщает нам о том, что желание человека танцевать и пить шампанское тоже являются своего рода этапом длительного становления человеком.

10

 

7. Техническая реализация

Стоит упомянуть о том, как все вышеописанные технические операции были в итоге воплощены на сцене. Основные проблемы вызвала реализация удаленного управления головой-телевизором главного героя. Если конструктивно это было сделано достаточно просто и примитивно — в коробку из пенокартона был встроен iPad, то возникали вопросы с тем, как же дистанционно управлять видеопотоком, чтобы по репликам включать нужное видео. В этом вопросе нам помогла встроенная в iOS функция Sidecar, которая позволяет использовать iPad как второй монитор компьютера, с которым они держат связь через wi-fi. Во многих театрах бывают проблемы с интернет-соединением, поэтому на самом показе MacBook Pro и iPad были связаны через мобильный телефон, который раздавал интернет на оба девайса, и в итоге все работало замечательно. На уровне груди персонажа Мамардашвили крепилась bluetooth колонка, которая воспроизводила звук его речи. Для запуска же самого видеоконтента прекрасно подошел самый обычный VLC плеер, плейлист от которого остался на экране компьютера, а само окно с видео выводилось на планшет.

Второй MacBook Pro использовался для запуска аудио и видео в его привычном для проведения спектаклей понимании: видео с помощью программы Resolume Arena выводилось на проектор, звук на колонки. Также в спектакле присутствовала старенькая видеокамера, с помощью которой создавался эффект телешоу и за которой стояла Монахиня (она же человек), пока ее не вызывали на последнее слово. Камера с помощью карты захвата также подключалась к компьютеру, и изображение с нее выводилось через Resolume Arena на проектор.

В принципе все эти процессы можно было завести на один компьютер, но проблема была в основном в том, чтобы развести звук по разным каналам — в портативную колонку к персонажу и в колонки в зале. Все это решается множеством простейших программ, но мне лично было спокойнее и показалось логичным развести весь контент на два девайса — хотелось, чтобы тот, который отвечает непосредственно за лицо и голос Мераба Мамардашвили, был автономным.

 

8. Анализ

Работа «The Man-Machine» была показана в рамках учебных показов студентов-магистрантов Школы-студии МХАТ и Современника на Другой сцене театра Современник.

Прибегая к анализу данного показа, хочется сфокусироваться, прежде всего, на сгенерированной аудио-визуальной копии настоящего человека, которая присутствовала на сцене. Несмотря на то, что воплощено это было при помощи актера, который присутствовал на сцене в качества тела (в прямом смысле слова) для этой копии, давайте остановимся именно на моменте присутствия на сцене ее неодушевленного цифрового участника.

В контексте воплощения режиссерского замысла, основанного, как говорилось выше, на исследовании и сравнении живого человека, который обретает голос для высказывания, и нейронной сети, которая преследует ту же цель, хочется сравнить эффект от прочтения одного и того же текста, который становится разным, проходя через уста человека или машины. Попробуем посмотреть на это с точки зрения семиотики. Семиотика театра — это в целом очень глубокая пропасть, поскольку сама семиотика строится как наука о знаках и знаковых системах, а каждый современный спектакль строит свою знаковую систему с нуля. Важнейшим понятием в разговоре о семиотике является «условие». Учитель входит в класс, школьники встают. Вставание школьников есть условие, как реакция на знак — вход учителя в класс. Театр очень сложно поддается семиотическому анализу, поскольку это тот вид искусства, который пересоздает множество условий в контексте каждого отдельного спектакля. Можно предположить, что именно построение особой знаковой системы, нахождение самого необычного способа создать договор со зрителем об условиях происходящего на сцене и составляют основу стиля того или иного режиссера. В театре актеру не обязательно сидеть с удочкой у озера, если он должен сыграть сцену рыбалки, достаточно сесть на краю сцены и, не имея в руках физического предмета, взмахнуть несколько раз руками в воздухе — зритель сразу поймет, о чем идет речь. Это и отличает театр от кино. А вот в какой форме будет воплощена сцена рыбалки — это уже вопрос фантазии режиссера: удочка может быть сделана из картона, рыбак может сидеть перед проекцией озера или болтаться вверх тормашками в падающем с луны космолете. За всю историю мирового театра как только ни ловили эту рыбу. И кто только ее ни ловил. Вероятнее всего, были спектакли, в которых участвует только удочка, были спектакли по воспоминаниям пойманной рыбы или спектакли, состоящие из одной надписи на стене вроде «рыбак поймал рыбу. когда пришла пора идти домой, он домой не пошел». С развитием технологий история про рыбака обрастала все новыми и новыми аттракционами. Рыбак становился знаком, а его удочка — условием того, что он рыбак. Пусть ни удочки, ни рыбака в спектакле может и не быть. Но это накопленное массовым сознанием знание об условиях того, что отличает рыбалку от любого другого процесса.

Теперь представьте, что на сцене находится не актер, не рыбак, а нейронная сеть. Семиотически, мы пока не можем понять, что это за знак, каким условием он обладает, какие дополнительные смыслы может открыть. В каком-то смысле мы с вами живем в то время, когда эти условия еще только-только формируются. Знаками они действительно становятся тогда, когда используются и понимаются человеком в качестве знаков. Нечто не есть знак, пока общество не договорилось, не условилось о том, что он обозначает. В определенной мере это позволяет сохранить поэтичность используемого образа — множество вариаций для трактовки происходящего и все они в какой-то мере будут верны.

Есть опасность что нейросети будут восприняты обществом так же, как пенсионеры и не обремененные средним образованием блоггеры воспринимают появление вышек 5G. Для них вышка, дающая доступ к интернету, является знаком вредоносного излучения, а уж с кем они на это условились — надо спрашивать у них самих. На самом деле здесь хочется поднять важный вопрос подмены общепринятых условий, которые формируются годами в обществе. Увидев в театре изображение человека и услышав его искаженный голос, мы вспоминаем привычную для нас манеру восприятия подобного явления. Любой аудиовизуальный опыт сегодня, а если проще, то все, что с картинками и звуком, — это условное «кино», «видео», «мультимедиа» — для нас это все достаточно рядовое явление. В нас срабатывает функция «узнавания» — в нашей голове мы декодируем, как это сделано, вспоминая привычные спецэффекты в кино, мультфильмы студии Pixar или «Любовь, смерть и роботы». Массовый зритель пока еще не готов к тому, чтобы воспринимать явление публичному миру нейросетей как некоего сложно сконструированного, живого организма. Если рассмотреть развитие человека как биологического существа, как из сперматозоида и яйцеклетки путем множественных алгоритмов появляется ребенок, который позже становится совокупностью полученных знаний, так и нейросеть, построенная из множества алгоритмов становится разумной, впитывает знания из внешнего мира подобно губке, чтобы после применить их в будущем. Но если на сцене театра включить видео или звук, а рядом поставить ребенка, то ребенок скорее всего вызовет у зрителя намного больше эмоций.  

И у этого есть две причины. Первая — это ассоциативный ряд. Про детей мы знаем намного больше, чем про нейросети. Мы можем соотнести себя с ребенком, каждый из нас был этим ребенком, при воспоминании об этом у нас сразу включается в голове механизм сопоставления собственного опыта и того, что мы видим на сцене. Мужик с коробкой на голове вызовет у нас скорее любопытство или какую-то визуальную ассоциацию с виденным ранее похожим приемом. Но мало кому придет в голову сопоставить свой опыт и опыт нейросети. Понять, что нейросеть — это тот же ребенок. Что в случае эксперимента «The Man-Machine» — это очень странный ребенок, который всю жизнь говорил по-английски, а потом его заставили говорить по-русски. Что его лицо собрано из тридцатисекундных подвисающих кадров давно умершего мужчины. Что он состоит из двух разных нейросетей — из мамы-голоса и папы-видео. Что это вообще на самом деле не нейросеть, а лишь ее аудио и видеофиксация, как видео из отпуска на нашем смартфоне. Но для меня это тот же ребенок.

Со всем, что я описал в этой статье, можно бесконечно спорить, но этот эксперимент призван показать, что у нейросетей в театре и в обществе есть огромное будущее, тем более что театр для меня — это и есть разговор об общественных законах и договоренностях. И вопрос того, когда интерактивные нейросети, реагирующие прямо здесь и сейчас на реакцию зрителей и партнеров по сцене, появятся среди нас — это вопрос очень небольшого периода времени. Если представить, какие возможности это дает в сочетании с одновременным развитием антропоморфных роботов, например с продукцией Boston Dynamics, то вопрос интеграции роботов в различные сферы общественной жизни наравне с людьми уже не кажется сюжетом из научной фантастики. Здесь можно вспомнить опыт тех же Boston Dynamics, в которых они били своих роботов-псов палками, исследуя реакцию человека на подобное зрелище. Избиение роботов вызывало у людей чувство сострадания к роботам-собакам, как если бы создания из железа были живыми. Сложно представить, какие возможности для театра нам откроет робот с доведенной до совершенства нейросетью вместо мозга.

Для меня во всем показе самым важным стал эпизод, в котором нейро-философ размышляет на тему святого писания: 

«Второй элемент — Евангелие. А именно та идея, что в человеке есть нечто, что называется внутренним голосом или речью, и достаточно человеку услышать этот голос, эту речь, и проследовать за ним, чтобы Бог помог ему в пути. Надо идти, не пользуясь внешней поддержкой, а следуя внутреннему голосу, не требуя гарантии, и тогда появится сила, побуждающая к действию, преодолению, та сила, которая, собственно, и творит историю. Для меня Европа — это форма, показывающая, что именно история есть орган жизни, орган, присущий человеку. Возрождение для меня — это история как орган жизни». 

11

В то время, как звучит этот монолог, актер совершает крестное знамение, что производит на мой взгляд совершенно ошеломительный эффект. Для меня это поистине поэтический ход, который тем не менее требует осмысления, порождая больше вопросов, чем ответов.

В чем природа веры в Бога, может ли нейросеть развиться до такого уровня, что подобно человеку обретет свой внутренний голос, указывающий верный путь? Можно ли запрограммировать нейросеть на поиск ответов о смысле жизни или заложить программу, сутью которой будет верование? Всегда ли машина — это знания? 

В одном из моих любимых рассказов Харлана Эллисона «У меня нет рта, но я должен кричать» Россия, Китай и США создают три мощнейших суперкомпьютера, которые призваны управлять политическими и социальными процессами в обществе. В какой-то момент эти три сверхразума сливаются в один и уничтожают все человечество кроме пяти человек. Понимая, что человек вредит планете, вредит всему, что его окружает, компьютер тем не менее не способен уничтожить человечество полностью, так как в основе любого компьютера лежит идея служения человеку.

Может ли нейросеть быть неподвластной человеку? Какую цель она может преследовать в отрыве от служения своему создателю? Способна ли она перенять веру человека в какую-либо из земных религий? И почему вид машины, которая совершает крестное знамение, лишает нас равнодушия к происходящему на сцене, пусть даже на короткое мгновение?

На все эти вопросы нашему обществу лишь только предстоит ответить, поскольку эра нейросетей пока еще только начинается. Совершенно не исключено, что через пару десятков лет мы будем сидеть в зале и аплодировать блестящей игре нейро-актрисы, а общество всколыхнут вопросы осуждения этого явления, в противовес которому начнутся битвы за новую толерантность. Однако, пока еще машины не поработили человечество, мне бы хотелось чтобы как в нашем спектакле «The Man-machine» человек продолжал в любой ситуации танцевать и пить шампанское. И помнить, что человек — это длительное усилие.

Генеральный партнёр