Нейросеть "креативит"
или размышление о прогрессе так называемого искусственного интеллекта

04 февраля 2025

Мне казалось некоторое время назад, что тема так называемого искусственного интеллекта, возбудившая немало во многом пустых разговоров, для меня исчерпана. Подробное исследование, проведенное и опубликованное в статьях 3 апреля 2023 года (см. запись 3 апреля 2023 года), подвигло меня к пессимистическим заключениям. Однако, оказалось мне еще осталось кое-чему удивиться!

Случайность творческой
удачи.

Отчаявшись найти время или дружественно настроенного художника, я пришел к идее использовать платную впоследствии услугу создания изображений по описанию известной нейросети midjourney. Купившись на рекламу услуги по созданию векторных изображений neuro-holst.ru, я в итоге, "подсел" на рисование сетью моих идей. Первой пробой стало изображение изображения для гиперссылки на моем сайте. Я задал следующий запрос
Изображение онлайн-музея разных изделий мировой науки и культуры, рисунок художника.
В результате я получил 4 фантастические картины, число которых в настройках этого онлайн сервиса не регулируется. Чуть позже я заметил, что количество создаваемых изображений стоит мне монет, называемых здесь почему-то красками. Бесплатно я получаю 25 красок, быстро их расходую, и оказываюсь перед необходимостью инвестировать в покупку дополнительных монет. Видимо, так корпорация наманивает в свои сети самым максимальным творческим порывом, возможно, неслучайным.

Созданные изображения, которые меня тронули и удивили. Слова, которые просятся на язык - "фантастика", "кунсткамера"! Ключевые слова - "мировая культура" рассматриваются, очевидно, поисковой системой сервиса, как относящиеся к миру вообще, а не к нашей земной цивилизации, в частности.

После некоторого поиска в собственных "чертогах разума" вспоминаются такие вполне человеческие изобретения, как рукопись Войнича/1/, или Codex Seraphinianus/2/. Если присмотреться к артефакту, похожему на подсвечник, то можно разглядеть неразборчивые буквы непонятного алфавита.
Уродцы из "кунсткамеры" патологического отделения медицинского университета.
Вот где нам не хватает Фокса Малдера и Даны Скалли. О, дивный новый мир "Секретных материалов"/3/!

Первая стадия - удивление и наслаждение!

Одной из проблем моей творческой деятельности является диалог с художником. В редких случаях мы достигали взаимопонимания. Не исключением стала настройка для получения понравившихся мне эскизов. Однако, недовольством и разрывом пока дело не закончилось, а, наоборот, продолжение испытаний вызывает живой интерес. Лишь нежелание попасть на крючок трат на творения алгоритмов отделяет меня от погружения в стихию создания произведений искусства с помощью этого чудесного инструмента.

В следующем запросе я ограничил сервис в его творчестве назначив стиль моей сейчас уже бывшей ученицы Русланы Жуковой, чей рисунок уже был использован в качестве ярлыка для гиперссылки на сайте.
интернет-сервисы, рисунок художника
Вполне резонно, что у ярлыков дожен быть единый стиль, но возможности для творчества у системы сократились.
Художественный руководитель проекта обожает округлые формы. Например, если заглянуть в "Википедию" в статью о нейросети midjourney, то можно увидеть рисунок - победитель конкурса сгенерированной графики, также насыщенный округлыми формами./4/.
Но дальше мои запросы система интерпретировала совсем не так, как я предполагал. На запрос
онлайн-сервисы на интернет-сайт
я получил диковинный набор картинок, ничего не имевший общего с желаемым. Такое впечатление, что система не знает, что такое онлайн-сервисы или фраза "на интернет-сайт" была сформулирована неудовлетворительно для её понимания.
Сервис проголодался?
Бывает, что нейросеть выдает некоторые персональные данные своих создателей или источников. Кто эти люди?
Наконец, имея первоначальный опыт формулировки заданий и получения результатов я перешел к моей излюбленной теме - экранизации трагедии Уильяма Шекспира "Ромео и Джульетта".
Ромео Монтекки из трагедии Уильяма Шекспира стал капитаном Джованни делле Банде Нере, кондотьером времен Итальянских войн, в руке с пистолетом с колесцовым механизмом, изобретенным Леонардо да Винчи
И далее мне были выданы 4 картины, присмотревшись к которым я нашел стандартную ошибку нейросетей - количество пальцев на руке система не показывает правильно! И изобретение Леонардо да Винчи колесцового механизма для пистолета остается для системы до сих пор не неизвестным - в руках с неправильным количеством пальцев у персонажа Ромео пистолет с барабаном! Это было показано мной в той же статье о OpenAI в апреле 2023 года (см. запись 3 апреля 2023 года).
Говорить, что система не учится, тоже неправильно - на одном из четырех полученных изображений количество пальцев было показано правильно. Лицо персонажа, правда, я бы на этом кастинге выбрал другое.

Сервис добавил возможность создания видео из картинок, или создавать по заданию, но, признаюсь, 70 монет на создание видео считаю выброшенными на ветер. Приближение (zoom) персонажа я могу сам сделать бесплатно в kdenlive.

Каким же сервис видит Джульетту? На мой запрос
Джульетта Капулетти трагедии Уильяма Шекспира времен Итальянских войн (1520-е годы), возлюбленная Ромео Монтекки.
я получил Джульетту с огромным двуручным мечом (видимо, подразумевался кинжал Ромео).
На одной из версий что-то у системы не сложилось с ногами Джульетты. При этом костюм Джульетты больше соответствует моему представлению характера героини - не комнатной девицы, а боевой подруги кондотьера.
И в конце концов, мне достались банальные иллюстрации бульварных, как сказали бы раньше, женских романов, которые, наверное, "скармливали" системе.
На груди Ромео под камзолом я бы сказал есть кольчуга.

Музыкальная пауза!

Дополнительно хочется высказаться не только о визуальных произведениях, но и о музыкальных! Создание музыкального трека с помощью сервиса riffusion.com, работающего пока бесплатно в бета-режиме мне также понравилось своей детализацией и качеством звучания (44100 Гц, 32 бит), но по стилю осталось на уровне поп-музыки с обязательным роялем или пианино, который встроенный сервис к тому же любит добавлять в ярлык для мелодии.

Вторая стадия - торг и недовольство!

Технология, которая была создана для получения новых творческих произведений, осмысленной речи, произвела на широкую публику довольно хорошее впечатление и заставило говорить о триумфе искусственного интеллекта. Если однако, присмотреться к результатам, которые эта технология показывает, я склонен считать, что название "искусственный интеллект" для неё слишком лестное. Скорее, можно говорить о падении качества экспертной оценки, нежели о крупных успехах. Удивить распознаванием голоса, выдачей осмысленного текста можно только современное поколение. Похожую, но внешне неброскую технологию опробовали довольно давно, еще в 1970-1990 годы прошлого века./5/ Но в те времена о том, что сегодня называют мультимедиа, еще только мечтали. Сочетание оптимизированной и разложенной по деталям для создаваемого творческого произведения базы данных, мультимедийной системы и сетевого доступа к этой системе и составляет современный уровень. Однако, уже сегодня я читаю высказывания об ограниченности подобного подхода, заключающегося в обучении системы, построенной по принципу "нейрональной сети". То есть, запоминание, поиск и вывод в этой технологии, очевидно, оптимален благодаря именно благодаря этому подходу. Предположу на основе "парадокса Парето", что основные результаты подобного подхода уже достигнуты примерно на 80% от максимально возможных, и до настоящего "нового" творчества предстоит еще что-то изобрести. Под максимально возможными процентами в данном случае я понимаю хорошую или отличную реализацию помощника в проверке концепций. на мой взгляд, эта задача сегодня успешно решена. Усилителем же интеллекта я пока подобную технологию не назову. Эту технологию любят современные менеджеры - экономия средств в разработке новых продуктов благодаря ей несомненна. До прорисовывать детали и доводить творческие произведения до совершенства, понятного просвещенной публике, пока продолжает человек-художник.

Я решил перейти к сложным испытаниям системы на образцах текста семейных литературных произведений. Имея опыт настройки, я подготовил стилистический файл изображения - иллюстрацию моей бывшей ученицы Насти Саниной, создавшей однажды сайт для одного из моих рассказов, и загрузил в систему. Чтобы система легче воспринимала литературно приукрашенный текст я убрал все неконкретные места. Из исходного текста
Я лежал в своей роскошной постели, уставившись глазами в белый потолок, и никак не мог преодолеть лень - отвести взгляд от этой равнодушной пустоты. Рядом с мной спала красивейшая женщина.
получились следующие указания:
Юноша лежит в роскошной постели, уставившись глазами в белый потолок, и не может преодолеть лень - отвести взгляд от равнодушной пустоты. Рядом с ним спит красивейшая женщина.
Поскольку, видимо, указания на время действия не было, то юноша и девушка получились в современной одежде. Обнаженных фигур, похоже, система изображать не имеет права, чтобы не оскорбить современную общественную нравственность. Рука девушки странно изогнута и из неё, как я понял, выскользнул мобильный телефон. При этом, несмотря на указание открыть глаза юноши, на всех рисунках они закрыты.
Я получил еще пару подобных несуразных изображений, но надо отдать должное алгоритму, в конце я получил близкую к моему пожеланию иллюстрацию.
Лучшим и оригинальным решением я нашел театральные декорации, не лишенные дефекта - левая рука юноши таинственным образом исчезла под девушкой. Но рисунка здесь уже нет - система предпочла положить моделей, а не рисовать их, игнорируя мою настройку стиля.
И, как водится, на сложных задачах, несмотря на платную версию, система, на мой взгляд не справляется. Вот задание, весьма подробно, как я думаю, описывающее обстановку.
На вечеринке в квартире в центре Москвы собралось десять человек. Самой заметная фигура среди гостей литератор - могучий мужчина в цвете лет с двумя поклонницами. Двое научных сотрудников неопределенного возраста. Стеснительный студент, глядящий влюбленными глазами на девушку - начинающую журналистку, красивую и довольно взбалмошную.
Но нарисовать одновременно такое количество людей система оказалась не в состоянии. Количество десять система поделила пополам! И число персонажей на рисунках ограничено пятью.
Стилистически мне показалось, что вечеринка похожа на какой-нибудь официальный корпоратив, а не веселое собрание молодых людей после рабочей недели. Почему-то система считает, что на вечеринках обязательно надо стоять, как на подобном собрании из кинофильма "Завтрак у Тиффани". Ни одного диванчика! Да и Москву особенно не разглядишь. Можно предположить, что на заднем плане этой иллюстрации московский "самовар" Храма Христа Спасителя со сталинской "высоткой" по соседству.
Когда ей становится особенно тяжело, она достает фотографии. Правда, пропорции персонажей, как мне видится, здесь нарушены, но стиль близок к искомому мной для иилюстрации рассказа.
Конечно, система не читает мысли и причисление ей сверхъестественных свойств - та самая человеческая слабость, которая делает подобные системы сильными. И я также был удивлен, когда на иллюстрациях в интерьерах появился "мерседес". По описанию в рассказе героиня обожала автомобили, поэтому подобные картинки очень точно попали в цель художественной задачи.
Девушка с юношей в просторном особняке на Rue Saint-Honoré в Париже. У девушки в гараже стоит белый "мерседес".
Юноше, однако, места на иллюстрации не досталось!
На четыре картинки приходится одна близкая к искомому замысл офомления.
Картинка поддаются улучшению, но такой парижский дворик взят где-то в другом городе...
... как и такой Арбат находится где-нибудь в Риме.
Подводя итоги к своим размышлениям, я считаю, что количество творчески удачных произведений, скомпонованных по моему запросу, на мой взгляд, примерно равно доле удачных творений человеческого ума. И составные части успеха в творческом поиске, к сожалению, связаны со случайностью. Случайно найден подходящий штрих, убран персонаж, которого принудитенльно требовал доавить в сцену.

Я вспоминаю былое время, когда язанимался решением задач, связанных логическим программированием на языке искусственного интеллекта Prolog. Когда я назначал достаточно большое количество требований или ограничений, то не получал ответа. Когда я ослаблял требования, то система выдавала ожидаемые решения. Забавно получается - освобождаешь интеллекта систему от своих требований и получаешь желаемое и даже превосходящее его, и как только вносишь ограничения - свои "хотелки", то система тут же начинает нести ахинею, как и в том случае, когда предоставляешь ей полную свободу - совсем как человек!

Третья стадия - отрицание!

Вежливые уважительные аплодисменты тем, кто перелопатил огромные объемы данных, сумел их систематизировать и настроить приемлемые интерфейсы! Однако, я вижу, что выполнение задач иллюстрирования, литературного творчества и прочих "человеческих" задач современным ходовым коммерческим "интеллектуальным" системам не по плечу. Конечно, прогресс за прошедшую пятилетку вызывает неподдельный восторг. Я вспоминаю рекламный слоган Майкрософт 1994 года - "Future is just began". Если вспомнить, какими, по сравнению с сегодняшними были оборудование и программное обеспечение, то вчерашнее будущее весьма скромное. Видимо, такое же, какими были массовые представления о будущем в 1990-х годах. Зато представление о том, какими могли бы быть системы, если скорость разработки интеллектуальных творческих помощников сохранится, снова вызывает в памяти этот старую макрософтовскую речёвку. Несомненно, тупики, в которые забредают системы, связанные с творчеством, будут преодолены. Время, некоторое на это будет потрачено, зависит от совершенства альтернативных технологий и резервов существующих.

P.S. Хотелось бы заново прочесть эту строку спустя 10 лет: "Учитывая постоянные ошибки футурологов, наблюдающих текущую скорость изменений в цивилизационном культурном и техническом укладе, я думаю, что взрывной рост остановится в течение следующей пятилетки. Полагаю, что это будет связано с потребностью в спокойном изменении мироустройства."

Примечания

1 Ру́копись Во́йнича, или Манускри́пт Войнича, — иллюстрированный кодекс, написанный неизвестным автором на неизвестном языке с использованием неизвестного алфавита. (Цитата из "Википедии")

2 Codex Seraphinianus (Кодекс Серафини) — книга, написанная и проиллюстрированная итальянским архитектором и промышленным дизайнером Луиджи Серафини в конце 1970-х годов. Книга содержит приблизительно 360 страниц (в зависимости от издания) и является визуальной энциклопедией неизвестного мира, написанной на неизвестном языке с непонятным алфавитом. Само слово «SERAPHINIANUS» расшифровывается как «Strange and Extraordinary Representations of Animals and Plants and Hellish Incarnations of Normal Items from the Annals of Naturalist/Unnaturalist Luigi Serafini», то есть, по-русски, «Странные и необычные представления животных, растений и адских воплощений нормальных вещей из глубин сознания натуралиста/антинатуралиста Луиджи Серафини». Также фамилия автора по-итальянски и слово seraphinianus по-латыни означают «серафимский». (Цитата из "Википедии")

3 «Секре́тные материа́лы» (англ. The X-Files) — американский научно-фантастический телесериал. Сериал «Секретные материалы» повествует о работе и личной жизни специальных агентов Федерального Бюро Расследований Фокса Малдера и Даны Скалли. Малдер — талантливый сыщик, твёрдо верящий во всё сверхъестественное, в том числе в существование разумной внеземной жизни и её присутствие на планете Земля. В этом ему помогает его напарница, агент Скалли. Как врач по образованию, будучи по натуре скептиком, Дана зачастую предлагает научную точку зрения, суть которой заключается в логическом и разумном объяснении паранормальных явлений. (Цитата из "Википедии")

4 «Théâtre d'Opéra Spatial» – изображение Midjourney, занявшее первое место на конкурсе цифрового искусства
https://ru.wikipedia.org/wiki/Midjourney

5 Данная статья пока не относится к академической, где к каждому утверждению необходимо приложить ссылку. Сошлюсь пока на общеизвестный факт, что "игра в шахматы" - "дрозофила искусственного интеллекта" была реализована на компьютере в 1950-1960х годах. Известная мне программа "Каисса" выигрывала чемпионат мира среди компьютерных программ, и внутри нее использовали технологии логического ограничения обширного пространства ветвей позиций игры. С нейрональными сетями, насколько я знаю, это не пересекалось. Технология "минимакса" для отсечения позиций с низкой ценностью, вычисленной с помощью оценочной функциии, насколько я понял, использовалась в приложении к поставке языка программирования TurboPascal фирмы Borland. Понимание простого английского текста использовалось в известной мне программе на языке ProLog.