Chat GPT и Революция Искусственного Интеллекта
Шрифт:
Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.
Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.
Например, при запросе «белый сиамский кот» выдает следующее изображение кота [4] :
4
https://beta.openai.com/docs/guides/images/usage
Midjourney –
Stable Diffusion – это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.
Эти генераторы изображений с искусственным интеллектом могут революционизировать то, как мы создаем и потребляем изображения, поскольку они могут генерировать оригинальные изображения по запросу на основе вводимого текста. Это может иметь широкий спектр применений в таких областях, как реклама, искусство и дизайн, а также более практические приложения, такие как создание макетов продуктов или визуализация данных.
Использование генераторов изображений ИИ также может иметь экономические последствия, поскольку может изменить способ создания и потребления изображений. Например, если генераторы изображений ИИ получат широкое распространение, это может снизить спрос на традиционные методы создания изображений, такие как фотография или иллюстрация, что может повлиять на рынок труда в этих областях. Уже сейчас многие компании, дизайнеры и предприниматели вместо того, чтобы заказывать дизайн изображений, логотипов, визуализацию у профессиональных иллюстраторов и платить им за это десятки, сотни, а иногда и тысячи долларов, просто используют указанные модели на основе нейронных сетей и получают достаточно хорошие по качеству изображения бесплатно либо по намного сниженной цене.
В целом, появление генераторов изображений с искусственным интеллектом, таких как DALL-E 2, Midjourney и Stable Diffusion, представляет собой захватывающее развитие в области искусственного интеллекта и может изменить то, как мы создаем и потребляем изображения. Вполне вероятно, что эти технологии продолжат развиваться и совершенствоваться в ближайшие годы, и будет интересно посмотреть, как они определят будущее ИИ и экономики.
Кстати, уже начали появляться платформы, которые позволяют генерировать не только изображения, но и полноценные видео из текста. Это может быть видео говорящих людей или движущихся животных или автомобилей или чего угодно.
Видео, которые показывают как тот или иной аватар говорит по предоставленному вами скрипту, достаточно высокого качества. Например, сервисы Elai.io, интегрированный с GPT-3 от OpenAI, или Synthesia.io, в которых можно выбрать аватар того или иного человека или даже создать свой собственный аватар с помощью смартфона, который потом будет говорить по вашему тексту. Платформа поддерживает несколько десятков языков. Представьте как это упростит работу и сэкономит бюджет для компаний, предпринимателей, креаторов и блогеров, которые постоянно производят и постят новые видео или делают презентации своей компании или продукта.
По сути генерация видео не сильно отличается от генерации изображений, ведь видео это просто несколько кадров изображений в секунду, которые наш мозг воспринимает как динамичное видео. И поэтому если генераторы изображений могут создать качественные изображения, то мы можем попросить их создать несколько тысяч таких изображений с небольшими изменениями, чтобы из этого получилось полноценное видео. Это может сэкономить миллионы долларов для производителей видеоконтента, компьютерных игр и киностудий. А если это соединить с возможностью ChatGPT создавать полноценные сценарии, о которых мы уже упоминали ранее, и с искусственными синтезаторами голоса, то получается, что в скором времени мы можем попросить ИИ что-то наподобие следующего: «Создай мне 25-минутный фильм в жанре фэнтези с неожиданной концовкой» и через пару минут или даже раньше у нас будет готовый новый фильм, который еще никто не видел.
VALL-E и другие модели синтеза голоса на основе ИИ
Технология синтеза голоса предполагает, что компьютер умеет произносить речь как человек. Данная технология и рынок вокруг нее развиваются достаточно быстро: если в 2021 году объем рынка оценивался примерно в 7,5 млрд долларов, то прогнозируется, что к 2030 году он достигнет 60 млрд долларов, при ежегодном росте на 23 % [5] .
Из крупных игроков на рынке можно выделить крупных игроков, таких как Google, IBM, Amazon, Microsoft, Сбер, Яндекс, VK, так и небольшие компании, как например Descript, Veritone, Respeecher и др.
5
https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html
Где могут применяться технология синтеза речи? Конечно же в голосовых помощниках, говорящих роботах, и ботах, звонящих клиентам по телефону. Кроме этого, эту технологию уже начинают использовать в озвучивании книг, фильмов, видеоигр, объявлений и рекламы, радио и новостных программ, а также для восстановления голоса умерших людей или людей, лишившихся способности говорить.
Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.
При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально похожий на оригинальный человеческий. Далее, этим голосом можно будет произнести любой текст, который будет подан в программу.
Как уже было сказано, данная технология может использоваться и для людей, утративших способность говорить. Наример, известный актер Вэл Килмер практически лишился голоса после того, как у него был обнаружен рак горла и была проведена химиотерапия и другие виды лечения. Компания Sonantic «воссоздала» голос актера на основе ИИ, а в 2022 году Spotify заявила о том, что выкупает всю компанию Sonantic [6] .
6
https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/
Технология синтеза голоса поможет сократить расходы и в киноиндустрии при озвучивании фильмов и мультфильмов. Есть прогнозы, что может появиться целая новая отрасль по «аренде голосов», когда известные люди смогут сдавать свои голоса в аренду для рекламных кампаний или озвучивания того или иного контента (голосовых помощников или озвучивания аудиокниг), за что они будут получать соответствующие роялти.
На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.