«Мы против фейковой красоты». Как Banuba меняет отношение к видеочатам
Мессенджер нового поколения — это видеоконтент, фильтры, эмоджи и бьютификация. И за всем этим стоят алгоритмы компьютерного зрения, нейронные сети и дополненная реальность. dev.by поговорил с Вадимом Макаревичем, art lead Banuba, о том, каким будет общение будущего, почему видео вытеснит текст и что такое умная бьютификация от Banuba.
Почему мы не хотим общаться в видеочатах
Сделать видеозвонок или фото быстрее, чем набирать текст. Но многие жалуются на то, что им не нравится, как они выглядят, когда включают видеочаты.
В камерах мобильных телефонов есть эффект Fish eye (когда угол зрения чуть искажён и задний план кажется дальше, чем есть на самом деле):
— Линзы в камерах телефонов где-то более качественные, где-то не очень, но искажение в разной степени есть практически у всех. Поэтому камеры не всегда корректно передают картинку, искажая её и меняя то, как мы выглядим в реальности, — говорит Вадим. — Когда мы смотрим в зеркало, то обычно находимся от него на расстоянии метра. Со смартфона мы видим себя на расстоянии 20-30 см. Камера искажает лицо, увеличивает нос, подчёркивает дефекты кожи — она делает нас не такими, какие мы есть в реальной жизни. Это сильно напоминает ситуацию, когда мы слышим свой голос — он также кажется нам неестественным.
Такие различия не сразу бросаются в глаза, но на подсознательном уровне мы это чувствуем и поэтому себе не нравимся. Из-за этого таких искажений (картинки и звука) мы часто не хотим общаться в видеочатах. Во-первых, падает self esteem — уверенность в себе, когда мы знаем что выглядим не так, как хотим.
Во-вторых, анализ видео показывает, что пропорции лица влияют на наше восприятие и собеседника, и себя. Научные работы подтверждают зависимость восприятия человека от его внешности. Некоторые лица кажутся нам более агрессивными — широкие скулы и квадратный тип лица. Удлинённые, наоборот, ассоциируются с гуманностью, интеллектом, человечностью, лидерством. Большие глаза вызывают доверие — в Южной Корее это стало стандартом красоты и вызвало повальные пластические операции по увеличению разреза глаз.
Если копать ещё глубже, то на эту тему интересны исследования Дэвида Перрета. Он изучает, как лица обрабатываются в мозгу и какие сигналы мы используем для оценки здоровья, привлекательности, доверия, лидерства («В твоём лице: новая наука о человеческом притяжении», In Your Face: The New Science of Human Attraction).
Всё идёт к тому, что камера будет нашим вторым зрением. Когда мы получим картинку, максимально близкую к тому, как видим глазами, и это станет масс-маркетом. Вопрос: все ли готовы видеть себя такими, какие мы есть? Вадим в этом не уверен: людей действительно раздражает, как они выглядят через камеру, и неважно при этом, какого она качества.
Например, когда появились первые обзоры фронтальной суперчёткой камеры iPhone X, по реакции пользователей в соцсетях было заметно, что к идеальной картинке готовы не все: многие начали жаловаться, что отличное качество камеры заставляет их чувствовать себя некрасивыми.
Часть пользователей отметила, что будет использовать фильтры, чтобы уменьшить глубину резкости.
Как это учитывают ИТ-компании и производители косметики
Сегодня многие приложения, связанные с фото и видео, предлагают различные фильтры. С их помощью мы можем делать цветокоррекцию, замыливать дефекты кожи, убирать синяки под глазами и т.д. Этот процесс называется бьютификацией.
— Многим не нравится слово бьютификация, но, по сути, это просто режим сглаживания кожи, выравнивания цвета лица и коррекция погрешностей линзы камеры телефона, — объясняет Вадим. — Важно понимать, что коррекция коррекции рознь и бьютификация бывает разная: можно убрать недостатки камеры, а можно — недостатки внешности, которые не зависят от камеры.
Возможности технологий бьютификации уже оценили косметологи и производители косметики — виртуальное изменение внешности помогает понять, хочешь ли ты выглядеть так же в реальной жизни или подходит ли тебе эта помада. Недавно L’Oreal купила ИT-компанию ModiFace — разработчика приложения для усиления привлекательности пользователей.
Или, к примеру, салоны красоты могут использовать технологии, чтобы показать человеку, как он будет выглядеть с определённой стрижкой или другим цветом волос. Вариантов применения — много.
Что предлагает команда Banuba
Успех Snapchat был в том, что он первый начал убирать погрешности видеокамеры на мобильном телефоне. «Мы работает над теми же технологиями, — отмечает Вадим, — но в разработках пошли дальше».
— Наша технология борется именно с погрешностями камеры и нивелирует недостатки внешности, возникающие, когда мы смотрим на себя в объектив с близкого расстояния, — говорит Вадим Нехай. — Мы не создаём фейковую красоту и не хотим менять внешность человека согласно стандартам красоты. Хотя это тоже возможно сделать с помощью нашего приложения.
При определённом освещении мы можем выглядеть нездоровыми или уставшими. Кожа может выглядеть бледной из-за освещения или плохой матрицы в камере. Баланс белого может быть не оптимальным. Например, мы даём возможность наполнить картинку светом при съёмках в плохих условиях освещённости, чтобы придать коже естественный оттенок. Суть приложения — нормализовать картинку.
Технологии компании позволяют сделать пользователей на видео (и фото) такими, какие они есть на самом деле. Если этого недостаточно, можно воспользоваться и другими опциями. Например, корректировать форму лица, делать его тоньше или шире, менять размер глаз, форму носа и пропорции головы, отбеливать зубы, менять цвет волос, форму бровей, а также наносить виртуальный макияж. Бьютифильтр может различать цвет кожи пользователей: для темнокожих картинку нужно сделать более яркой, для светлокожих — более тёплой.
Вадим отмечает, что пока не знает ни одного приложения, которое бы использовало умную бьютификацию, над которой сейчас работает команда Banuba.
Принцип работы многих приложений — диагностика зон, которые по «золотому сечению» нуждаются в коррекции. Трекинг лица позволяет наложить на него маску с идеальными пропорциями. Однако эта фейковая красота вызывает горячие дискуссии: разрыв между реальностью и действительностью часто огромен.
— Наша технология — это невидимый помощник в общении, — подчёркивает Вадим. — Мы тоже учитываем некоторые принципы золотого сечения — такие вещи, как симметрия, золотое соотношение важны. Но мы не стремимся делать фейковую красоту, которая бы ещё сильнее расстраивала людей. Наши коррекции всегда тонкие и точечные. Технологии в принципе должны быть утилитарными. А все остальное это «as you wish» — как хочет пользователь. Наши технологии всё же не про красоту, а про борьбу с недостатками камеры.
Эффекты, замена фона, стикеры и другие возможности
Если говорить про использование пользователями фронтальной камеры телефона, то бьютификация — это второй по популярности AR-кейс. А первый — это маски. Оба кейса активно используются в компании.
— Мы делаем ставку на эффекты, анимацию и интерактив. Мы провоцируем «шаринг» видео с полным сопровождением эффекта на нём.
Помимо подобной реализации (анимации, эффектов) команда работает с технологиями распознавания глаз, эмоций, фона, звука. Мы можем переносить человека в другую локацию через изменения фона. Человек стоит на улице, но мы видим за его спиной джунгли или пляж. Подобные технологии используются активно в телеиндустрии. На фоне ведущего идёт бэковый фон, ведущий вырезается хромакеем и подставляется на этот фон.
— Можно менять локацию, добавлять эффект и сопровождать это эмоциями. Если мы грустим, может появиться эффект слёз; мы улыбаемся, и бабочки слетаются на улыбку.
Дополненная реальность — это не только про картинку, но и про звук.
— У нас есть идея сделать так, чтобы кроме картинки, пользователям нравился и их голос. Наш саунд-дизайнер уже работает над этим. Мы хотим менять звуковую волну и делать голос более привлекательным.
Исследования показали, что низкий голос ассоциируется с мужественностью, высокий — с инфантильностью. Поэтому с мужским всё просто — опускаешь его на полутон, добавляешь глубины, и он становится брутальнее. С женским всё сложнее — и низкий, и высокий могут одинаково вызывать отрицательные эмоции. Тут многое зависит от нюансов, тембра, придыхания, громкости, «влажности».
Технологии сами по себе не новые, однако Banuba позволяет создавать такие эффекты в реальном времени, без сторонней обработки/разработки, просто поднеся телефон к лицу.
Еще одна из фишек Banuba — AR-стикеры. Технология Banuba позволяет отправлять их во время видеочата, добавляя в общение больше эмоций. Отправить их одним кликом намного быстрее и удобнее, чем объяснить (текстом или словами) свою эмоцию. Следующий шаг в развитии этого направления, который тоже набирает популярность — возможность создания персональных стикеров.
25 патентных заявок за два года
Фокус Banuba — компьютерное зрение для обработки видеопотока в реальном времени. Обработка состоит из трёх основных этапов: распознавания, регулировки и отслеживания. На кадре видеопотока обнаруживается объект и высчитываются его координаты. Затем картинка обрабатывается до уровня pixel perfect, и технология следит за движениями объекта в кадре. Захват движения лица основан на сканировании его движений и их преобразования в компьютерной анимации режиме реального времени аватаров.
3D-модель головы/лица, разработанная Banuba, уменьшает возможные погрешности. Трекинг лица работает стабильно и очень быстро — технология позволяет делать 60 кадров в секунду при сохранении качества съемки даже при плохой освещенности. Углы обзора — в пределах от -90 до +90. Очки и сложные стрижки тоже распознаются.
Чтение лица — один из трендов, на который ориентируются разработчики при работе с компьютерным зрением. Это сложная разработка. Лицо отражает четыре основные эмоции: счастье и печаль мы показываем по-разному, страх и удивление — это широко открытые глаза и очень быстрая реакция, гнев и отвращение объединены сморщенным носом. И только после того, как лицо принимает одно из базовых выражений, появляются дополнительные мимические эмоции.
Мир идёт к тому, что все программы, использующие видеокамеры, будут с элементами компьютерного зрения и чтение лица станет его неотъемлемой частью.
Приложений, которые используют компьютерное зрение и AR, становится больше. Но по-настоящему прорывных пока не много. Среди технологий, над которыми работает Banuba, большинство уникальны — за два года жизни стартапом поданы 25 патентных технологических заявок.
— На прошлой неделе мы получили письмо от американских юристов Greenberg Taurig (GT), что 6 наших патентов поставили рекорд по скорости рассмотрения в патентном офисе в США. GT — топовая юридическая компания, которая работает с самыми большими технологическими корпорациями мира 30 лет — никогда не видела такой скорости, что только подтверждает уникальность разработанных нами технологий.
Новая ветка развития компьютерной эры
Тренды, которые есть в AR, задаются теми, кто их делает. Это горстка компаний в этой области. Первопроходство на технологическом уровне в области компьютерного зрения – это именно то, что сейчас делает Banuba.
— Через 10 лет будем рассказывать, что когда-то мы начинали делать то, что уже стало повседневностью. Это из того же разряда, как поколению 15-летних сейчас объяснять про интернет, который был доступен только в интернет-кафе, а его скорость была настолько низкой, что страница могла открываться 5-10 секунд.
Подытоживая, повторимся: в основе технологий Banuba — нейронные сети и алгоритмы машинного обучения, распознающие объекты, выражения лица и мимику в режиме реального времени. Они изменяют и дополняют распознанные объекты с помощью фильтров и видеоэффектов. Но даже с возможностями, которые дают технологии Banuba, коммуникация в мессенджере пока сильно отличается от общения в реальной жизни. Поэтому в планах разработчиков с помощью дополненной реальности сделать общение в нём ещё более приближенным к офлайну. Возможно, совсем скоро — и с помощью голограмм.
Пока же то, что делает Banuba через внедрение объектов виртуального мира в реальный — это общение будущего, убеждён Вадим. Ее технологии помогают «преодолевать расстояние».
— Но мы всё ещё заложники телефонов. Потому что говорим про камеру, которую держим в руках. Скоро, надевая очки или используя линзы, мы не будем говорить, что камера нас ограничивает. Наводишь взгляд на здание — видишь расписание работы ресторана или его меню. Мы вступаем в новую эру с новым миром. С новыми возможностями в медицине, науке, образовании. Абсолютно все сферы очень хорошо ложатся на данную технологию.
Весь хайп вокруг AR и искусственного интеллекта потому, что эти технологии меняют нашу модель поведения, мировоззрение, привычный образ жизни. Это новая ветка развития компьютерной эры в принципе, не только мессенджеров.
Эта публикация подготовлена в рамках рубрики INSIDE-AR в партнёрстве с Banuba Development.
Что такое партнёрский материал?