ГЫЧА
1 пост
1 пост
Американские разработчики представили pizzaGAN — алгоритм, который умеет пошагово рисовать изображение пиццы, добавляя или убирая отдельные ингредиенты (в том числе может убрать с пиццы спорные кусочки ананаса). Архитектура такой системы основана на генеративно-состязательной нейросети, каждый слой в которой меняет предшествующее изображение, добавляя на него новый ингредиент. Подробности о работе алгоритма описаны в препринте, опубликованном на arXiv.
Сегодня алгоритмы, основанные на работе нейросетей, умеют достаточно качественно составлять изображения объектов на основе текстового описания. Это касается, например, рецептов блюд: подобный алгоритм в начале года представили израильские ученые. При этом понимание того, как выглядит готовое блюдо, не означает, что информация о приготовлении блюда доступна: для этого необходимо понимать пошагово, как готовится блюдо, что произойдет, если один ингредиент убрать, а другой — добавить, и как изменится цвет, консистенция и вид продукта при термической обработке.
Такой алгоритм решили разработать исследователи из Массачусетского технологического института под руководством Дима Пападопулоса (Dim Papadopoulos). Они решили сосредоточиться на пицце — блюде, которое подразумевает достаточно простой порядок приготовления из нескольких ингредиентов. Для этого они создали pizzaGAN — разновидность генеративно-состязательной нейросети, каждый слой в котором используется для добавления отдельного ингредиента или другого этапа приготовления блюда. Такая архитектура позволяет не только добавлять ингредиенты в пиццу, но и откатывать ее приготовление на шаг назад, имея пример того, как выглядело блюдо без него.
Для обучения модели исследователи создали датасет «синтетической пиццы» — цифровых изображений пиццы с различными начинками, расположенными на пицце в определенном порядке. Каждая начинка представлялась в виде специальной маски ингредиентов: как они расположены на блюде и сколько их. Для создания итогового изображения пиццы использовались реальные фотографии блюда.
В результате алгоритм научился достоверно добавлять ингредиенты на пиццу и убирать их, а также показывать, как та или иная пицца выглядит до и после приготовления в печи. Датасеты с «синтетической» и реально пиццей, примеры того, как меняется изображение при добавлении и исключении ингредиентов, а также изображения до и после приготовления пиццы в печи доступны на сайте проекта.
Успехов разработчики добились и в выполнении обратной задачи: два года назад исследователи представили алгоритм, который умеет составлять примерный рецепт блюда по его фотографии.
Источник
Технология из Гарри Поттера дошла до наших дней. Теперь для создания полноценного видео человека достаточно одной его картинки или фотографии. Исследователи машинного обучения из «Сколково» и центра Samsung AI из Москвы опубликовали свою работу о создании такой системы, вместе с целым рядом видео знаменитостей и предметов искусства, получивших новую жизнь.
Текст научной работы можно почитать тут. Там всё довольно интересно, с массой формул, но смысл прост: их система руководствуется «ориентирами», достопримечательностями лица, вроде носа, двух глаз, двух бровей, линии подбородка. Так она мгновенно улавливает, что человек собой представляет. И потом может переносить всё остальное (цвет, текстуру лица, усы, щетину и прочее) на любое другое видео человека. Адаптируя старое лицо к новым ситуациям.
Разумеется, это пока работает только на портретах. Модели нужен только один человек, с лицом, повернутым к нам, чтобы у него было хотя бы видно оба глаза. Тогда система может делать с ним что угодно, передавать ему любую мимику. Достаточно дать ей подходящее видео (с другим человеком с головой примерно в том же положении).
Ранее ИИ уже научился делать дипфейки, и интернет-пользователи знатно поиздевались над знаменитостями, вставляя их лица в порно и делая мемы с Николасом Кейджем. Но для этого им приходилось тренировать алгоритмы мегабайтами (а лучше – гигабайтами) данных, находить как можно больше изображений и видео с лицами знаменитостей, чтобы выдать более-менее пристойный результат. Сам создатель Deepfakes говорил, что на компиляцию одного короткого ролика у него уходит 8-12 часов. Новая система генерирует результат моментально, а на входе ей достаточно одной картинки.
С предыдущей системой мы никогда бы не смогли посмотреть на живую Мону Лизу, у нас есть только один её ракурс. Теперь, с алгоритмами, работающими по ориентирам, это становится возможным. Идеала не достичь, но уже что-то близко.
В работе московских исследователей также используется генеративно-состязательная сеть. Две модели алгоритма сражаются друг с другом. Каждая пытается обмануть оппонента, и доказать ему, что то видео, которое она создает – настоящее. Так достигается определенный уровень реализма: картинка человеческого лица не выпускается «в свет», если модель-критик не уверена в её подлинности более чем на 90%. Как говорят авторы в своей работе, в изображениях регулируются десятки миллионов параметров, но за счет такой системы, работа кипит очень быстро.
Если картинок несколько, результат улучшается. Опять же, проще всего получается работать со знаменитостями, которые уже сняты со всех возможных ракурсов. Для достижения «идеального реализма» нужны 32 снимка. В этом случае сгенерированные ИИ фото в невысоком разрешении будут неотличимы от настоящих фото человека. Нетренированные люди на этом этапе уже не способны выявить фейк – возможно, шансы остаются у экспертов или у близких родственников «подопытного» со всех этих изображений.
Если фото или картинка только одна, итог пока не всегда самый лучший. Увидеть артефакты на видео, когда голова находится в движении, можно без особых проблем. Сами исследователи говорят, что их самое слабое место – взгляд. Модель, основанная на ориентирах лица, пока не всегда понимает, как и куда человек должен смотреть.
Музей Дали в Сент-Питерсберге, штат Флорида, «вернул к жизни» с помощью искусственного интеллекта образ Сальвадора Дали. Художника-сюрреалиста воссоздали в натуральную величину, используя технологию создания видео на основе машинного обучения.
Однажды Сальвадор Дали произнес фразу:
В целом я верю в смерть, но в смерть Дали абсолютно нет.
А теперь музей Дали во Флориде поработал над тем, чтобы исполнить пророчество художника. Используя архивные кадры из интервью, сотрудники рекламного агентства Goodby, Silverstein & Partners взяли 6 000 кадров и потратили на них 1 000 часов машинного обучения, чтобы воспроизвести виртуальное лицо сюрреалиста. Уже готовое ИИ-лицо Дали было наложено на тело актера с пропорциями художника, а цитаты из интервью перезаписали голосом актера, который умело подражает его уникальному акценту, сочетающему нотки французского, испанского и английского языков.
Дали появляется перед посетителями после того, как они нажимают дверной замок на специальной промо-конструкции. Следом виртуальный художник начинает рассказ об истории своей жизни. Благодаря 45 минутам новых видеороликов, а также тысячами отрывков из архивов, разные зрители получают разный контент. Дали может читать последние новости со страниц свежей газеты The New York Times или, например, комментировать погоду за окном. В конце сессии Сальвадор Дали предлагает зрителям сделать сэлфи, после чего оборачивается и делает снимок на собственный смартфон.
Для всех желающих выставка «Dalí Lives» откроется 11 мая как постоянная экспозиция, посвященная 115-летию Сальвадора Дали.
На днях крупнейшая сеть супермаркетов США представила то, что она называет «магазином будущего». Работающий в городе Левиттаун (штат Нью-Йорк) большой супермаркет, использующий сразу десятки передовых технологий. В том числе – интерактивные дисплеи и камеры, подключенные к системе искусственного интеллекта. Сотни миллионов долларов – ради того, чтобы покупатели никогда не столкнулись с несвежим продуктом.
Новый тестовый супермаркет компания называет Intelligent Retail Lab (сокращенно – IRL). Здесь очень богатый ассортимент: IRL продает 30 000 товаров. Пространство – тоже довольно большое: 4500 квадратных метров, намного больше, чем средний супермаркет. При этом во всём таком торговом центре работает всего 100 сотрудников (кассиры, охранники и наполнятели полок). В этом одно из главных достоинств IRL: человеческий фактор тут минимальный.
Как и «безкассовый» Amazon Go, магазин усыпан массой камер, вмонтированных в потолок. Но площадь здесь в десять раз больше, и задачи у магазина другие. ИИ в камерах настроен не на определение товаров, которые берут в руки покупатели, а на отслеживание запасов товаров на полках. Магазин видит, что сегодня разлетается как пирожки, и может подать сигнал, чтобы отправить человека заполнять полку. Также искусственный интеллект учитывает срок хранения товаров и запоминает, как долго он видел тот или иной предмет сидящим на полке. Когда срок хранения продукта подходит к концу – опять же, система дает знать сотрудникам. Причем делать это IRL умеет даже для мяса и овощей, срок хранения которых на них не прописан.
В результате даже несколько десятков сотрудников, получая указания от ИИ, могут поддерживать весь огромный супермаркет в идеальном состоянии. Они всегда знают, к какой полке нужно отправляться. Покупатели, по задумке Walmart, оценят то, что продукты здесь всегда свежие, плюс платить людям можно будет существенно меньше. Фирма уверяет, что для её рабочей силы это тоже отличное решение: вместо того, чтобы постоянно быть на ногах, бегая между полок и проверяя, чего не хватает, теперь они заранее будут знать, что им нужно нести.
Машинное зрение в IRL умеет делать всё то же, что и в Amazon Go. Компьютер видит, что за продукт лежит на полке, различает его количество, проверяет скорость, с которой он уходит, делает проекции (хватит ли до конца дня?). Камеры и другие датчики магазина вырабатывают 1,6 ТБ данных в секунду. Чтобы анализировать такой объем информации, в том же помещении расположен дата-центр с 100 серверами. Он защищен стеклом, подсвечивается синим и выставлен на обозрение публики.
Чтобы избежать обвинений в нарушении приватности покупателей, Walmart говорит, всё видео, накопленное камерами, удаляется через неделю, а лиц система вообще не видит (вместо них – размытое пятно).
В магазине также тестируется масса других технологий. Информационные терминалы у полок помогают покупателям узнать о тех продуктах, которые они здесь покупают (где выпущены, что содержат, в каких рецептах используются…). У входа в магазин стоят тумбы, где можно почитать об особенностях IRL и получить ответы на многие распространенные вопросы. Есть интерактивная стена, показывающая вашу «тень», когда вы мимо неё проходите (на самом деле это ИИ, считывающий ваше изображение с камер и предсказывающее, куда вы будете двигаться в следующий момент). А пол в помещении моют специальные роботы-уборщики, тоже при поддержке искусственного интеллекта.
Топ-менеджмент Walmart уже несколько лет пытается во всём превзойти (или хотя бы догнать) Amazon. Ранее они переработали весь свой онлайн-магазин – и теперь в последний год он стал третьим по популярности в Штатах, после Amazon и eBay (и мы тоже видим, что из России через нас на нём стали заказывать намного чаще, он уже в топ-5). В Индии, перебив ставку Amazon, Walmart в прошлом году заплатила за Flipkart $15 млрд. Вместо AWS подписала контракт с Microsoft Azure. А теперь – вот, вместо Amazon Go пытаются внедрить магазины IRL.
От успеха первого тестового образца будет зависеть, станут ли открывать такие же супермаркеты в других городах и штатах. Walmart в первую очередь проверяет готовность покупателей к таким новым технологиям. Если IRL своими экранами, камерами и вездесущим ИИ отпугнет мам и бабушек с тележками, и покажет продажи ниже, чем тот же магазин за полгода до этого, Walmart направит свои усилия и деньги в другое место – благо, идей в её инкубаторе технологий (Store №8) хватает.
Майк Ханрахан, CEO магазинов IRL, в своих ответах журналистам дает скрытные подначки Безосу и его Amazon Go, говоря об их излишней амбициозности:
Не нужно быть чрезмерно влюбленным в идею ИИ. Если технология есть, совсем необязательно, что она годится для вашей ситуации. Есть много нереалистичных проектов, которые не смогут масштабироваться, и, главное, не будут полезными для покупателей.
У нас, может быть, всё более прозаично, но вы сможете быть уверенными, что в магазине всегда будут свежие фрукты и мясо, так что ваше путешествие по магазинам гарантированно будет успешным, а это многого стоит.