Видеоидентификация: от фантастики к «простым решениям»

28 Май 2014

11 марта 2014 Видеоидентификация: от фантастики к «простым решениям»

Евгений Богорад,
Директор по продуктам
ООО «Простые решения»

Каждый, кто ходит в кино, или смотрит сериалы про шпионов, «видел», как работает биометрическая идентификация человека по его изображению. Обычно с камеры, свисающей с вертолёта, летящего на расстоянии пары километров от объекта, снимают идеального качества кадры, которые можно бесконечно увеличивать – зерно никогда не появляется. На таких чудо-кадрах чудо-техника находит фрагмент лица (например, кусочек носа, глаз, и ухо), и по этой информации, непременно в реальном времени, супер-компьютер (их в кино по старой памяти называют мейнфрейм) находит разыскиваемого террориста (ну и, иногда, сразу направляет на него пулемёт).

Демонстрировать после этого настоящую систему в наши дни очень трудно – слишком высоки ожидания. На фоне таких кино-успехов даже самые серьёзные достижения реальных технологий кажутся, мягко говоря, малоубедительными.

Между тем, прогресс не стоит на месте. Каждый год появляются всё более и более эффективные системы, которые облегчают жизнь людям, занятым обеспечением безопасности, защитой жизни людей, а так же профессионалам в других областях. Но чтобы понять этот прогресс, и оценить его по достоинству, нужно хотя бы немного вникнуть в особенности того, что же делают системы идентификации человека по изображению.

Хорошие парни против плохих парней

Все системы делятся на две большие категории, специалисты в нашей стране называют их “кооперативные” и “некооперативные” (на западе они называются, соответственно, “for good guys” и “for bad guys”). В кооперативной системе человек заинтересован, чтобы система его опознала (например, для того, чтобы получить доступ в охраняемое помещение, к защищённому компьютеру, и т.п.), и он готов с системой сотрудничать.

В чём заключается сотрудничество? Во-первых, человек готов к тому, чтобы быть представленным системе заранее. Это так называемый процесс ознакомления, обучения. В зависимости от целей и специфики работы системы, создаётся от трёх до десяти изображений человека, которые обрабатываются и заносятся в его учётную карточку. Во-вторых, в кооперативной системе человек готов совершать шаги, которые способствуют улучшению вероятности его распознавания – то есть он готов остановиться в нужном месте, смотреть в камеру, а не прятать глаза, не заматывать лицо шарфом и т.п. В-третьих, в кооперативных системах практически всегда разумная освещённость. Вероятность распознавания в таких системах на сегодня приближается к 97%. Это лучше, чем способности среднего человека. Здесь важно отметить, что число 97% вовсе не означает, что троих человек из ста система не пропустит. Это значит, что примерно в 3% случаев возможно, потребуется вмешательство оператора.

Но есть и альтернатива. Описанный выше способ работы кооперативной системы называется «идентификация». Но есть и второй режим, который называется «верификация». В этом режиме человек использует два фактора авторизации - лицо (это что-то, что у человека есть), и код (это то, что человек знает). То есть, подойдя к замку, человек набирает свой личный код, по которому система понимает, кто пришёл, после чего смотрит в камеру, и система верифицирует тот факт, что код ввёл действительно тот, кто им владеет. Вместо кода чаще всего применяется электронная ключ-карта (NFC или RFID). Но встречаются и системы, где используются все три метода. Например, в банках и на секретных объектах сначала нужно приложить ключ, чтобы войти в тамбур-шлюз, а затем набрать PIN, и показать лицо камере, чтобы из шлюза выйти.

Некооперативные системы призваны узнавать людей в ситуациях, когда те не горят желанием быть опознанными. Типичная ситуация - уличная камера, снимающая поток людей, или камера в метро, на вокзале и т.п. местах, где количество людей огромно, возможности остановить их нет, освещение ужасно (либо света очень мало, либо слишком много, тени, контрастность, шумы), а шаблон сравнения – одна «паспортная» фотография, переданная по факсу. В описанной ситуации узнать кого бы то ни было практически невозможно, что бы нам ни показывали по телевизору, и в кино. Заведомо нереалистичные ожидания просочились даже в официальные требования, что сильно портит жизнь безопасникам на транспорте – постоянно обсуждают поиск по фото, где между глазами 40 точек. На сегодня системы, которые бы уверенно узнавали людей по таким фото, науке неизвестны.

Забегая вперёд, скажем, что разумные ожидания от качества идентификации в таких системах - не выше 70%, даже при правильно спроектированной и качественно выстороенной системе.

Свет, свет, свет

Основные шаги, предпринимаемые для улучшения вероятности распознавания – в первую очередь, улучшение освещённости. Любой, кто интересовался фотографией, знает, что много рассеянного света – залог успеха. Когда вокруг светло, можно выставить оптимальную диафрагму, которая даст значительную глубину резкости, что позволит получать чёткое изображение в требуемом диапазоне расстояний от камеры до объекта. При этом слишком длинная экспозиция приводит к получению «смазанных» кадров. Для уменьшения времени экспозиции, опять же, требуется хорошая освещённость. А ещё есть тяжёлое наследие XX века – так называемые «лампы дневного света», которые мерцают 50 раз в секунду, что вступает в конфликт с временем экспозиции, и приводит к появлению полос в кадре, которые тоже, мягко говоря, не помогают качеству идентификации. Шаги, предпринимаемые для решения этой проблемы – увеличение количества источников света, их мощности, применение в «лампах дневного света» так называемых «балластов», обеспечивающих частоту мерцания 1100Гц и выше. Но лучшее решение – безусловно, создание рекомендованных зон для прохода, где можно жёстко контролировать освещённость, создаваемую LED-светильниками.

Мегапиксели, углы обзора, метры

Ещё одно тиражируемое фильмами и сериалами заблуждение – возможность идентификации человека с «общего плана» камеры наружного наблюдения. Вот нам показали улицу от края до края, вот из-за дома вышел человек, и – бац! – компьютер его узнал. Так, конечно, не бывает, хотя бы из-за ограниченного разрешения видеокамер. Вообще, описанная ситуация – пожалуй, единственная, где «гонка мегапикселей» всё ещё не завершена. В бытовых (и даже профессиональных) фото- и видео-камерах количество мегапикселей, как в том анекдоте про мощность двигателя Роллс-Ройса, «достаточное».

С увеличением количества мегапикселей, однако, мы сталкиваемся с другой проблемой – скорострельностью камеры – шина-то имеет физические пределы. Поэтому с ростом разрешения всегда падает количество кадров в секунду. Скажем, в камерах Arecont (несмотря на заявленные цифры) единственный способ получить 20-21 кадр в секунду – это снизить разрешение до величины 1600x1200 точек. Есть камеры с лучшими параметрами, но никаких «десяти мегапикселей 20 раз в секунду» не бывает.

Теперь понятно, что камере, занятой идентификацией людей по лицу, не нужны широкие углы. С учётом разного роста людей (обычно считается, что люди бывают от 150 до 210 см) камеру «кладут на бок», чтобы бОльшая сторона покрывала рост, а не ширину. Таким образом, мы быстро приходим к тому, что обычная камера (для простоты берём FullHD, 30 кадров в секунду) может обрабатывать только один проход.

Расстояние от камеры до объекта не имеет большого значения, т.к. можно использовать объективы с большим фокусным расстоянием. На практике, тем не менее, расстояние более 30 метров практически никогда не используется.

Найти лицо

Для того, чтобы по фото- (или видео-) изображению идентифицировать человека, сначала необходимо найти его лицо в кадре. Задача эта гораздо сложнее, чем представляется интуитивно. Во-первых, даже человек «видит» лица даже в объектах неживой природы (так, в частности, на сервисе flickr существует группа, где коллекционируют такие «природные лица»). Во-вторых, мало найти нечто, похожее на лицо, нужно ещё расставить на этом «лице» точки, от которых будет отталкиваться алгоритм идентификации. Эти задачи решаются разными методами. Две основных группы методов можно условно назвать статистическими и эвристическими.

Статистические методы, как следует из названия, оперируют огромными массивами заранее обработанной информации. Если мы «показали» компьютеру, где именно находятся лица на, скажем, миллионе реальных изображений людей, он может «научиться» находить лица, где угодно. Затем по полученному «результату» производится попытка расстановки ключевых точек.

Эвристические методы, напротив, работают по принципу «натягивания смайлика» - отталкиваясь от сильно упрощённой идеи (овал лица, глаза, нос, брови, уши, а так же их допустимые взаимные расположения). Такие алгоритмы пытаются «нарисовать» или «натянуть» требуемый «смайлик» на элемент изображения. Если это получается, то результат считается лицом (а ключевые точки – сразу же расставленными).

Нельзя сказать, что один метод лучше другого. В разных ситуациях, на разных задачах, они работают по-разному. Часто их используют в связке.

Узнать друга, отличить врага

Наконец, мы подходим к области идентификации. Здесь прямых ответов на простые вопросы уже нет: не существует ни одного алгоритма идентификации «коммерческого качества» (а их в мире, кстати, считанные единицы), чьи коды были бы опубликованы. Поэтому достоверно можно только рассуждать о разных подходах к идентификации. Если отбросить так называемые «нейронные сети» (там успехи в идентификации скорее на бумаге и в головах учёных), остаются алгоритмы, которые, отталкиваясь от опорных точек, расставленных на изображении лица при его детектировании (нахождении), «натягивают сетку», и вычисляют разнообразные функции либо в точках пересечения линий, либо в точках, выбранных по какому-то другому принципу. Результатом этих манипуляций становится число (или группа чисел), которые принято называть «шаблоном идентификации». Эти шаблоны и хранятся в памяти систем. Их и сравнивают алгоритмы идентификации – кто-то быстрее и лучше, кто-то медленнее и хуже.

Зачем это всё

Описанные принципы и созданные на их базе алгоритмы находят всё большее применение в повседневной жизни. Помимо «страшилок» про «большого брата», системы идентификации помогают ловить преступников, находящихся в розыске, обеспечивают контроль доступа, предотвращают мошенничество.

Компания «Smilart – Простые решения» в течение семи лет разрабатывала собственные алгоритмы идентификации человека по изображению. Получившиеся в результате системы используются в целом ряде продуктов, призванных улучшить нашу жизнь.

Домофон поставляется в составе готовых решений охраны периметра. Он позволяет облегчить жизнь человека, т.к. идентифицирует его ещё только при приближении к двери или калитке охраняемого объекта, чтобы открыть те перед ним автоматически. Это экономит несколько секунд времени и улучшает настроение, поскольку человек слышит персонализированное приветствие («Здравствуйте, Владимир Владимирович!»). На сегодняшний день такая система реализована на базе домофона Mobotix M24.

Валидатор сравнивает изображение в паспорте (и других документах) с лицом предъявителя, может проверять документ на предмет подделки. Только сотрудники полиции и спецслужб проходят специальное обучение, которое позволяет им уверенно «узнавать» людей по фото. Обычно же в подобных ситуациях находится человек, который, не обучен методам идентификации, и не знает лежащих в их основе научных принципов. Валидатор позволяет бороться с мошенничеством со стороны сотрудников банков, сотовых операторов, а также может быть использован на пунктах паспортного контроля.

Платформа – сердце системы Smilart. На ней реализованы основные алгоритмы и «обвеска», которая позволяет в короткие сроки создавать продукт, необходимый клиенту. На сегодня реализованы следующие крупные проекты.

КПП - В систему заводят лица всех сотрудников, после чего любой, кто входит в КПП, должен посмотреть в камеру. Если система его «узнала» - она покажет часовому, кто это. Наш КПП установлен в ряде учреждений ФСИН РФ.

БЛИК - пассажирская таможня аэропорта Шереметьево. С отменой уголовной ответственности за контрабанду резко активизировались контрабандисты на китайском направлении. Теперь, когда им грозит только штраф и депортация, злоумышленники стали летать особенно часто. Проблема же в том, что мы относительно хорошо различаем только лица своей расы (шутка из фильма Мимино, про «все белые на одно лицо» - в яблочко!). Компьютеру же, напротив, всё равно – он различает не расы, но только лица. Система Smilart показала, что отлично узнаёт людей всех трёх рас – европеоидов, негроидов, монголоидов.

В настоящее время идут работы по оборудованию нашей системой ряда объектов повышенной секретности, где используются тамбур-шлюзы.

Все перечисленное, конечно, не выглядит столь впечатляюще эффектно, как киношные фантазии, но отражает современный уровень передовых технологий и эффективно решает задачи, для которых создано. То, что еще вчера воспринималась, как научная фантастика, незаметно для обывателя перешло в категорию повседневной и повсеместно реализуемой практики.

Источник: Daily (.sec ru)