На сегодняшний день можно наблюдать всплеск интереса к видеоаналитике – или, как называют его отдельные представители индустрии, видеоанализу. Интерес связан в первую очередь с желанием уйти подальше от человеческого фактора и прийти к ситуации, когда «вкалывают роботы, а не человек». И действительно, современные компьютерные технологии в области видеоанализа могут снизить рутинную нагрузку на оператора и, анализируя видеоконтен,т привлекать его внимание только во внештатных случаях. Например, видеоаналитика гораздо точнее и без усталости и отвлечения может считать мимо проходящих людей или следить за протяженным периметром, подавая сигнал тревоги только тогда, когда какой-то объект действительно начинает лезть на забор, что позволяет не нагружать оператора работой с камерами, на которых ничего не происходит.
По данным руководителей отечественных ЧОП, считается (сведения получены в результате опроса на форуме), что оператор видеонаблюдения способен эффективно отслеживать два монитора в режиме квадрата на каждом (т. е. 8 камер одновременно) не дольше 45 минут. Потом притупляется восприятие, и оператор не видит происходящего. После этого необходим перерыв в работе не менее чем на 15 минут, желательно в специальной комнате отдыха. Довольно печально, не так ли? Это же какое количество операторов необходимо для контроля за периметром крупного предприятия или магистрального трубопровода, состоящим из нескольких сотен камер наблюдения?
Самое забавное, что даже содержание целой армии операторов не гарантирует отличного результата и 8 видеокамер на человека – это довольно оптимистичный вывод. Например, в Великобритании (чемпион по количеству камер на каждого человека) специально исследовалась эффективность работы оператора видеонаблюдения. Оператор должен был обнаружить среди прохожих на тротуаре (причем не в толпе) человека с зонтиком. Опытный мотивированный оператор решал эту задачу с вероятностью порядка 70%. (Исследование проводилось Джимом Олдриджем из научно-исследовательского подразделения британской полиции (PSDB). То есть даже человек, наблюдающий одну камеру в мониторе с вероятностью в 30%, может пропустить интересующее событие. Это приводит нас к пониманию, почему видеоаналитика настолько востребована и почему интерес к ней продолжает расти. Этому способствуют несколько предпосылок:
- оператор может отвлечься от монитора, видеоаналитика – нет;
- видеоаналитика может провести поиск объекта по базе в реальном времени, а человек не может;
- рутинные задачи, например подсчет проходящих людей, видеоаналитика осуществляет точнее и качественнее человека.
При этом заменить человека аналитика полностью не может, так как человек отлично принимает решения, а видеоаналитика может делать только то, что в нее запрограммировано.
Попробуем разобраться, какие функции могут быть реализованы с помощью видеоанализа, какие бывают типичные варианты построения архитектуры, какие типы видеоаналитики наиболее распространены и какие мифы имеют место быть в этой сфере. Надеюсь, нижеприведенный материал поможет вам разобраться в этом море маркетинга, рекламных уловок и понять, как и для чего имеет смысл искать варианты, а в каких случаях современные алгоритмы бессильны.
Вспомним для начала определение, что такое видеоаналитика:
Video content analysis или Video content analytics, VCA –это аппаратно-программное обеспечение или технология, использующие методы компьютерного зрения для автоматизированного сбора данных на основании анализа потокового видео (видеоанализа). Видеоанализ опирается на алгоритмы обработки изображения и распознавания образов, позволяющие анализировать видео без прямого участия человека. Видеоаналитика используется в составе интеллектуальных систем видеонаблюдения (CCTV, охранного телевидения), управления бизнесом и поиска видеоконтента.
С точки зрения временного интервала работы с видеоконтентом можно разделить на две большие группы:
– детектирование и анализ в реальном времени;
– индексирование баз данных и работа с архивом.
Наибольший интерес вызывает видеоанализ в реальном времени. При этом видеосистема, оснащенная аналитическими модулями, может обеспечивать как одну или две функции одновременно из перечисленных ниже, так и все три:
– обнаружение;
– слежение;
– распознавание.
Как принципиально работает видеоаналитика: в зависимости от модуля эти функции постоянно выполняются, обеспечивая непрерывное уточнение гипотезы о количестве, местоположении и типах объектов в контролируемой зоне. При этом автоматически отсекаются моменты, где характер движения объекта не подходит под заданный, тем самым обеспечивается очищение от ложных срабатываний. Например, периметральные системы анализа видео выполняют все функции сразу, т. е. обнаруживают объект в зоне видимости, следят за ним для того, чтобы определить направление и характер движения объекта и исключения повторного обнаружения. При приближении объекта производят распознавание для идентификации и отстраивания от ложных срабатываний на животных и других шумов и погодных явлений природы. При этом распознавание включает в себя широкий спектр задач – от классификации объекта на цель или окружающая среда до идентификации и верификации интересующего объекта по присущим только ему признакам, например, биометрическим.
Как же может быть организована аппаратно-программная архитектура таких систем? Основных варианта три, рассмотрим их по порядку.
Server base analytics: (серверная видеоаналитика). Идеология основана на централизованной обработке видеоконтента на сервере. При этом сервер анализирует видеопотоки от всех камер или кодеров и также может их записывать, но чаще всего сервер, анализирующий видео, – это отдельная машина под задачи только видеоанализа. Преимущества: возможность комбинирования алгоритмов видеоаналитики на одной аппаратной платформе, а также использование недорогих видеокамер, в случае потери которых основные вложения в сервер и алгоритмы видеоанализа сохраняются.
Недостаток: необходимость непрерывной передачи видео от источника видеоданных на сервер, что создает нагрузку на каналы связи.
Рисунок 1. Пример server-based видеоаналитики
Edge video analysis (встроенная в камеру видеоаналитика) реализуется непосредственно в источнике видеоданных, например, в камере в кодере. Встроенный видеоанализ, как правило, работает на выделенном процессоре внутри видеоустройства и передает результаты (метаданные) параллельно с видеопотоком.
Преимущество: существенное снижение нагрузки на каналы передачи данных и сервер обработки данных. Особенно эффективно при остановке трансляции видео при отсутствии объектов или событий, т. е. когда ничего не происходит, видео не передается и не загружает каналы связи, а сервер обработки не декодирует сжатое видео для видеоанализа и индексирования.
Недостаток: высокая стоимость камеры или кодера с возможностью видеоанализа на борту, что приводит в случае вандализма к существенным тратам на восстановление и настройку системы.
Рисунок 2. Пример EDGE-based видеоаналитики
Distributed video analysis (распределенная видеоаналитика). Это гибридный вариант из server-based и EDGE-based видеоаналитической архитектуры. Архитектура основана на том, что обработка видеопотока распределена между источником видеоданных (камерой или кодером) и центральным оборудованием (сервером). Например, в системах многокамерного слежения обнаружение объектов и слежение производится в источнике видеоданных, а сопоставление результатов и между несколькими источниками, и трекинг осуществляется через сервер.
Преимущества: гибкая система, не загружающая сильно каналы связи и гораздо менее требовательная к видеокамерам и серверам обработки данных.
Недостатки: требует настройки и видеокамеры, и сервера как единой системы, т. е. повышаются требования к инженеру, которому необходимо разбираться не только в самой видеоаналитике, но и в сетях и серверном программном обеспечении.
Рисунок 3. Пример гибридного EDGE-server based архитектуры видеоаналитики
При этом параллельная запись метаданных позволяет производить максимально быстрый поиск по базе данных, так как эти метаданные могут применяться как система индексирования, где можно задавать цвет, направление размеры движения объекта для ускорения поиска в архиве.
Если посмотреть на основные группы продуктов, представленных на коммерческом рынке, то их можно условно разделить на несколько сегментов:
– периметральная аналитика (главная задача выделить объект-нарушитель и отстроиться от движения травы, деревьев и теней);
– распознавание (например, лиц людей, автомобильных номеров, типов объектов);
– поведенческая аналитика (анализ поведения отдельных объектов или толпы);
– сервисная аналитика, или тамперинг (расфокусировка, закрашивание, отворот камеры).
Ниже приводится далеко не полный перечень возможных детекторов и правил:
• Подсчет объектов (посетителей магазина или пассажиров транспорта).
• Обнаружение объектов в запрещенной зоне (падение на рельсы).
• Обнаружение оставленного предмета (потенцаиальной бомбы в чемодане).
• Распознавание лиц (разыскиваемых преступников).
• Распознавание номерных знаков (поиск угнанных авто, превышение скорости).
• Обнаружение неправильной парковки (в неположенном месте).
• Обнаружение скопления людей (образование толпы с оценкой количества людей).
• Обнаружение драки или потасовки (ненормальное поведение).
• Контроль качества видео (расфокусировка, засветка, отворот камеры).
• Охрана периметра (пересечение линии, на фоне движения листвы и травы).
• Обнаружение огня и дыма (детектор возгорания).
• Анализ длины очереди (с оценкой среднего времени, проведенного в ней).
• Оценка внимания, пола, возраста (для оценки эффективности наружной рекламы и для демонстрации нужного ролика целевой аудитории).
Четкой границы, разделяющей эти сегменты, нет, зачастую тот или иной алгоритм или модуль (при заявлении этого производителем) можно при правильной настройке применить и в магазине для определения количества покупателей, и на таможне для подсчета проезжавших железнодорожных вагонов. Но нужно помнить, что не все алгоритмы универсальны, и в каждом случае лучше уточнить у производителя или дистрибутора, что выбрать.
Основная проблема, препятствующая бурному развитию видеоаналитики, – это, на мой взгляд, относительно высокая частота ложных срабатываний, которая быстро уменьшает экономический эффект от ее применения. Проблема постепенно решается путем совершенствования алгоритмов видеоанализа, но все еще имеет место быть. Существенно тормозит широкое применение внушительная стоимость системной интеграции и внедрения видеоаналитики. Роль этого фактора снижается благодаря появлению открытых стандартов, таких как ONVIF и PSIA, но пока процесс движется довольно неспешно в сторону упрощения процедур калибровки и настройки видеоаналитики.
На мой взгляд, интеллектуальное видеонаблюдение и видеоаналитика находятся на раннем этапе стандартизации. Существуют несколько международных организаций, занимающихся этими вопросами, но они также стартовали относительно недавно.
ONVIF (Open Network Video Interface Forum) объединяет около 700 производителей и имеет сильные позиции в России, Европе и Японии. Описывает интерфейсы взаимодействия между IP-камерами, серверами видеоаналитики, видеорегистраторами, системами контроля доступа (СКД) и другими компонентами.
PSIA (Physical Security Interoperability Alliance) объединяет около 100 производителей и имеет сильные позиции в Северной и Южной Америке. В сравнении c ONVIF интерфейс PSIA более прост и быстр в реализации, но менее гибок и масштабируем.
Самый главный миф, навязанный нам просмотром футуристических голливудских боевиков, заключается в том, что возможнсти видеоаналитики безграничны и любая система аналитики подходит на все случаи жизни. В мире существует множество разнообразных продуктов видеоаналитики, предназначенных для решения самых разных задач в различных операционных средах. Под видом интеллектуальных систем видеоаналитики многие нечестные производители продают даже обычные детекторы активности, называемые также Video Motion Detection. В условиях статичного помещения датчики VMD в какой-то степени могут оказаться полезными, но в большинстве реальных ситуаций будет слишком много ложных срабатываний, обусловленных внешними факторами и неспособностью датчика отличить движение фона от действительно важного события.
Поэтому не стоит забывать, что, как и любой другой продукт, каждое приложение видеоаналитики имеет определенные спецификации и характеристики. Не будьте столь наивны, полагая, что конкретный алгоритм или модуль, предназначенный для подсчета людей на входе в магазине, можно эффективно применить для охраны периметра, и наоборот. Разработчики аналитических продуктов предъявляют совершенно конкретные требования и пишут инструкции и схемы относительно размещения камеры, расстояния до объекта, количества и типов объектов, среды внутри и вне помещения, освещения и многих других факторов, оказывающих существенное влияние на эффективность. Поэтому прежде чем приобретать какой-то модуль, рекомендую RTFM или по-русски внимательно ознакомиться с инструкцией во избежание ошибок.
Практически все производители программных продуктов предоставляют бесплатно или за совершенно небольшие деньги возможность протестировать свои алгоритмы на вашем объекте, чтобы убедиться в том, способен ли данный алгоритм решить стоящие перед вами задачи и как он поведет себя в ваших условиях. Рекомендую пользоваться этой возможностью, что позволит выбрать наиболее эффективный алгоритм, который, в свою очередь, сэкономит вам много нервных клеток и выведет безопасность вашего объекта на новый уровень.
Наш мир становится все более цифровым и компьютеризированным. Система машинного зрения – этот прообраз охранной видеоаналитики, дитя компьютерного мира, и она будет развиваться и совершенствоваться вместе с ним. Этот сегмент является одним из приоритетных направлений разработок ведущих институтов и исследовательских центров мира. Видеоаналитика все больше входит в нашу жизнь, она широко применяется и в бизнесе, и в обеспечении безопасности, и инвестиции в эту сферу только растут как в потребительском сегменте (фотоаппарат с определением лица и улыбки, Kinect и т. д.), так и в профессиональном охранном видеонаблюдении.
Именно за ней будущее.