Волхонский Владимир Владимирович
Национальный исследовательский университет информационных технологий, механики и оптики
Задачи автоматизированного анализа видеоизображений (ААВ),так или иначе связанные с автомобильным транспортом, весьма разнообразны. Компании-разработчики предлагают все новые и новые функции программного обеспечения (ПО), интересные и полезные для заказчиков. Условно можно выделить две основных группы задач, связанных с анализом изображений автотранспортных средств (АТС).
Во-первых, распознавание государственных регистрационных знаков автомашин, т. е. задача идентификации транспортных средств.
Во-вторых, распознавание тех или иных параметров или особенностей характера движения или поведения таких объектов, которые могут, к примеру, фиксироваться как нарушение правил дорожного движения, быть потенциальными причинами дорожно-транспортных происшествий или причиной возникновения проблем в движении других транспортных средств.
Вполне естественно, что существует ряд ограничений на использование того или иного программного обеспечения, связанный с особенностями реализации конкретной задачи. Цель настоящей работы - пояснить необходимость некоторых из таких требований и ограничений, причины их возникновения и степень влияния на возможность и качество решения первой из двух упомянутых выше задач -распознавания номеров автомашин. Хотя, в общем случае, многое из рассматриваемого ниже относится не только к автомашинам, но и к другим объектам, имеющим регистрационные номера, в том числе и транспортным, например, таким как железнодорожные вагоны.
Сначала немного о терминологии. Термин номера автомашин не совсем корректный - правильнее говорить о государственных регистрационных знаках (ГРЗ) автотранспортных средств. Также правильнее говорить идентификация транспортных средств по ГРЗ, но поскольку в значительной степени распознавание номеров - это устоявшийся термин, будем использовать и его.
Как упоминалось, производители ПО распознавания номеров обычно предъявляют ряд требований или ограничений, которые должны выполняться при практической реализации рассматриваемой задачи. Например, таких как угловые положения телекамеры в разных плоскостях, максимальная скорость движения транспортного средства, минимальная плотность пикселей в плоскости нахождения ГРЗ или количество пикселей на его ширину и другие.
Прежде чем приступить к рассмотрению этих ограничений, отметим большое разнообразие ГРЗ, к примеру, показанных на рисунке 1 [1].
Рис. 1. Различные типы государственных регистрационных знаков РФ
Различные типы государственных регистрационных знаков могут заметно отличаться для транспортных средств, разных по различным признакам, например, по таким как функциональное назначение автомашины (дипломатический, общественный транспорт, транспорт МВД...) или конструкция АТС (автомашины, прицепы, полуприцепы, мотоциклы). Это влечет и отличия по различным параметрам самих ГРЗ по форме, размеру, цвету и набору символов (основная идентификационная характеристика). Не говоря уже об отличиях регистрационных знаков в различных странах.
Также могут иметь место дополнительные графические элементы, которые создадут проблемы при решении рассматриваемой задачи. Например, вертикальная линия, отделяющая номер региона РФ, может восприниматься как единица.
Кроме того нужно отметить и различные варианты задач распознавания номеров, находящихся на:
■ объекте, движущемся относительно квазистатического фона (стационарная телекамера - движущийся транспорт);
■ статическом объекте относительно изменяющегося фона (движущаяся камера - неподвижный транспорт);
■ движущемся объекте относительно меняющегося фона (движущаяся телекамера - двигающийся транспорт). Это приводит к сложности как собственно программного, так и аппаратного обеспечения. В ряде случаев задачу можно сузить, ограничив типы номеров, например, на подземной стоянке не может быть тракторов или грузовых автоприцепов. И, тем самым, снизить требования к вычислительным ресурсам.
В зависимости от условий конкретной задачи для распознавания номеров АТС может возникать необходимость решать последовательно несколько задач:
■ обнаружения двигающегося объекта;
■ обнаружения номера на нем;
■ распознавание типа номера;
■ распознавание набора символов.
При этом первоочередная задача, без которой невозможно эффективно решить задачу распознавания номеров, это формирование на видеоизображении зоны потенциального нахождения ГРЗ с параметрами, достаточными, во-первых, для обнаружения знака на видеоизображении и, во-вторых, для распознавания его символов.
Выделим два наиболее важных параметра, от которых будет зависеть формируемое видеоизображение ГРЗ.
1. Минимальная плотность пикселей в рабочем диапазоне дальностей (очевидно, что наихудшие условия будут соответствовать нахождению знака на максимальной дальности от телекамеры).
2. Взаимное положение телекамеры и регистрационного знака (т. е. автотранспортного средства), определяемого углами между направлением на телекамеру и нормалью к поверхности регистрационного знака:
■ поворота (азимута) в горизонтальной плоскости (направлением на телекамеру в горизонтальной плоскости);
■ наклона (угла места) в вертикальной плоскости (направлением на телекамеру в вертикальной плоскости);
■ перекоса (разворот относительно перпендикуляра к плоскости регистрационного знака) - угол между положением горизонтальной оси знака и горизонтальной плоскостью. Кроме того, конечно, могут использоваться и другие параметры, например, зона возможного нахождения знака относительно общего изображения; минимальный и максимальный размер, который в общем случае связан с расстоянием автотранспортного средства до телекамеры и как следствие, с разными условиями формирования его изображения; направление движения (въезд/выезд), максимальная скорость АТС, освещенность и др.
Идеальный случай формирования исходного изображения регистрационного знака соответствует строго перпендикулярному направлению оси телекамеры к плоскости знака (рис. 2).
Рис. 2. Идеальное взаимное положение ГРЗ и АТС
Практически реализовать такое взаимное положение обычно невозможно. Редкие исключения составляют ситуации, к примеру, когда автотранспортное средство движется прямо на телекамеру и поворачивает непосредственно перед ней и при этом нет необходимости обеспечить защищенность ТК (рис. 3).
Рис. 3. Установка ТК на повороте АТС
Хотя для некоторых других видов объектов, включая и транспортные средства, это может быть легко выполнимо, к примеру, для железнодорожных вагонов.
Однако при решении реальных задач распознавания номеров автомашин возможность такой установки обычно отсутствует. Поэтому по разным причинам телекамеру, как правило, устанавливают выше транспортных средств с углом наклона φ к горизонтальной плоскости, в которой движется АТС (рис. 4).
Рис. 4. Угол наклона телекамеры
Кроме того, возможно движение автомашины под углом к направлению на телекамеру, т. е. с боковым смещением камеры относительно оси движения автомашины (рис. 5, а) или когда траектория движения АТС не совпадает с проекцией оси телекамеры на горизонтальную плоскость (рис. 5, б).
Рис. 5. Угол поворота телекамеры
Также, как упоминалось выше, нужно учитывать и возможность перекоса ГРЗ, возникающего, например, при боковом наклоне автомашины и неправильном креплении знака (рис. 6).
Рис. 6. Угол перекоса ГРЗ
Таким образом, упоминавшиеся выше угловые параметры φ, ψ и γ будут зависеть от взаимного положения транспортного средства и телекамеры (высоты установки, углов наклона и поворота и расстояния до АТС).
Как изменение угла наклона или поворота знака относительно направления обзора (направления на телекамеру), так и направления обзора относительно плоскости знака приводят к одинаковому эффекту (рис. 7).
Рис. 7. Угол взаимного наклона ГРЗ относительно ТК
Поэтому необходимо учитывать именно взаимное положение ГРЗ (АТС) и телекамеры, поскольку, как будет показано ниже, влияние на формирование изображения знака также будет одинаково.
На практике упомянутые углы будут влиять на параметры сформированного видеоизображения ГРЗ. А именно, будут приводить к сжатию, т. е. к искажению исходного (анализируемого) изображения ГРЗ в вертикальной, горизонтальной или обеих плоскостях.
На рисунке 8 проиллюстрировано влияние угла наклона ГРЗ относительно направления обзора на его видеоизображение, сформированное телекамерой, расположенной под углом φ к плоскости знака. При этом происходит сжатие видеоизображения ГРЗ в вертикальной плоскости.
Подобные изменения изображения ГРЗ будут иметь место и при изменении направления обзора.
Рис. 8. Влияние угла наклона ГРЗ на его видеоизображение
Аналогичным будет влияние угла ψ поворота ГРЗ, который будет приводить к сжатию сформированного видеоизображения в горизонтальной плоскости.
Рисунок 9 иллюстрирует сказанное: на рисунке 9, а показано реальное изображение знака, а на остальных - видимое с разных ракурсов при наклоне (рис. 9, б), повороте (рис. 9, в) и одновременном наклоне и повороте (рис. 9, г).
Рис. 9. Влияние углов наклона и поворота ГРЗ на его видеоизображение
При вертикальном ракурсе происходит сжатие изображения с уменьшением ширины горизонтальных линий символов при сохранении ширины вертикальных. А при боковом ракурсе - имеет место сжатие по продольной оси знака с уменьшением ширины вертикальных и сохранением ширины горизонтальных линий символов регистрационного знака. Это надо учитывать при выборе параметров объектива (угла обзора) и телекамеры (разрешающей способности), чтобы на максимальной дальности достигалось требуемое значение плотности пикселей.
Ясно, что при этом изменяются не только соотношения высоты и ширины как собственно ГРЗ, так и его символов (рис. 9, б, в) по сравнению с исходным изображением (рис. 9, а). Кроме того, уменьшается толщина символов знака. Все это может приводить к ошибкам распознавания этих символов. В то же время возможно сочетание углов наклона и поворота, при которых искажений не будет, а только произойдет пропорциональное сжатие всего изображения ГРЗ (рис. 9, г).
Это требует увеличения плотности пикселей по сравнению с фронтальным направлением на знак.
В отличие от видеоанализа изображения лиц, в данной задаче рассматриваемые искажения будут линейными. Причина этого заключается в том, что анализируемый объект - ГРЗ - можно считать плоским (пренебрегаем некоторой объемностью, выпуклостью символов). Следовательно, есть возможность компенсации этих искажений. Более того, зачастую достаточно просто отмасштабировать изображение ГРЗ к требуемому соотношению сторон.
Рассматриваемый вид искажений может быть легко учтен путем определения по видеоизображению взаимного положения автотранспортного средства и телевизионной камеры, с последующей оценкой значений углов, определяющих направление обзора (направление на знак). А если есть также априорная информация о возможном положении автомашины, например, при ограничении зоны возможного нахождения знака, может производиться и предварительная коррекция видеоизображения ГРЗ на основе, к примеру, среднего значения положения автомашины относительно телекамеры в зоне возможного нахождения АТС.
Иногда наличие углов можно оценить по неправильному соотношению сторон ГРЗ, в том случае, если искажения имеются только в одной плоскости или они различные в разных плоскостях. Однако «правильное» соотношение сторон изображения знака может быть также и при наличии определенной степени искажений одновременно в обеих плоскостях (рис. 9, г).
Однако сказанное, касающееся компенсации искажений, не относится к ситуации, когда углы и взаимное положение таковы, что возникают трапецеидальные искажения, вызванные разным расстоянием от телекамеры до разных краев регистрационного знака. Это происходит при боковом направлении обзора. Рисунок 10 иллюстрирует причину появления трапецеидальных искажений и позволяет сделать оценку величины таких искажений при известных углах и направлении обзора.
Рис. 10. Боковое направление обзора
В простейшем случае можно просто произвести программную коррекцию формы изображения ГРЗ, приведя его к прямоугольной форме перед анализом символов. На рисунке 11 приведены проекции направлений обзора на различные точки ГРЗ в вертикальной и горизонтальной плоскостях, поясняющие и дополнительно иллюстрирующие трапецеидальные искажения.
Рис. 11. Трапецеидальные искажения
Из этого рисунка также понятно, что для уменьшения таких искажений необходимо увеличивать расстояние от ГРЗ до телекамеры и уменьшать углы обзора.
Сложнее дело обстоит с перекосом регистрационного знака относительно оси, перпендикулярной плоскости ГРЗ (рис. 6, а). Это может привести, в первую очередь, к сложностям в обнаружении. Поэтому ограничения на такой параметр обычно задаются разработчиками ПО.
После обнаружения знака перекос можно компенсировать программным образом перед непосредственно анализом изображения знака (распознаванием символов).
Рассмотрим некоторые особенности установки телевизионных камер с точки зрения возможности возникновения различных эффектов и возможных проблем.
Степень искажений, рассмотренных выше, будет зависеть от места установки телекамеры относительно объекта наблюдения. А именно, места и высоты установки камеры и ее ориентации. На рисунке 12 показаны варианты установки телекамеры на одной и той же высоте, направленной по оси движения автомашины. Изображения ГРЗ на этом рисунке иллюстрируют характер сжатия сформированного изображения.
Рис. 12. Искажения изображения при различном расстоянии до телекамеры
На рисунке 13 телекамера направлена также по оси движения, а изменяется высота ее установки при одинаковом расстоянии до автомашины.
Рис. 13. Искажения изображения при разной высоте установки телекамеры
Характер сжатия сформированного изображения знака по горизонтали при боковой установке камеры поясняет рисунок 14.
Рис. 14. Искажения изображения при боковой установке телекамеры
Заметим, что на этом рисунке не учитывается высота установки камеры, а иллюстрируется только сжатие ГРЗ по горизонтали за счет бокового смещения.
Одна из возможных проблем распознавания ГРЗ - это загораживание регистрационного знака одного транспортного средства другим. В этом случае впереди едущий автомобиль может создавать теневую зону, перекрывая номерной знак автомашины, едущей сзади (рис. 15). Очевидно, что поставленная задача идентификации транспортного средства в подобной ситуации решаться не будет.
Рис. 15. Загораживание ГРЗ впереди едущей автомашиной
Ясно, что возможность возникновения эффекта загораживания необходимо учитывать не только в вертикальной плоскости (рис. 15), но и в горизонтальной (рис. 16).
Рис. 16. Загораживание ГРЗ впереди едущей автомашиной
Поэтому правильнее говорить, что такой эффект будет проявляться в случае нахождения двух автомашин на одном направлении: телекамера - регистрационный знак идентифицируемой автомашины в зоне обзора камеры. Причем это может происходить не только в упомянутом выше случае, но и также при боковом расположении телекамеры и загораживании автомашиной, двигающейся по параллельному ряду или при взаимном смещении автомашин (рис.17).
Рис. 17. Загораживание ГРЗ при боковом смещении автомашин
При этом даже незначительное отличие в форме кузова автомашины может повлиять на возможность считывания ГРЗ (рис. 18), не говоря уже о больших отличиях (рис. 15). Тогда загораживание будет иметь место и на значительно больших дистанциях между АТС.
Рис. 18. Загораживание ГРЗ впереди едущей автомашиной
Установка двух телевизионных камер, смещенных относительно оси полосы движения, позволит в значительной степени уменьшить размер непросматриваемой зоны (рис. 19).
Рис. 19. Использование двух телевизионных камер
Но при этом будет происходить сжатие формируемого изображения ГРЗ.
Возможность загораживания влечет целесообразность решения одновременно и другой задачи автоматизированного анализа видеоизображений - выявления нарушителей, не соблюдающих дистанцию и нарушающих рядность, т. е. поведения, приводящего к невозможности идентификации транспортного средства.
Важнейший параметр, определяющий возможность формирования изображения ГРЗ, пригодного для идентификации, это плотность пикселей (ПП) в области нахождения знака. Расчет плотности пикселей на определенном расстоянии (в области возможного нахождения ГРЗ) не представляет трудности. Однако следует учитывать форму и параметры области возможного нахождения ГРЗ при выборе расстояния, на котором должна обеспечиваться требуемая для данного ПО плотность пикселей. Рисунок 20 и 21 поясняют сказанное для разного положения телекамеры относительно полосы, в которой фиксируется изображение ГРЗ для последующего распознавания.
Рис. 20. Выбор значения плотности пикселей
Рис. 21. Боковое расположение телекамеры
Предположим, что надо распознавать знаки в поперечной полосе на расстоянии L0 от телекамеры (рис. 20). На этом рисунке показаны линии фиксации изображения ГРЗ и постоянной плотности пикселей на изображении. Если разрешающая способность телекамеры выбрана исходя из требуемой плотности пикселей в центральной части зоны обзора, то на краях этой поперечной полосы она не будет выполняться, поскольку дальность Lmax до объекта наблюдения будет больше, чем в центре. Поэтому надо при расчете ПП выбирать максимально возможное расстояние от телекамеры до ГРЗ.
Более того, в крайних возможных положениях АТС увеличиваются углы поворота и наклона и, следовательно, возрастает влияние эффекта сжатия.
Аналогичная ситуация будет и с боковым расположением телекамеры (рис. 21).
Поясним изменение эффекта сжатия изображения ГРЗ в подобных ситуациях. Видимый размер ГРЗ на краях зоны будет меньше, чем в центре, следовательно и видимый размер элементов ГРЗ (толщина линий цифр и букв) будет также меньше. Так для примера при угле обзора в 90° (рис. 22) видимый размер ГРЗ на краях зоны будет меньше приблизительно на 30%.
Рис. 22. Изменения видимого размера ГРЗ на краях зоны обзора
Поэтому при выборе разрешающей способности телекамеры необходимо учитывать и эффект сжатия изображения. А поскольку, как отмечалось выше, при сжатии сформированного изображения знака уменьшается видимая ширина символов ГРЗ, необходимо увеличивать плотность пикселей в частях зоны, находящихся в боковых частях зоны обзора телекамеры. Так для последнего примера это потребует соответствующего увеличения плотности пикселей также на 30% для выполнения требований. Следовательно, количество пикселей матрицы телекамеры при формате 4:3 возрастет приблизительно в 1,7 раза с соответствующим ростом объема обрабатываемой видеоинформации.
Для области возможного нахождения ГРЗ произвольной формы также надо учитывать возможное взаимное расположение камеры и автомашины (точнее ее ГРЗ), чтобы правильно выбрать плотность пикселей с учетом возможного сжатия изображения. Например, при произвольном или непрямолинейном направлении движения АТС.
Степень изменения размеров знака при различных направлениях обзора можно оценить, используя график в работе [2]. Визуально характер изменения видимых размеров иллюстрирует рисунок 23.
Рис. 23. Реальные и видимые изображения ГРЗ
Для численной оценки величины искажений при различных расстояниях от оси телекамеры и, следовательно, при разных углах обзора можно воспользоваться графиками на рисунке 24, на которых построены зависимости, характеризующие относительную величину искажений при одинаковом размере поперечной зоне контроля ГРЗ и разных расстояниях телекамеры от упомянутой зоны, а следовательно, и разных углах обзора, равных α=90°, 64°, 48°, 33° и 25°.
Рис. 24. Распределение геометрических искажений по зоне обзора
Такие условия соответствуют соотношению ширины зоны обзора и расстояния от нее до телекамеры, равному, соответственно, 2; 1,25; 0,89; 0,59 и 0,44. Рисунок 25 иллюстрирует связь графиков на рисунке 24 со взаимным расположением телекамеры и зоны фиксации знака с искажениями (сжатием).
Рис. 25. Связь геометрических искажений с расстоянием до зоны фиксации изображения ГРЗ
Из графиков на рисунке 24 видно, что при сравнительно малых углах обзора (до 48°) сжатие изображения будет составлять менее десяти процентов. А при угле 90° - около 30%.
Завершая рассмотрение возможных искажений, заметим, что разработчик ПО может учитывать их в требованиях, при этом не указывая напрямую. Поэтому стоит предварительно обсудить с ним подобные проблемы, чтобы неоправданно не увеличивать требования к выбираемым телекамерам и их установки.
Зачастую встречается стремление увеличить разрешающую способность телекамеры и использовать одну вместо нескольких. Например, использовать одну телекамеру с высоким разрешением, чтобы «перекрыть» четыре полосы движения (рис. 26, а). Сравним с вариантом двух телекамер вместо одной (рис. 26, б).
Рис. 26. Использование нескольких телекамер
Для обеспечения такой же плотности пикселей по горизонтали каждая из двух телекамер должна иметь вдвое меньшую разрешающую способностью по сравнению со случаем использования одной ТК (рис. 26, а). А вертикальная зона обзора при этом будет в два раза меньше. Следовательно, и общий объем видеоинформации уменьшится в 2 раза. Кроме того, как было показано выше, будет меньше и эффект сжатия изображения на краях зоны обзора каждой из телекамер.
РЕКОМЕНДАЦИИ ПО УСТАНОВКЕ И ВЫБОРУ ПАРАМЕТРОВ
Очевидно, что вопросы выбора места установки и ориентации телекамеры, а также ее разрешающей способности для обеспечения требуемой плотности пикселей в значительной мере будут зависеть от условий конкретной задачи и выбранных критериев. Тем не менее, можно сформулировать некоторые нижеследующее общие рекомендации.
1. Прежде всего, необходимо выполнять требования разработчиков ПО.
2. С точки зрения минимизации эффекта сжатия по вертикали, рекомендуется устанавливать телекамеру по возможности ниже, насколько позволяют ограничения высоты установки по требованиям защищенности камеры и максимальная высота АТС и/или увеличивать расстояние от телекамеры до зоны фиксации изображения ГРЗ с соответствующим уменьшением угла обзора.
3. С точки зрения минимизации эффекта сжатия по горизонтали, рекомендуется устанавливать телекамеру по возможности в плоскости, лежащей на одной линии с наиболее вероятным направлением движения АТС.
4. С точки зрения минимизации эффекта загораживания следует:
■ учитывать возможные габариты, форму и вероятное взаимное расположение АТС;
■ устанавливать телекамеру по возможности выше и/или смещать вбок;
■ использовать на каждую полосу движения по две телекамеры, смещенные относительно этой полосы в разные стороны;
■ по возможности обеспечить определенное расстояние (дистанцию) между АТС какими-либо средствами, а также фиксировать несоблюдение дистанции как признак возможной попытки скрыть ГРЗ. Замечание. Некоторые рекомендации в предыдущих пунктах противоречивы, поэтому еще раз нужно говорить о разумном компромиссе при выборе. 5. С точки зрения выбора разрешения телекамеры для достижения требуемой плотности пикселей рекомендуется обеспечить аргументированный «запас» (на следующие, рассмотренные выше эффекты, снижающие вероятность распознавания ГРЗ:
■ сжатие изображения по горизонтали за счет смещения телекамеры относительно оси движения АТС;
■ сжатие изображения по вертикали за счет высоты установки телекамеры;
■ возможное непрямолинейное движение АТС, приводящее к тому или иному искажению изображения ГРЗ. Замечание. При учете эффектов сжатия следует выбирать из них наихудшее (максимальное) значение сжатия изображения. Так, например, если сжатие по горизонтали может составлять 15%, по вертикали 20%, а за счет непрямолинейного направления движения - 10%, то разрешающую способность телекамеры необходимо выбирать на 20% больше по сравнению с расчетной (требуемой для данного ПО).
В статье была затронута лишь часть вопросов, связанных с рассматриваемой задачей. Важны также и другие, которые, к примеру, могут оказывать существенное влияние на качество формируемого изображения знака, такие как взаимосвязь освещенности и глубины резкости, скорости движения АТС и продолжительности формирования изображения одного кадра (электронной «выдержки»). Но, тем не менее, рассмотренный материал, на взгляд автора, показывает важность учета всех «мелочей» при решении задачи распознавания ГРЗ автотранспортных средств и позволяет правильно понять и использовать ограничения, выдвигаемые разработчиками ПО.
ЛИТЕРАТУРА
1. Регистрационные знаки транспортных средств в России // https://ru.wikipedia.org/wiki/ (Дата обращения: 28.01.2017).
2. Волхонский В. В. Особенности задач автоматизированного анализа видеоизображений. Распознавание лиц // «Алгоритм безопасности». 2017. № 1. С. 10-16.
Информация и фото с https://algoritm.org/arch/arch.php?id=89&a=2185