Краткая история машинного зрения

Для начала стоит разобраться в терминологии. Есть компьютерное зрение, а есть машинное зрение. Компьютерное зрение — это одновременно и теория, и набор связанных с ней технологий. Они про то, как машины могут визуально ощущать объективную реальность. Проще говоря, как компьютеры видят мир.

Впервые про компьютерное зрение, если не считать писателей-фантастов, начал говорить британский ученый Оливер Селфридж. В 1955 году он опубликовал статью «Глаза и уши компьютера», в которой предсказал действительность, в которой мы уже живем. Один из главных примеров — системы распознавания лиц. Сегодня мы выкладываем в социальной сети фотографию с вечеринки, а искусственный интеллект за доли секунды узнает на ней друга и предлагает его отметить.

В истории развития машинного зрения можно выделить следующие этапы:

1955 г. — профессор Массачусетского технологического института (МТИ) Оливер Селфридж опубликовал статью «Глаза и уши для компьютера». В ней автор выдвинул теоретическую идею оснащения компьютера средствами распознавания звука и изображения.

Оливер Гордонович Сэлфридж

1958 г. — психолог Фрэнк Розенблатт из Корнеллского университета создал компьютерную реализацию персептрона (от perception — восприятие) — устройства, моделирующего схему распознавания образов человеческим мозгом.

Фрэнк Фрэнкович Розенблатт

Персептрон был впервые смоделирован в 1958 году, причем его обучение требовало около получаса машинного времени на ЭВМ IBM-704. Аппаратный вариант — Mark I Perceptron — был построен в 1960 г. и предназначался для распознавания зрительных образов.Однако рассмотрение задач машинного зрения носило скорее умозрительный характер, так как ни техники, ни математического обеспечения для решения таких сложных задач еще не было.

1960-е гг. — появление первых программных систем обработки изображений (в основном для удаления помех с фотоснимков, сделанных с самолетов и спутников), стали развиваться прикладные исследования в области распознавания печатных символов. Однако все еще существовали ограничения в развитии данной области науки, такие как отсутствие дешевых оптических систем ввода данных, ограниченность и довольно узкая специализация вычислительных систем. Бурное развитие систем компьютерного зрения на протяжении 60-х годов можно объяснить расширением использования вычислительных машин и очевидной потребностью в более быстрой и эффективной связи человека с ЭВМ. К началу 60-х годов задачи компьютерного зрения в основном охватывали область космических исследований, требовавших обработки большого количества цифровой информации.

1970-е гг. — Лоуренс Робертс, аспирант Массачусетского технологического института, выдвинул концепцию машинного построения трехмерных образов объектов на основе анализа их двумерных изображений. На данном этапе стал проводиться более глубокий анализ данных. Начали развиваться различные подходы к распознаванию объектов на изображении, например структурные, признаковые и текстурные.

Лоуренс Гилманович Робертс

1979 г. — профессор Ганс-Хельмут Нагель из Гамбургского университета заложил основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке.

В конце 1980-х годов были созданы роботы, способные более-менее удовлетворительно оценивать окружающий мир и самостоятельно выполнять действия в естественной среде.

80-е и 90-е годы ознаменовались появлением нового поколения датчиков двухмерных цифровых информационных полей различной физической природы. Развитие новых измерительных систем и методов регистрации двухмерных цифровых информационных полей в реальном масштабе времени позволило получать для анализа устойчивые во времени изображения, генерируемые этими датчиками. Совершенствование же технологий производства этих датчиков позволило существенным образом снизить их стоимость, а значит, значительно расширить область их применения.

С начала 90-х годов в алгоритмическом аспекте последовательность действий по обработке изображения принято рассматривать в согласии с так называемой модульной парадигмой. Эта парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение, неструктурированная информация) – к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.).В середине 90-х годов появились первые коммерческие системы автоматической навигации автомобилей. Эффективные средства компьютерного анализа движений удалось разработать в конце XX века.

Одна их первых промышленных систем машинного зрения Автовижн II компании Автоматикс была продемонстрирована на выставке в 1983.Камера на штативе направлена вниз на стол с подсветкой для получения четкого изображения на экране, которое затем подвергается проверке на посторонние включения.

Машинное зрение — это немного другое. Здесь речь про область применения знаний и технологий. Машинное зрение помогает сделать производство товаров и услуг более эффективным, — впрочем, используя те же принципы, что и компьютерное. Первой компанией, производящей решения в этой сфере, принято считать американскую Automatix, которая в начале 1980-х выпустила несколько моделей машин, способных паять микросхемы. Они были оснащены аналоговыми камерами, которые передавали картинку процессору на обработку. Тот высчитывал параметры изображения и, основываясь на них, отдавал команды частям системы, непосредственно задействованным в производстве.

Машинное зрение — это технологии, которые помогают оборудованию увидеть процесс производства чего-либо, проанализировать данные и принять информированное решение. И все это за доли секунды.

А чем это лучше человеческого зрения?

Разберемся, как мы сами видим мир. Световые частицы (они же — фотоны) постоянно отражаются от разных объектов и попадают на сетчатку глаз. В каждом глазу находится примерно 126 миллионов чувствительных к фотонам клеток, которые расшифровывают информацию и отправляют ее в мозг. Эти клетки делят на два типа — колбочки и палочки. Первые отвечают за распознавание цвета, вторые позволяют нам, в частности, видеть ночью, работая с оттенками серого. Колбочек у нас три типа — одни специализируются на синих цветах, вторые на зеленых, третьи — на красных. Получается полный набор радуги.

Наша зрительная система, впрочем, не самая продвинутая на планете. Куда сложнее устроены, например, глаза раков-богомолов. У них сразу 16 видов колбочек, а еще их глаза двигаются независимо друг от друга, и каждый разделен еще на три части. При этом у раков-богомолов очень маленький и примитивный по сравнению с нашим мозг. Он не может обрабатывать большие данные, но получает уже готовую детальную расшифровку от глаз. У людей наоборот — глаза устроены чуть попроще, зато мозг — самый мощный среди всех видов.

В машинном зрении применяются оба подхода. Есть системы с обычными цифровыми (иногда даже аналоговыми) камерами, которые, реагируя на специальные датчики (они засекают, если что-то пошло не так), получают сырое изображение, обрабатывают его, распознают элементы и их закономерности, принимают решение и отдают сигнал другим системам. А есть вариант с умными камерами. Это как раз случай рака-богомола. Тут камеры уже самостоятельно проводят часть анализа и разгружают процессоры системы.

А кто точнее — машина или человек?

Еще пять лет назад технологии машинного зрения были куда менее совершенными и успешно распознавали всего 65–70% объектов, которые попадали в их поле видимости. Это высокий показатель, но все же недостаточный для того, чтобы машинному зрению можно было доверить ответственные задачи. Сейчас машины уже узнают до 98% объектов. Причем действительно узнают — не только фиксируют наличие, но и определяют, что именно они видят, а потом даже могут решить, что делать дальше.

Системы восприятия реальности у человека все же остаются более гибкими. Мы, например, лучше интерпретируем контекст. Вернее, даже так: мы единственные, кто знает, что это такое. Машины старательно изучают новые для них ситуации, но человек всегда может выдумать что-то, чтобы запутать машину. По крайней мере пока. Поэтому доля удачных случаев распознавания держится на 98% и не достигает 100%.

Однако у систем машинного зрения есть одно бесспорное преимущество перед человеческим зрением. Обычно мы можем сконцентрироваться на трех-семи объектах, которые видим. Это зависит от особенностей конкретного человека, но редко сильно больше. Системы машинного зрения фиксируют абсолютно все объекты и действия, которые через картинку поступают в их процессоры. Внимание компьютера невозможно отвлечь — для него все происходящее имеет равное значение.

Вот какие задачи можно решить при помощи машинного зрения

Представьте, перед вами поднос, на котором лежит 50 гаек. Из них 48 — нормальные, качественные гайки, у одной есть царапина сбоку, а у еще одной — вздутие на одной из граней. К тому же среди гаек почему-то лежит болт. Наверное, за пару секунд вы обнаружите лишние и бракованные детали. Однако перед вами тут же появляется второй поднос с гайками. А потом еще один. И так на протяжении восьми часов.

Это типичная смена оператора производства. Вполне вероятно, что через пару часов такой сотрудник (вне зависимости от профессионализма) потеряет концентрацию — на секунду задумается об обеде или концовке вчерашнего сериала. Может быть, отвлечется на реплику коллеги. В любом случае, скорее всего, рано или поздно он пропустит пару бракованных деталей. Это нормально: фактор недосмотра, вероятно, уже заложен в производственных показателях. Однако если вместо человека контролировать производство будет система с машинным зрением, то она будет работать одинаково надежно хоть целый год без перерыва. Происходит это так: датчики сканируют все детали и отправляют сигнал — если что-то не так. Камеры, работающие в паре со светодиодами, внимательно изучают картинку и передают изображения компьютеру. У него уже имеется большая база с фотографиями гаек именно этой серии, и он мгновенно отдаст команду роботу, оперирующему дальше по конвейеру, отсортировать их.

Такое решение позволяет сэкономить. А контролера производства всегда можно переучить в оператора такой системы — его опыт при настройках машины явно пригодится. Сегодня они достаточно простые и работают интуитивно. Чтобы передать системе свои знания и вообще показать ей особенности своей работы, вовсе не нужно быть специалистом по глубинному обучению.

Другая популярная схема применения технологии — безопасность. Работая по той же схеме, что и с гайками, система с машинным зрением мгновенно проанализирует цех и отыщет работника, который забыл надеть защитный шлем. А дальше просто заблокирует его станок или сделает ему предупреждение по громкой связи.

Третья область для машинного зрения — интернет вещей. Так называют совокупность технологий, позволяющих различным приборам взаимодействовать друг с другом. Например, уже существуют холодильники, которые с помощью машинного зрения обнаруживают испортившиеся продукты.

Внедрять такие решения можно не только в заводских и фабричных цехах, но и на складах, в ритейле, банках, системах логистики и транспортных услуг, сельском хозяйстве и животноводстве и так далее. На американском рынке системы машинного зрения начали использовать раньше и активнее (в силу большего числа предлагаемых решений), и сейчас они применяются во множестве отраслей — от автомобильной промышленности до фармацевтики.

Нужна консультация?
звоните
8 (800) 201-3896
или