Анатолий Гин: Борис, мы даём возможность нашим друзьям полюбоваться на портрет Моны Лизы. Я помню огромный зал, набитый людьми, и там висит всего одна картина: Мона Лиза. И сегодня она поможет нам. Она будет третьим участником нашего диалога.
И поможет нам разобрать один очень распространённый стереотип в теории распознавания и среди учёных-айтишников, которые этим занимаются. Борис, тебе слово.
Борис Злотин: Я тоже был в Лувре, было трудно подобраться к этой картине, но в конце концов я упрямый, подошёл. И, честно говоря, ничего особенного не увидел. Ну, хороший портрет, интересный. Но мне, например, «Мадонна Бенуа» того же да Винчи в Эрмитаже более интересной показалась. Тем не менее, прекрасный портрет. И вы его, конечно, узнаете, если он будет, например, чёрно-белым.
Ну, не так красиво. А вот теперь неожиданность, которая в своё время поразила нас. Мы тестировали различение картинок с помощью PANC™, беря случайные картинки из интернета. И вдруг выясняется, что, вопреки ожиданиям и интуиции, условия наилучшего распознавания для машины совсем не те, что для человека. Вернёмся к «Моне Лизе»:

Цветная картинка 1024 на 1024 пикселя – это значит мегабайт информации. Всё хорошо прорисовано, всё отлично. Софтвер её неплохо различает. Но и не очень хорошо. А когда мы уменьшаем разрешение до всего 32 на 32, то есть количество клеточек уменьшаем в 1000 раз, и вместо нормальных 256 градаций яркости цветов используем всего 10 оттенков серого, то получается вот такая вот крохотная штучка со сторонами по 4 мм. Глазом практически неразличимая. А если эту кроху увеличить, вот такая вот картинка пиксельная получается.
Мы здесь не можем узнать «Мону Лизу», а вот софтвер распознаёт. Можно и ещё уменьшить, но тогда распознавание ухудшится. Человеку – человеческое, а машине – машинное… Между прочим, классические свёрточные нейронные сети тоже сравнивают не целиковые картины, а их «свёртки» – очень сложно формируемые малые копии (в большинстве случаев даже меньше, чем у нас). Только у нас уменьшение и сокращение цветов – мгновенная операция, а у «классиков» – длительная и дорогостоящая работа.
Сергей Есенин писал: «Лицом к лицу лица не увидать, большое видится на расстоянии». Я в музеях всегда ищу расстояние, с которого картина лучше видна. А потом подхожу поближе: рассмотреть технику письма тоже ведь интересно!
Анатолий Гин: Борис, у меня такая мысль сейчас возникла, что при уменьшении количества пикселей получается что-то похожее на QR-код этой картины.
Гибрид человека с машиной – это то, к чему мы стремимся. Помнишь, у нас был в прошлый раз разговор об обобщённом искусственном интеллекте. Сделать его почти наверняка можно, только попросту он не нужен.
Борис Злотин: Нет – для учёных, для экспериментов, для чего-то такого – понадобится. Нам, большинству потребителей, требуется другое. Нам требуется Помощник, который сделает нас более умными, эрудированными и творческими. Я хочу просто чётко подвести итог. То есть, удивительным для нас самих оказалось, что машина распознаёт иначе, чем мы распознаём. И стереотип о том, что чем чётче картинка, чем больше в ней пикселей, тем лучше для машинного распознавания, оказывается неверным.
И это очень здорово, потому что мы можем делать библиотеку распознавания тех же картин с такими маленькими картинками по объёму, что она будет работать исключительно быстро!
Анатолий Гин: Легко представить себе, что весь мировой фонд всех ценных картин оцифрован, и машина моментально находит нужную картину, но нам уже её предъявляет в хорошем качестве – такая двойная библиотека. Библиотека псевдо qr-кодов картин для машины и библиотека картин в хорошем качестве для людей.
Борис Злотин: Мы недавно работали с группой учёных из одного университета – не хочу их называть – и столкнулись с проблемой. Мы им послали наш софтвер на испытание. Они взяли картинки по 6 мегабайт и не очень были удовлетворены распознаванием – и я был не очень удовлетворён. Я им сказал: возьмите проверьте 32 на 32. А они: это полная чепуха, это глупости. Они даже не позаботились, не проверили, не протестировали – сразу сказали, что это всё чепуха… Не будьте упрямыми ослами, пожалуйста!
Анатолий Гин: Коллеги, приглашаю на следующий диалог. Тема этого диалога такая: какие рынки могут быстро воспользоваться PANC™ и оценка величины этих рынков.