Вход

Почему биометрические решения дают сбои в реальных условиях, при отличных результатах «пилотов»

01.03.2016 10:58 8 1 127 просмотров
Общаясь с заказчиками и разработчиками решений биометрического анализа фотографий, я обратил внимание на то, что при проведении пилотов или иных тестов практически все решения показывают отличный результат. Даже, если для тестов используются реальные фотографии, выгруженные из информационных систем заказчика. Отличия в результатах тестов оказывается настолько минимальным, что сложно осуществит выбор продукта, наиболее подходящего для решения конкретной задачи. Одни решения работают несколько быстрее, другие оказываются дешевле при небольшом объёме данных, третьи – наоборот имеют низкую стоимость безлимитной версии, также решения могут отличаться требованиями к аппаратной части и операционной системе, для которой они были разработаны.

Согласитесь, что эти отличия не играют значительной роли для конечного бизнес-заказчика. В первую очередь заказчику важно, чтобы поиск соответствия или схожести между несколькими фотографиями проводился с минимальным количеством ошибок. А какие для этого требуются ресурсы – это уже детали. Что касается принципиальных ошибок, то они бывают двух видов, когда среди имеющихся фотографий не находится фотография, принадлежащая именно этому человеку, и когда находится фотография с высокой степенью схожести, но не принадлежащая искомому клиенту. В обоих случаях, возникновения таких ошибок, у заказчика появляются риски возможных финансовых потерь. Например, банк не выдаёт кредит надёжному заёмщику, или наоборот – выдаёт кредит потенциальному должнику или ещё хуже – мошеннику. Именно с такими, на первый взгляд, странными результатами мы столкнулись при проведении пилота у одного из наших заказчиков. Причём, повторюсь, что такой идентичный результат был получен при пилотировании 6 различных систем. Сотрудникам «Техносерва» удалось разобраться с причинами такого стабильно отрицательного результата при обработке реальных, но специальным образом подготовленных, данных, а так же найти пути для исправления этой ситуации. Но всё по порядку. Начнём с причин.

При проведении визуального анализа результатов поиска похожих фотографий, нам регулярно приходилось сталкиваться со случаями, когда платформы правильно узнавали человека по фотографии, сделанной много лет назад, хотя сейчас у клиента изменялся не только возраст, но и вес примерно на 40-50 кг или появлялись усы и борода. В тоже время, алгоритм анализа той же системы сбивался на другом человеке, присваивая его фотографиям малый коэффициент схожести, сделанным в один и тот же год, но в разных офисах зимой и летом. При всём при этом, ROC-кривая (кривая ошибок) для первоначально загруженных данных – показывала, что система работает великолепно и ошибается всего в нескольких процентах случаев (для различных систем, это значение различно, но не превышают 7%) .

Что это? Подтасовка результатов разработчиками во время проведения пилота? Неверное построение ROC-кривой? Или причина кроется в чём-то ином? Зная, что наша команда разработчиков не применяла никаких скрытых методов для повышения качества тестовых результатов, нами было сделано предположение, что причину надо искать в самих исходных данных. Чем мы и занялись. В результате аналитической командой «Техносерва» был обнаружен интересный эффект. Сбой в работе чаще всего происходил на клиентах, у которых в базе банка было несколько фотографий, выполненных со значительным интервалом времени. Причем, если фотографии были выполненные в одном и том же месте даже с промежутком в несколько лет (т.е. не менялись условия фотосъёмки: освещение, расстояние до клиента, фронтальное расположение клиента относительно камеры и т.д.), то такие фотографии позволяли получить очень хорошие результаты поиска. Отмечу, что время пилотов было протестировано несколько различных алгоритмов построения шаблонов и их сравнение. Результат практически у всех решений был отличный! Но если фотографии делались в различных офисах, то результат был не всегда однозначным.

Почему системы неоднозначно обрабатывают такие фотографии? Все просто! Нового клиента, при обращении в банк, могут фотографировать многократно. Например, его могут сфотографировать, как клиента, которому открывается расчётный счёт. Хотя, клиент пришёл оформить кредит, счёт ему могут открыть для повышения KPI обслуживающего его сотрудника (в некоторых банках открытие расчётного счёта не является обязательным условием). Второй раз клиента сфотографируют для оформления кредита, а для удобства погашения кредита – ему могут выдать пластиковую карту. И в этом случае его сфотографируют второй и третий раз. А так как обслуживающий данного клиента сотрудник не уверен в качестве сделанных фотографий, то он может сделать по 2 и даже по 3 фотографии в каждом случае. В результате в исходных данных появляются от 3 до 10 фотографий одного клиента. И именно такая подборка фотографий чаще всего закладывается в первоначальную аналитическую модель. Со временем, у банка накапливаются исторические фотографии клиентов за достаточно продолжительный промежуток времени их обслуживания. За это время меняется как сам клиент, так и офисы, в которых он обслуживался (читай – условия фотографирования) и техника, при помощи которой производилась фотосъёмка. Также, к ошибкам приводят «грязные» данные и операционные ошибки, когда клиента идентифицируют с чужими фотографиями или добавляются некачественные фотографии. В результате система, предварительно обученная на одних данных, начинает давать сбой, предлагая неверные результаты сравнения. Понятно, что в банке такими результатами не могут быть довольны. Появляются жалобы на работу системы.

Какой может быть выход из сложившейся ситуации? На самом деле вариантов решения этой проблемы не так и много. Проанализировав работу нескольких различных алгоритмов анализа фотоизображений, мы можем сказать, что замена одного алгоритма на другой не даёт кардинального улучшения. Да, будет некоторое улучшение, за счёт более современной версии нового программного обеспечения, более совершенного алгоритма построения шаблона и его сравнения, более актуальных данных для обучения системы. Но в итоге, со временем всё вернётся на свои круги. Исправить положение возможно двумя способами. Первый – это выделение специальных сотрудников или подразделения, которые будут отвечать за «чистоту» используемых данных и заниматься плановым переобучением системы согласно текущим изменениям качества клиентских фотографий. Второй вариант – это разработка самообучающегося алгоритма, который будет самостоятельно учитывать эти изменения, что «Техносервом» и было сделано. Мы разработали механизм для самостоятельной адаптации системы под изменяющиеся со временем исходные данные. И теперь мы готовы провести пилот на реальных данных заказчика для подтверждения качества нашей новой разработки.

Комментарии 8

A A  (NC_)
#
Академические знания без практического опыта ни кому не нужны. Особенно в кризисное время.
Удачных вам проектов!
Alex  (BankCoda)
#
Странно, решение работало, отзывы были положительные, а тут стабильно отрицательный результат. Или система стала давать сбои?
NiSanTo  (NiSanTo)
#
Важно, чтобы данные для тестирования и критерии оценки были одинаковыми.
Валет РГГУ  (AutoProf)
#
Всегда считал, что решающую роль играют не технологии, а люди их реализующие.
Александр Горшков  (technoserv)
#
Цитата
A A пишет:
Академические знания без практического опыта ни кому не нужны. Особенно в кризисное время.
Удачных вам проектов!

Спасибо за добрые слова.
У нас все проекты делаются для конкретных заказчиков.
Можем поделиться практическим опытом!
Александр Горшков  (technoserv)
#
Цитата
Alex пишет:
Странно, решение работало, отзывы были положительные, а тут стабильно отрицательный результат. Или система стала давать сбои?

Alex, решение работало и работает.
Если бы вдруг у заказчика возникли сбои в работе, то все бы об этом знали.
Дело несколько в другом.
Другой заказчик, и другие требования.
Сейчас выполнили под эти требования доработку и скоро приступаем к тестированию.
Надеюсь, что новый вариант заказчику понравится.
Александр Горшков  (technoserv)
#
Цитата
NiSanTo пишет:
Важно, чтобы данные для тестирования и критерии оценки были одинаковыми.

Это точно!
Есть сомнения, что для тестирования каждый раз готовятся новые данные.
Будем изучать.
Александр Горшков  (technoserv)
#
Цитата
Валет РГГУ пишет:
Всегда считал, что решающую роль играют не технологии, а люди их реализующие.

Именно люди и придумывают новые технологии!
Без них ничего не получится.
Комментарии и отзывы могут оставлять только зарегистрированные пользователи.
Авторизуйтесь или зарегистрируйтесь.

Популярные сообщения

Оплата ЖКХ
С 1 декабря в Платежном кабинете Системы «Город» доступна оплата всех жилищно-коммунальных услуг без комиссии! Осуществить платеж по услуге «Оплата
1
Olympic athletes from Russia
Все ! Надоело ! Сегодня бросил пить и встал на лыжи . В стране мало "чистых" спортсменов . До Олимпиады время есть . Может на что и сгожусь . Ит мой спик
0
Почему Ребалансировка важна
Оставайтесь в стороне от рыночных колебаний и придерживайтесь своего долгосрочного инвестиционного план, ежегодно балансируя свой портфель. Убрав эмоции
0
Рынок нефти 11 декабря
Нефть сдержанно корректируется на фоне данных о росте числа нефтяных буровых установок в США. Статистика от Baker Hughes в очередной раз зафиксировала
0

Новые сообщения

  • Почему Ребалансировка важна
    Оставайтесь в стороне от рыночных колебаний и придерживайтесь своего долгосрочного инвестиционного план, ежегодно балансируя свой портфель. Убрав эмоции
  • Почему глобальная диверсификация имеет значение
    За последние несколько лет некоторые инвесторы начали подвергать сомнению достоинства глобального распределения активов. Они задаются вопросом, оправдывают
  • Болгария биткоинизируется
    Писать в настоящее время что-либо против криптовалют и биткоина, в частности, просто бессмысленно. На фоне взлетающего курса биткоина в стратосферу любые
  • Рынок нефти 11 декабря
    Нефть сдержанно корректируется на фоне данных о росте числа нефтяных буровых установок в США. Статистика от Baker Hughes в очередной раз зафиксировала
  • Оплата ЖКХ
    С 1 декабря в Платежном кабинете Системы «Город» доступна оплата всех жилищно-коммунальных услуг без комиссии! Осуществить платеж по услуге «Оплата