Банк «Тинькофф Кредитные Системы», завершил внедрение платформы хранения и аналитики сверхбольших объемов данных EMC Greenplum.

Банк «Тинькофф Кредитные Системы» на протяжении последних нескольких лет демонстрирует высочайшие темпы роста портфеля кредитных карт, которые стали возможными за счет уникального сочетания характеристик продукта, уровня клиентского обслуживания и персонализированного маркетинга, основанных на глубокой аналитике потребностей потенциальных и существующих клиентов. Дальнейшие планы по наращиванию клиентской базы и вместе с тем возросшие требования к скорости обработки накопленной информации создали необходимость применения специализированных средств работы с Большими Данными и адаптации аналитической инфраструктуры банка к работе в режиме реального времени.

Первым этапом выбранной стратегии стал проект по миграции корпоративного хранилища данных банка на распределенную аналитическую платформу EMC Greenplum. Основными критериями, определившими выбор банка, стали: высочайшая скорость загрузки и обработки данных, масштабируемость решения, возможность полиморфного хранения данных, наличие технологии сжатия, глубокая интеграция с используемыми банком аналитическими продуктами компании SAS Institute.

Соответствие перечисленным выше требованиям было подтверждено результатами полномасштабного тестирования производительности, проведенного специалистами банка в лаборатории EMC в условиях максимально приближенных к реальной ситуации (Proof of Concept).

Основной проект стартовал в декабре 2011 года и был выполнен за 6 месяцев, с применением методологии итеративной разработки.

Во время внедрения проекта существовавшая в банке инфраструктура в виде стандартной СУБД, работающая на тяжелых серверах SPARC-архитектуры, была заменена системой EMC Greenplum, построенной на базе архитектуры массивно-параллельных вычислений без разделяемых компонентов (MPP, Massive Parallel Processing). В этой архитектуре, которая была разработана специально для создания бизнес-аналитики и аналитической обработки, каждое устройство функционирует как самодостаточная СУБД, которая владеет определенной частью общих данных и управляет ими. Эта система автоматически распределяет данные и распараллеливает рабочие нагрузки запросов на все доступное оборудование, используя принципы Map Reduce.

В результате время решения аналитических задач сократилось минимум в десять раз, а для некоторых – более чем в 100 раз. Использование же в качестве узлов системы серверов «стандартной» архитектуры позволило получить экономически эффективную и неограниченную линейную масштабируемость вычислительных мощностей.

Сложность проекта, помимо развертывания новой инфраструктуры хранения данных, заключалась в необходимости интегрировать новые подходы к загрузке и извлечению данных с используемыми банком аналитическими системами SAS Institute, сохранив при этом целостность и работоспособность действующих бизнес-процессов банка. Для выполнения поставленной задачи была собрана проектная команда из консультантов компании Glowbyte Consulting, взявшей на себя функции системного интегратора, инженеров World IT Systems, отвечавших за настройку и эксплуатацию рабочих окружений и специалистов департамента ИТ банка. Авторский надзор и аудит проектных решений осуществляли представители компаний EMC/Greenplum и SAS Institute. Кураторами проекта выступили CTO и основатель компании EMC Greenplum Люк Лонерган и Директор SAS Global Technology Practice Марк Торр.

В ходе проекта был осуществлен комплексный реинжиниринг более 350 процессов загрузки и преобразования данных, разработана библиотека ELT-трансформаций, оптимизированная для работы с Greenplum и SAS, создана инфраструктура прямого доступа бизнес-аналитиков банка к детальному слою данных для проведения data mining исследований без привлечения ресурсов внутреннего ИТ, разработаны процедуры резервного копирования и аварийного восстановления данных.

Таким образом, банк запустил платформу, готовую к загрузке данных в хранилище и обновлению аналитических витрин в режиме реального времени, что для компании, использующей знания о клиентах, как конкурентное преимущество, является приоритетным направлением.

В дальнейшем банк планирует развивать не только инструмент Greenplum , адаптированный для массивно-параллельных вычислений, но также и Hadoop, предназначенный для обработки неструктурированных данных, и платформу Chorus, которая предоставляет возможность совместной работы с корпоративными данными, получаемыми из разных источников.

«Ценность выполненного проекта для банка, несмотря на его явную технологическую направленность, заключается в развитии существующей в банке культуры принятия решений на основе анализа информации. Умение превращать накопленные данные в знания давно является признаком конкурентоспособности банка, а сами данные – стратегическим активом и потенциалом для будущего рост, - говорит вице-президент, CIO, банка «Тинькофф Кредитные Системы» Вячеслав Цыганов, - В ближайшее время клиентами будут востребованы банки, которые лучше понимают их поведение, привычки и максимально соответствуют им. Мы убеждены, что успешно запущенная аналитическая платформа данных EMC Greenplum, благодаря своим уникальным параметрам масштабируемости и производительности позволит повысить не только скорость принятия решений, но также ценность и актуальность наших знаний о клиентах».

«Мы рады, что один из самых продвинутых в технологическом отношении российских банков сделал выбор в пользу решения EMC Greenplum. Теперь специалисты банка могут без ущерба для производительности расширять хранилище данных, в том числе подключаться к новым источникам Больших Данных, например, к социальным сетям. Необходимый ресурс хранения выделяется автоматически и освобождается после решения конкретной задачи, - говорит Директор по продажам в регионе Европа, Ближний Восток и Африка Greenplum Коби Лиф, - По сути, аналитическая обработка больших объемов данных, структурированных или неструктурированных, после внедрения платформы хранения EMC стала для банка рядовым сервисом корпоративной информационной системы. Банк сделал важнейший шаг в направлении создания онлайн-хранилища данных, создав инфраструктуру, работоспособность которой не зависит ни от типов данных, ни от их объема и даже от темпов их роста».