Анализи

KeyBank изчислява цената на анализите в облака

CIO Media

Със запълването на собствения капацитет от аналитична инфраструктура KeyBank насочва усилията си към облака

Тор Олавсруд, CIO, САЩ

Когато аналитичната инфраструктура на KeyBank от Кливланд, Охайо, изчерпва капацитета си, голямата регионална банка се обръща към облака. Тя смята, че тази инициатива ще донесе ясни ползи за производителността и вероятно икономии, но ще изисква преосмисляне на начина, по който компанията обучава и управлява своите потребители.

Банката обработва около 4 милиарда записа всяка нощ. Данните се зареждат в езеро от данни Hadoop, след това се насочват надолу към повече от 40 системи, включващи от 10 до 12 хранилища на данни, използвани от Teradata. "Това е удобна архитектура на територията на компанията, която би била актуална днес, казва Майк Ондърс, главен директор за данни, главен информационен директор на подразделение и ръководител на корпоративната архитектура на KeyBank. Имаме повече от един петабайт данни в езерото от данни Hadoop и над 30 терабайта в средата Teradata."

Системата, която обслужва 400 потребители на SAS и Teradata и 4000 потребители на Tableau, работи добре, но преди малко повече от една година съоръженията на Teradata на KeyBank започват да достигат капацитета си.

"Самият хардуер все още прави това, което се очаква да прави: високоскоростен анализ, казва Ондърс. Но в архитектура на собствена територия вие управлявате капацитет. Вие държите стабилен капацитет и така производителността ще се променя според натоварванията на хардуера. За KeyBank това означава проблеми с бързодействието и опашките, когато се извършват задачи в края на месеца и края на тримесечието."

Освен това екипът на Ондърс предвижда, че KeyBank ще трябва да обнови своята Teradata среда през 2021 г. - инициатива, която организацията искаше да избегне. В този момент Ондърс и неговият екип решават да проучат дали преместването на аналитичните инструменти на банката в облака няма да е по-добър избор.

Към облака
В края на 2018 г. Ондърс стартира доказателство на концепция (PoC) с платформата за данни в облака Snowflake, следвано от PoC с облачната платформа на Google в началото на 2019 г. Въпреки че Ондърс допуска, че Snowflake има леко предимство в бързодействие, обещанието за архитектура от един доставчик за управление на ETL, визуализация, съхранение на данни, достъп до данни и машинно обучение карат KeyBank да избере Google.

Банката вече има пет хранилища за данни на различни етапи на тестване с екосистемата на Google, а екипът на Ондърс наблюдава от три до четири пъти по-бързо изпълнение на заявки. Но Ондърс и Дъг Кануф, старши вицепрезидент и директор на корпоративна архитектура и услуги за корпоративни данни и информация на KeyBank, отбелязват, че пълното производствено натоварване ще бъде реалният тест.

"Разгледахме някои от хранилищата и редица от нашите потребители, за да получим индикативни заявки, които те изпълняват, казва Кануф. Извършваме това в реално време. Така можем да използваме данни от реалния свят, реални обеми от тези сравнителни заявки. Засега това изглежда много добре. Но щом достигнем пълното производствено натоварване, ние имаме изпълнение по партиди, ние имаме заявки от крайни потребители, тази смесица ще изглежда различна и ние ще трябва да реагираме и да проникнем надълбоко в тези обеми, за да се уверим, че средата изпълнява работата си по начина, по който ни трябва."

Обучение за уточняване на разходите
Най-голямото затруднение за извършване на прехода може да бъде просто един бизнес и културен процес. Google Cloud е обещаващ, тъй като предлага буквално безграничен капацитет. Но това също така означава преход от модел с фиксирана цена с променлива производителност към модел на капацитет с променлива цена.

"Това е преход, който трябва да управляваме и надзираваме много внимателно, тъй като не мисля, че старши ръководителите във финансови екипи искат истински модел с променлива цена, казва Ондърс. Те искат да могат да прогнозират колко ще похарчим през следващия месец и месеца след това."

С Google BigQuery вие плащате за заявка и цената варира според това до колко данни изисква достъп заявката. В една среда Teradata или Hadoop на територията на организацията, ако потребител изпълни лоша тестова заявка към данни за транзакции за три години, която би могла да използва данни за транзакции само за 30 дни, това няма да промени цената. Това ще консумира голяма част от капацитета и други потребители може да изпитат проблеми с бързодействието по време на изпълнение на заявките, и толкова. С BigQuery това няма да навреди на бързодействието за другите потребители, но ще струва пари.

"В среда на Google ние трябва да извършим повече наблюдение и мониторинг и обучение, за да гарантираме, че хората не правят лоши неща, които струват пари, когато те биха могли да го направят по друг начин", казва Ондърс.

Освен това много потребители трябва да бъдат обучени да работят по различен начин. Потребители на SAS по-специално намират необходимите им данни, копират ги и ги зареждат в своите аналитични работни пространства. Но Google (и повечето доставчици на облаци) таксуват за извеждане на данни. В среда на територията на организацията копирането на тези данни не добавя разходи, но създава проблеми с постигането на съвместимост и управление на данните. За да бъде успешен преходът към Google Cloud, тези потребители трябва да бъдат обучени как да приложат аналитичните си методи към данните.

"Навлизайки в Google, ние ще инвестираме много повече в това, което ще нарека "академия за данни, казва Ондърс. Не само енциклопедия за данни, но и обучение на хора, сертифицирането им, давайки им лабораторни въпроси, на които да отговорят, поставяйки стикер на лаптопите ми, които казват, че те знаят начините за достъп до хранилището с данни за анализ на клиенти или хранилището ни за транзакции или рисковото ни хранилище. Вие сте сертифицирани и ние сме ви научили на по-добри пътища за достъп, тъй като аз не искам да разпространявам същия модел в Google Cloud, на който те са свикнали от традиционната SAS архитектура."

Кануф добавя: "Най-голямото ценово съображение е изпълнението на заявки и ние трябва наистина да изместим нашето мислене и фокус към проверка на това кой какво прави, кой какви заявки за данни прави и как ние оптимизираме тези заявки."

Цената на извеждането на данни е нещо, за което Ондърс мисли много, тъй като той обмисля да премести и своето езеро от данни в Google. Неговата визия е архитектура с една платформа в облака, но цената на извеждане на данни се оказва пречка.

"Няма много извеждане на данни от Teradata, тъй като това е повече целева зона за хранилища и анализи, а ние ще преместим нашите аналитични инструменти в Google Cloud, така че там няма много извеждане на данни, казва Ондърс. Но когато ние местим езерото от данни към облака, ние изпращаме данни към около 40 системи надолу. Ще има по-голям проблем за използване, за който още разговаряме. Това е модел, за който трябва да помислите и да откриете колко ще ни струва."

Превод и редакция Мариана Апостолова

X