Awarie i statusy
Czerwiec/lipiec 2022
Zgłoszona lista do analizy:
Data | Co | Opis | Źródło problemu | |
|---|---|---|---|---|
1 | 02.06 | awaria BLIK | ITN/kluster k8s | BM |
2 | 08-06 | PBL Pekao | Pekao | |
3 | 09.06 | PIS mbank | mBank | |
4 | 15.06 | BNP Pariba | BNP | |
5 | 23.06 | ecomm | ITN/kluster k8s | BM |
6 | 01.07 | awaria BLIK | ITN/kluster k8s | BM |
7 | 10.07 | mbank awaria banku | mBank | |
8 | 20.06 | FDP Karty | FDP | |
9 | 27.06 | FDP Karty | FDP | |
10 | 30.06 | FDP Karty | FDP | |
11 | 01.07 | FDP Karty | FDP | |
12 | 14.07 | FDP Karty | FDP | |
13 | 22.07 | FDP Karty | FDP |
02.06 awaria BLIK
Problemy z ITN spowodowane przez problem z klustrem k8s:
Opis: Problemy z klastrem Kubernetes (docker). Temat jest zaadresowany i od około miesiąca trwają przygotowania do uruchomienia nowego, w aktualnej wersji. Temat przeciąga się z powodu stanu obsada zespołu DevOps:
Osoba | Poziom / Grade | Opis |
|---|---|---|
Karol Stask | Lead DevOps | Specjalizacja: wirtualizacja / OnPrem |
Szymon Lewandowski | Senior DevOps | jedyny, który ma kompetencje Cloud / Kubernetes na odpowiednim poziomie, aby zbudować automatycznie zarządzalny klaster |
Grzegorz Kaczorowski | 1/2 FTE: Junior+ DevOps 1/2 FTE: Junior+ NetOps | operator klastra |
Dominik Biedrzycki | Junior+ DevOps | operator klastra |
Maciej Stankiewicz | Junior+ DevOps | zaczął 01.08 |
Szymon Kinal | Junior- DevOps | zaczyna od 01.08 |
Krzysztof Mikołajczyk | Junior- DevOps | zaczyna od 01.09 |
Szacowany czas zakończenia prac: koniec sierpnia 2022.
08-06 PBL Pekao
Problem z certyfikatem po stronie Pekao. Wpływ na pobieranie danych do weryfikacji itp.
To nie był błąd po stronie IT po stronie BM. Bank bez odpowiedniego poinformowania nas wcześniej wymienił certyfikat, pomimo, że ten nie stracił jeszcze ważności i przez to środowisko przestało działać.
To co można poprawić to wewnętrzny sposób komunikacji - OPS nie wystawiło zadania od razu, tylko pisało na jakimś pobocznym kanale na Teams.
09.06 PIS mbank
Awaria PIS po stronie banku, przełączyło się na PBL więc tutaj za dużej straty to nie było... (wątek na Awarii "Wpadł alert na konwersje mbank PSD2 https://grafana-production.blue.pl/d/oX5d93cnk/transaction-payway-status-monitoring?viewPanel=44&orgId=1, patrze co się dzieje").
15.06 BNP Pariba awaria banku
Awaria w banku (wątek teams: "BNP PAPRIBA ma awarie polegajacą na "opóznieniu " realizoacji zleceń utykają w systusie " przeakzane do realizacji" i nic z nimi nie mozna zrobić . dzwonilam do banku nie iwadomo kiedy sie podniosą ")
0,5% ruchu bramki w tym banku.
23.06 awaria ITN
Problemy z wydajnością ITN, ścięło się odbieranie z kolejki, standardowe postępowanie nie przyniosło skutku. Problemy po analizie, wskazują na różnicę w czasach przetwarzania ITN w zależności od fizycznej lokalizacji poszczególnych elementów aplikacji (aplikacja, kolejki, baza danych). Jeśli są w różnych DC potrafi to spowodować dłuższe czasy przetwarzania. Została zmieniona polityka pobieranie komunikatów z AMQ, tak żeby jedna odbierająca aplikacja miała maksymalnie 8 (tyle “zawiśnie”) oraz został dodany timeout na przetwarzanie komunikatu po stronie aplikacji, żeby dodatkowo zabezpieczyć się przed dłuższymi czasami.
01.07 -awaria BLIK
Problem z procesowaniem ITN spowodowany przez masowe ponawianie dla 2 SIDów. Wygenerowało to zwiększone obciążenie na bazie PayBM, problem spotęgowany przez system backupowy (WALe).
BRAK INCYDENTU - pingnąłem w wątku na Awarii o to
10.07- mbank awaria banku
"[10.07 19:46] Bartosz SprengelmBank - awaria banku 2022-07-10 19:15-19:41
mBank miał awarię w godzinach ok. 19:15-19:41, nie dało się zalogować do bankowości
nie spisane u nas jako awaria/incydent
Kategoria specjalna: FDP

20.06 - timeouty po ich stronie
z FDP info: “analiza e2e transakcji z VISA/MC20.06 i 27.06”
27.06 - timeouty po ich stronie
z FDP info: “analiza e2e transakcji z VISA/MC20.06 i 27.06”
30.06 tdsempierror
z FDP info: “naprawiali soft i upgradowali związany z 3DS”
Komentarz: nie działało nic z 3DS, jakieś wdrożenie z dostawcą im nie pykło
01.07 tdsempierror
z FDP info: “naprawiali soft i upgradowali związany z 3DS”
Komentarz: nie działało nic z 3DS, jakieś wdrożenie z dostawcą im nie pykło
14.07 Karty awaria FDP, negatywne statusy
INCYDENT-849 FDP jako wyjaśnienie podało problemy z chłodzeniem w serwerowni…
z FDP info: “problemy z chłodzeniem w centrum danych T-Mobile14.07.”
22.07 - wywałka trwająca w czasie pisania.
Kilka minut awarii, ale też wystawimy 25 Jul 2022 Jakub Demczuk poprosiłem zespół o spisanie tego
Temat jest eskalowany przez Kasię Dimitrus do Weinara i Kucaby po stronie FDP, nad Kucabą to już chyba tylko u nich. 6 awaria w ciągu miesiąca. Rozlewa się u nas na dywaniki np z Orange
Wnioski z analizy
nie odnotowujemy Awarii/Incydentu jak jakiś bank ma awarię (
Do analizy: wskazane awarie w bankach tworzą wrażenie, że jest ich dużo, ale nie mają wyraźnego efektu bo te kanały mają nikły udział w ruchu na bramce
ITN: potrzeba odcięcia od bazy PayBM (realizowane przy projekcie Nowa Architektura), ale są blokery w innych zespołach:
problemy z wejściem na RoadMap (UPDATE: będzie to wchodzić na RoadMap Infrastruktury).
migracja na nowy PayWall (przepinanie dedykowanych kontekstów - IDZIE BARDZO WOLNO, temat po stronie Sprzedaży - do weryfikacji)
przyjmowanie płatności mniej podatne na problemy, natomiast mocno kwestie wydajnościowe uderzają w ITN (FW, czas rozładowania kolejek po jakimś zatkaniu). Awarie ITN nie wpływają na straty w obrocie, bo Klienci mogą płacić za transakcję, natomiast jest problem/opóźnienie w dostarczaniu tej informacji do sklepów (dla “wrażliwych” na czas np jak iTaxi)
“Awaria BLIK”, nie ma świata poza BLIKiem, chyba, że ktoś jest tylko na kartach
"Automatyczne kille na kanały płatności z inteligentnym zdejmowaniem killa i automatycznymi powiadomieniami partnerów" takiego modułu brakuje w bramce. Jest działanie naprawcze
PRODUKT-1875 (28/Oct/21) ← czeka na wejście na RoadMap, Paweł Stanka wysłał info na Produkt 22/07/2022 o potrzebie wejścia na RoadMap. Będzie realizowane na roadmap Infrastruktury / TBA.
Pora eskalować na poziomie Zarządu problemy u naszych dostawców
kwestie zapisów SLA w umowie BM - FDP: (“Z przekazanych mi informacji, nie mamy z FDP żadnych SLA na odpowiedź.”).
Zgłoszone Tomkowi Jakubowskiemu aby z FDP poruszył temat SLA.
Awarie, w liczbach
2021 rok 40 awarii zewnętrznych, spalony czas 120h bez zadań usuwających skutki awarii, strata finansowa * 65 289 zł*
2022 rok 19 awarii zewnętrznych, spalony czas 40h bez zadań usuwających skutki awarii, strata finansowa * 15 188 zł*
Na pewno nie cały czas został zalogowany (więc koszt pracy po naszej stronie jest zdecydowanie większy).
Dodatkowe notatki: Notatki dodatkowe.