Delivery 1.0 Help

SRE (Site Reliability Engineer)

DRAFT

TechLead Site Reliability Engineer

Senior Site Reliability Engineer

Site Reliability Engineer

Junior Site Reliability Engineer

Obowiązki

  • Senior SRE+

  • Wdrażanie i rozwój praktyk SRE we współpracy z działami produktowymi, operacyjnymi i delivery IT

  • Odpowiedzialność za niezawodność, bezpieczeństwo i skalowalność systemów IT

  • Odpowiedzialność za część jakościową roadmap-y produktowej dla całej organizacji (współdzielona z Product Managerami)

  • Definiowanie metryk jakościowych i szukanie rozwiązań na ich poprawę

  • Ustalanie roadmap-y dla projektów i inicjatyw SRE

  • Organizacja pracy zespołu SRE (Daily, Scrum/Kanban, planowania)

  • Udział w rekrutacjach

  • Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów

  • Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji.

  • Analizy, postmortem awarii:

    • analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps

    • Weryfikacja infrastruktury (VM, Kubernetes, Cloud).

    • Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).

    • Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).

    • Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.

  • Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie.

  • Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps.

  • Aktywna współpraca z Architektami IT.

  • Optymalizacje: narzędzi, kodu, baz danych

  • R&D rozwiązań z zakresu IT (narzędzia, architektury, frameworki)

  • wiedza z zakresu zarządzania procesami i projektami

  • SRE+

  • Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów

  • Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji.

  • Analizy, postmortem awarii:

    • analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps

    • Weryfikacja infrastruktury (VM, Kubernetes, Cloud).

    • Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).

    • Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).

    • Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.

  • Testy dodatkowych narzędzi oraz funkcjonalności w istniejących, np.

    • narzędzia skanujące infrastrukturę, kod aplikacyjny w poszukiwaniu podatności.

    • narzędzia wspierające optymalizację wykorzystania zasobów dowolnej infrastruktury (Cloud, On-Premise, Kubernetes, itd.).

    • nowe funkcjonalności narzędzi monitoringowych.

    • weryfikacja oraz testy narzędzi CNCF.

  • Optymalizacja kodu:

    • aplikacji (Java)

    • infrastruktury (Terraform, YAML):

      • Tworzenie modułów Terraform.

      • Tworzenie Helm Charts.

      • Tworzenie struktur Kustomize.

      • Usuwanie redundancji w kodzie związanym z IaC.

  • Automatyzacja:

    • tworzenie i ulepszanie procesów CI/CD (Gitlab).

    • tworzenie i rozwój skryptów automatyzujących standardowe zadania administratorskie (Python, Bash, Ansible).

    • tworzenie i rozwój skryptów rozwiązujące braki w dostępnych narzędziach, procesach, itp - np. ustandaryzowany release aplikacji w dowolnej technologii z wykorzystaniem natywnych narzędzi CI/CD (Python, Golang).

    • tworzenie narzędzi CLI i skryptów służących do usprawniania pracy zespołów DevOps / Dev / innych, np. migracja stref DNS ze środowiska on-premise na AWS z wykorzystaniem Terraform (Python, Bash, Golang).

  • Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie.

  • Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps.

  • Aktywna współpraca z zespołami jakościowymi, np. inicjatywa Architektów.

  • Junior SRE+

  • Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS)

  • Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes

  • Analizy optymalizacji kosztów w ramach wsparcia SRE Teach Lead

  • Analiza kodu w celu optymalizacji, znalezienia błędów, itp:

    • aplikacji (Java)

    • infrastruktury (Terraform, YAML)

  • Automatyzacja procesów, powtarzalnych zadań (Python, Bash)

  • Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java)

  • wsparcie (deploy, monitorowanie) aplikacji napisanych w Java

  • opieka na procesem Incident Response (zarządzanie incydentem)

  • budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych

  • rozwój obszaru Observability

  • budowa i opieka nad metrykami SLI/SLO/SLA

  • tworzenie KPI w oparciu o dane z zadań oraz incydentów

  • udział przy projektowaniu systemów IT

  • wsparcie w ustalaniu procesów IT

  • rozwój procesu Production Readiness Review

  • Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji)

  • Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować

  • rozwój osobisty w obszarze SRE

  • wsparcie SRE/SRE Tech Lead w ich pracy

Wymagania

  • Doświadczenie (jedno z):

    • 5+ doświadczenia jako SRE, 2+ doświadczenie w kierowaniu zespołem

    • 5+ na doświadczenia jako DevOps, 2+ doświadczenie w kierowaniu zespołem

    • 5+ doświadczenia jako Dev, 2+ doświadczenie w kierowaniu zespołem

  • Bardzo duże doświadczenie w budowaniu wysoko wydajnych i niezawodnych systemów IT

  • Znajomość architektury systemów

  • Bardzo dobra znajomość metodologi SRE

  • Bardzo dobra znajomość cyklu wytwarzania oprogramowania

  • Znajomość zagadnień Security, Quality Assurance

  • Bardzo dobra znajomość: Observability, Monitoring, Incident Response, Chaos Engineering

  • Zdolność do rozwiązywania trudnych problemów technicznych wsparta naturalną dociekliwością

  • Patrzenie na systemy IT przez pryzmat całości (big picture”) - sieć, infrastruktura, aplikacje

  • Doświadczenie (jedno z):

    • 3+ doświadczenia jako SRE

    • 5+ na doświadczenia jako DevOps

    • 5+ doświadczenia jako Dev

  • Bardzo dobra znajomość Chmury Publicznej (AWS) - na poziomie Architect

  • Bardzo dobra znajomość języków:

    • Python / Java / Go

    • Bash

    • HCL, YAML, JSON

    • Jinja2

  • Bardzo dobra znajomość Kubernetes, pojęcia konteneryzacji

  • Bardzo dobra znajomość narzędzi oraz platform GitOps, CI, CD:

    • FluxCD

    • ArgoCD

    • Gitlab

    • Ansible

    • Puppet

    • Kustomize

  • Bardzo dobra znajomość narzędzi IaC:

    • Terraform

    • Terragrunt

    • Helm

    • Ansible

    • Puppet

    • Docker

    • Kubernetes

  • Bardzo dobra znajomość baz danych:

    • PostgreSQL

    • AWS Aurora DB

    • DynamoDB (lub inny silnik NoSQL)

  • Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np.

    • CentOS

    • Amazon Linux 2

  • Znajomość Chaos Engineering

  • Doświadczenie (jedno z):

    • 2+ doświadczenia jako Junior SRE

    • 2+ doświadczenia jako DevOps

    • 2+ doświadczenia jako Dev

  • Dobra znajomość chmury publicznej (AWS)

  • Znajomość języków:

    • Python / Java / Go

    • Bash

    • HCL, YAML, JSON

  • Dobra znajomość systemów operacyjnych (Linux)

  • Kubernetes:

    • Znajomość podstaw platformy

    • Rozumienie różnic oraz zależności między zasobami

    • Wdrażanie / skalowanie / aktualizacja aplikacji

    • Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp)

  • Znajomość rozwiązań GitOps

  • Analityczne podejście do pracy

  • Nastawienie na automatyzację oraz jakość

  • 2+ doświadczenia w administrowaniu aplikacjami/systemami IT

  • Podstawy programowania (dowolny język z Java, Python, Go)

  • Podstawowa znajomość Bash

  • Podstawowa znajomość YAML/JSON

  • Podstawowa znajomość platformy Kubernetes

  • Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus)

  • Znajomość API Gateway, Load Balancery

  • ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab

  • Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL

  • Podstawowa znajomość rozwiązań chmurowych

  • Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK)

  • Podstawowa znajomość systemów operacyjnych

  • Analityczne myślenie (szybkość wyszukiwania informacji w internecie

  • Ciekawość, chęć analizy jak coś działa

  • Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej

  • Nastawienie na optymalizację

  • Pojęcie domenowe (mile widziana znajomość systemów płatności)

  • Znajomość Confluence/Jira

TechLead Site Reliability Specialist

Senior SRE Specialist

SRE Specialist

Junior SRE Specialist

Obowiązki

  • SRE Specialist +

  • Samodzielne rozwiązywanie zgłoszonych lub znalezionych problemów procesowych

  • Tworzenie procedur znacząco zmieniających funkcjonowanie całej organizacji lub działu

  • Współpraca na poziomie całej organizacji, a także z partnerami zewnętrznymi

  • Tworzenie procedur optymalizujących działanie działu IT

  • Analiza aktualnych procedur, ulepszanie ich i standaryzacja

  • Analiza optymalności współpracy zespołów i systemów

  • Weryfikacja danych dotyczących działania systemów

  • Właścicielstwo KPI

  • Wykorzystywanie technologii AI w analizowaniu danych

  • Analiza danych z monitoringu, tworzenie monitoringu w celu gromadzenia danych

  • Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps

  • Analizy, postmortem awarii:

    • analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps

    • Weryfikacja infrastruktury (VM, Kubernetes, Cloud).

    • Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).

    • Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).

    • Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.

  • Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java)

  • Reakcja na awarie

  • Junior SRE Specialist+

  • Automatyzacja procesów, powtarzalnych zadań (Python, Bash)

  • rozpoznawanie braków procesowych

  • tworzenie procesów IT

  • tworzenie czytelnych, funkcjonalnych i dynamicznych przestrzeni w Confluence

  • integrowanie przestrzeni Confluence z Jira

  • współpraca z innymi zespołami w celu lepszego wykorzystania Confluence

  • współpraca z innymi zespołami w celu stworzenia spójnych procesów

  • Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS)

  • Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes

  • Analizy optymalizacji kosztów w ramach wsparcia zespołu SRE

  • Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps

  • Wsparcie w analizowaniu przyczyn awarii

  • Wsparcie w zarządzaniu narzędziami wykorzystywanymi przez Application Monitoring (np. Statuspage)

  • Dbałość o ciągłość procesu

  • Dbałość o dostępność usług

  • Opieka nad metrykami wg wskazań przełożonych

  • Opieka nad raportami (KPI, wyniki kolejek utrzymaniowych, dostępność systemów, monitoring, incydenty)

  • Tworzenie monitoringu w oparciu o Grafanę, Promentheusa, Zabbix, ELK

  • Opieka nad Opsgenie

  • Dokładna analiza kolejek utrzymaniowych i wprowadzanie zmian w ich organizacji

  • wsparcie w tworzeniu procesów IT

  • proponowanie usprawnień w istniejących procesach

  • współtworzenie czytelnych i funkcjonalnych przestrzeni w Confluence

  • tworzenie grafów BMPN/UML pokazujących przebieg procesów

  • wsparcie (deploy, monitorowanie) aplikacji napisanych w Java

  • opieka na procesem Incident Response (zarządzanie incydentem)

  • budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych

  • rozwój obszaru Observability

  • budowa i opieka nad metrykami SLI/SLO/SLA

  • tworzenie KPI w oparciu o dane z zadań oraz incydentów

  • udział przy projektowaniu systemów IT

  • wsparcie w ustalaniu procesów IT

  • rozwój procesu Production Readiness Review

  • Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji)

  • Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować

  • rozwój osobisty w obszarze SRE

  • wsparcie SRE/SRE Tech Lead w ich pracy

Wymagania

SRE Specialist+

  • Doświadczenie (jedno z):

    • 2+ lat doświadczenia jako SRE Specialist

    • 2+ lat doświadczenia jako Dev/DevOps i 2+ lat jako Project Manager w IT

  • bardzo dobra znajomość MS Excel

  • bardzo dobra znajomość BPMN

  • bardzo dobra znajomość UML

  • znajomość regulacji dotyczących procesów (w tym normy ISO potrzebne do wykonywanej pracy)

  • bardzo dobra znajomość SQL

  • znajomość zależności narzędzi IT (GitOps, IaC, bazy danych, rozwiązania chmurowe)

  • Bardzo dobra znajomość rozwiązań monitoringowych (wykorzystywanie)

    • Opsgenie

    • Grafana

    • Prometheus

    • Zabbix

  • Bardzo dobra znajomość metodyk oraz ich ram postępowania

    • ITSM (ITIL)

    • Agile (Scrum)

  • Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np.

    • CentOS

    • Amazon Linux 2

  • Dobra znajomość chmury publicznej (AWS)

  • Dobra znajomość baz danych:

    • PostgreSQL

    • AWS Aurora DB

    • DynamoDB (lub inny silnik NoSQL)

  • Dobra znajomość narzędzi IaC:

    • Terraform

    • Terragrunt

    • Helm

    • Ansible

    • Puppet

    • Docker

    • Kubernetes

  • Dobra znajomość Kubernetes, pojęcia konteneryzacji

  • Dobra znajomość narzędzi oraz platform GitOps, CI, CD

Junior SRE Specialist+

  • Doświadczenie:

    • 1+ doświadczenia jako Junior SRE Specialist

  • Dobra znajomość Confluence (administrowanie)

  • Bardzo dobra znajomość Confluence (tworzenie artykułów i przestrzeni)

  • Dobra znajomość MS Excel

  • znajomość BPMN

  • znajomość UML

  • znajomość metodyk oraz ich ram postępowania

    • ITSM (ITIL)

    • Agile (Scrum)

  • umiejętność tworzenia przejrzystych i czytelnych modeli/schematów

  • umiejętność tworzenia intuicyjnych przestrzeni Confluence

  • dobra znajomość rozwiązań monitoringowych, tworzenie nowych reguł, analiza danych, ustalanie wytycznych dot konfiguracji powiadomień

    • Opsgenie

    • Grafana

    • Prometheus

    • Zabbix

    • ELK

  • Znajomość języków:

    • Python / Java / Go

    • Bash

    • HCL, YAML, JSON

  • Dobra znajomość systemów operacyjnych (Linux)

  • Kubernetes:

    • Znajomość podstaw platformy

    • Rozumienie różnic oraz zależności między zasobami

    • Wdrażanie / skalowanie / aktualizacja aplikacji

    • Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp)

  • Znajomość rozwiązań GitOps

  • Dobra znajomość Statuspage

  • 1+ doświadczenia w administrowaniu aplikacjami/systemami IT

  • Dobra znajomość Confluence (tworzenie artykułów i przestrzeni)

  • Dobra znajomość Jira (administrowanie)

  • Dobra znajomość Opsgenie (administrowanie, tworzenie polityk, integracji, systemu powiadomień)

  • podstawowa znajomość BPMN

  • podstawowa znajomość UML

  • znajomość MS Excel

  • Rozumienie przyczyn i skutków

  • Widzenie całościowe

  • Komunikatywność i umiejętność pracy w zespole

  • Podstawy programowania (dowolny język z Java, Python, Go)

  • Podstawowa znajomość Bash

  • Podstawowa znajomość YAML/JSON

  • Podstawowa znajomość platformy Kubernetes

  • Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus)

  • Znajomość API Gateway, Load Balancery

  • ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab

  • Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL

  • Podstawowa znajomość rozwiązań chmurowych

  • Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK)

  • Podstawowa znajomość systemów operacyjnych

  • Analityczne myślenie (szybkość wyszukiwania informacji w internecie

  • Ciekawość, chęć analizy jak coś działa

  • Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej

  • Nastawienie na optymalizację

  • Pojęcie domenowe (mile widziana znajomość systemów płatności)

Pozostałe role w zespole SRE:

W przyszłości przy większym zespole Team Lead SRE

Last modified: 30 May 2024