SRE (Site Reliability Engineer)

DRAFT

	TechLead Site Reliability Engineer	Senior Site Reliability Engineer	Site Reliability Engineer	Junior Site Reliability Engineer
Obowiązki	Senior SRE+ Wdrażanie i rozwój praktyk SRE we współpracy z działami produktowymi, operacyjnymi i delivery IT Odpowiedzialność za niezawodność, bezpieczeństwo i skalowalność systemów IT Odpowiedzialność za część jakościową roadmap-y produktowej dla całej organizacji (współdzielona z Product Managerami) Definiowanie metryk jakościowych i szukanie rozwiązań na ich poprawę Ustalanie roadmap-y dla projektów i inicjatyw SRE Organizacja pracy zespołu SRE (Daily, Scrum/Kanban, planowania) Udział w rekrutacjach Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji. Analizy, postmortem awarii: analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps Weryfikacja infrastruktury (VM, Kubernetes, Cloud). Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy). Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji). Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje. Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie. Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps. Aktywna współpraca z Architektami IT. Optymalizacje: narzędzi, kodu, baz danych R&D rozwiązań z zakresu IT (narzędzia, architektury, frameworki) wiedza z zakresu zarządzania procesami i projektami	SRE+ Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji. Analizy, postmortem awarii: analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps Weryfikacja infrastruktury (VM, Kubernetes, Cloud). Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy). Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji). Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje. Testy dodatkowych narzędzi oraz funkcjonalności w istniejących, np. narzędzia skanujące infrastrukturę, kod aplikacyjny w poszukiwaniu podatności. narzędzia wspierające optymalizację wykorzystania zasobów dowolnej infrastruktury (Cloud, On-Premise, Kubernetes, itd.). nowe funkcjonalności narzędzi monitoringowych. weryfikacja oraz testy narzędzi CNCF. Optymalizacja kodu: aplikacji (Java) infrastruktury (Terraform, YAML): Tworzenie modułów Terraform. Tworzenie Helm Charts. Tworzenie struktur Kustomize. Usuwanie redundancji w kodzie związanym z IaC. Automatyzacja: tworzenie i ulepszanie procesów CI/CD (Gitlab). tworzenie i rozwój skryptów automatyzujących standardowe zadania administratorskie (Python, Bash, Ansible). tworzenie i rozwój skryptów rozwiązujące braki w dostępnych narzędziach, procesach, itp - np. ustandaryzowany release aplikacji w dowolnej technologii z wykorzystaniem natywnych narzędzi CI/CD (Python, Golang). tworzenie narzędzi CLI i skryptów służących do usprawniania pracy zespołów DevOps / Dev / innych, np. migracja stref DNS ze środowiska on-premise na AWS z wykorzystaniem Terraform (Python, Bash, Golang). Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie. Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps. Aktywna współpraca z zespołami jakościowymi, np. inicjatywa Architektów.	Junior SRE+ Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS) Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes Analizy optymalizacji kosztów w ramach wsparcia SRE Teach Lead Analiza kodu w celu optymalizacji, znalezienia błędów, itp: aplikacji (Java) infrastruktury (Terraform, YAML) Automatyzacja procesów, powtarzalnych zadań (Python, Bash) Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java)	wsparcie (deploy, monitorowanie) aplikacji napisanych w Java opieka na procesem Incident Response (zarządzanie incydentem) budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych rozwój obszaru Observability budowa i opieka nad metrykami SLI/SLO/SLA tworzenie KPI w oparciu o dane z zadań oraz incydentów udział przy projektowaniu systemów IT wsparcie w ustalaniu procesów IT rozwój procesu Production Readiness Review Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji) Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować rozwój osobisty w obszarze SRE wsparcie SRE/SRE Tech Lead w ich pracy
Wymagania	Doświadczenie (jedno z): 5+ doświadczenia jako SRE, 2+ doświadczenie w kierowaniu zespołem 5+ na doświadczenia jako DevOps, 2+ doświadczenie w kierowaniu zespołem 5+ doświadczenia jako Dev, 2+ doświadczenie w kierowaniu zespołem Bardzo duże doświadczenie w budowaniu wysoko wydajnych i niezawodnych systemów IT Znajomość architektury systemów Bardzo dobra znajomość metodologi SRE Bardzo dobra znajomość cyklu wytwarzania oprogramowania Znajomość zagadnień Security, Quality Assurance Bardzo dobra znajomość: Observability, Monitoring, Incident Response, Chaos Engineering Zdolność do rozwiązywania trudnych problemów technicznych wsparta naturalną dociekliwością Patrzenie na systemy IT przez pryzmat całości (big picture”) - sieć, infrastruktura, aplikacje	Doświadczenie (jedno z): 3+ doświadczenia jako SRE 5+ na doświadczenia jako DevOps 5+ doświadczenia jako Dev Bardzo dobra znajomość Chmury Publicznej (AWS) - na poziomie Architect Bardzo dobra znajomość języków: Python / Java / Go Bash HCL, YAML, JSON Jinja2 Bardzo dobra znajomość Kubernetes, pojęcia konteneryzacji Bardzo dobra znajomość narzędzi oraz platform GitOps, CI, CD: FluxCD ArgoCD Gitlab Ansible Puppet Kustomize Bardzo dobra znajomość narzędzi IaC: Terraform Terragrunt Helm Ansible Puppet Docker Kubernetes Bardzo dobra znajomość baz danych: PostgreSQL AWS Aurora DB DynamoDB (lub inny silnik NoSQL) Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np. CentOS Amazon Linux 2 Znajomość Chaos Engineering	Doświadczenie (jedno z): 2+ doświadczenia jako Junior SRE 2+ doświadczenia jako DevOps 2+ doświadczenia jako Dev Dobra znajomość chmury publicznej (AWS) Znajomość języków: Python / Java / Go Bash HCL, YAML, JSON Dobra znajomość systemów operacyjnych (Linux) Kubernetes: Znajomość podstaw platformy Rozumienie różnic oraz zależności między zasobami Wdrażanie / skalowanie / aktualizacja aplikacji Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp) Znajomość rozwiązań GitOps Analityczne podejście do pracy Nastawienie na automatyzację oraz jakość	2+ doświadczenia w administrowaniu aplikacjami/systemami IT Podstawy programowania (dowolny język z Java, Python, Go) Podstawowa znajomość Bash Podstawowa znajomość YAML/JSON Podstawowa znajomość platformy Kubernetes Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus) Znajomość API Gateway, Load Balancery ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL Podstawowa znajomość rozwiązań chmurowych Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK) Podstawowa znajomość systemów operacyjnych Analityczne myślenie (szybkość wyszukiwania informacji w internecie Ciekawość, chęć analizy jak coś działa Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej Nastawienie na optymalizację Pojęcie domenowe (mile widziana znajomość systemów płatności) Znajomość Confluence/Jira

TechLead Site Reliability Engineer

Senior Site Reliability Engineer

Site Reliability Engineer

Junior Site Reliability Engineer

Obowiązki

Senior SRE+
Wdrażanie i rozwój praktyk SRE we współpracy z działami produktowymi, operacyjnymi i delivery IT
Odpowiedzialność za niezawodność, bezpieczeństwo i skalowalność systemów IT
Odpowiedzialność za część jakościową roadmap-y produktowej dla całej organizacji (współdzielona z Product Managerami)
Definiowanie metryk jakościowych i szukanie rozwiązań na ich poprawę
Ustalanie roadmap-y dla projektów i inicjatyw SRE
Organizacja pracy zespołu SRE (Daily, Scrum/Kanban, planowania)
Udział w rekrutacjach
Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów
Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji.
Analizy, postmortem awarii:
- analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps
- Weryfikacja infrastruktury (VM, Kubernetes, Cloud).
- Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).
- Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).
- Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.
Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie.
Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps.
Aktywna współpraca z Architektami IT.
Optymalizacje: narzędzi, kodu, baz danych
R&D rozwiązań z zakresu IT (narzędzia, architektury, frameworki)
wiedza z zakresu zarządzania procesami i projektami

SRE+
Samodzielne rozwiązywanie zgłaszanych problemów oraz samodzielne wyszukiwanie potencjalnych problemów
Reakcja na awarie, powtarzające się restarty tych samych usług, itp - dbanie o jakość w organizacji.
Analizy, postmortem awarii:
- analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps
- Weryfikacja infrastruktury (VM, Kubernetes, Cloud).
- Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).
- Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).
- Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.
Testy dodatkowych narzędzi oraz funkcjonalności w istniejących, np.
- narzędzia skanujące infrastrukturę, kod aplikacyjny w poszukiwaniu podatności.
- narzędzia wspierające optymalizację wykorzystania zasobów dowolnej infrastruktury (Cloud, On-Premise, Kubernetes, itd.).
- nowe funkcjonalności narzędzi monitoringowych.
- weryfikacja oraz testy narzędzi CNCF.
Optymalizacja kodu:
- aplikacji (Java)
- infrastruktury (Terraform, YAML):
  - Tworzenie modułów Terraform.
  - Tworzenie Helm Charts.
  - Tworzenie struktur Kustomize.
  - Usuwanie redundancji w kodzie związanym z IaC.
Automatyzacja:
- tworzenie i ulepszanie procesów CI/CD (Gitlab).
- tworzenie i rozwój skryptów automatyzujących standardowe zadania administratorskie (Python, Bash, Ansible).
- tworzenie i rozwój skryptów rozwiązujące braki w dostępnych narzędziach, procesach, itp - np. ustandaryzowany release aplikacji w dowolnej technologii z wykorzystaniem natywnych narzędzi CI/CD (Python, Golang).
- tworzenie narzędzi CLI i skryptów służących do usprawniania pracy zespołów DevOps / Dev / innych, np. migracja stref DNS ze środowiska on-premise na AWS z wykorzystaniem Terraform (Python, Bash, Golang).
Przygotowanie POC rozwiązań na etapie analizy projektu lub usprawniające projekt / zagadnienie.
Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps.
Aktywna współpraca z zespołami jakościowymi, np. inicjatywa Architektów.

Junior SRE+
Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS)
Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes
Analizy optymalizacji kosztów w ramach wsparcia SRE Teach Lead
Analiza kodu w celu optymalizacji, znalezienia błędów, itp:
- aplikacji (Java)
- infrastruktury (Terraform, YAML)
Automatyzacja procesów, powtarzalnych zadań (Python, Bash)
Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java)

wsparcie (deploy, monitorowanie) aplikacji napisanych w Java
opieka na procesem Incident Response (zarządzanie incydentem)
budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych
rozwój obszaru Observability
budowa i opieka nad metrykami SLI/SLO/SLA
tworzenie KPI w oparciu o dane z zadań oraz incydentów
udział przy projektowaniu systemów IT
wsparcie w ustalaniu procesów IT
rozwój procesu Production Readiness Review
Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji)
Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować
rozwój osobisty w obszarze SRE
wsparcie SRE/SRE Tech Lead w ich pracy

Wymagania

Doświadczenie (jedno z):
- 5+ doświadczenia jako SRE, 2+ doświadczenie w kierowaniu zespołem
- 5+ na doświadczenia jako DevOps, 2+ doświadczenie w kierowaniu zespołem
- 5+ doświadczenia jako Dev, 2+ doświadczenie w kierowaniu zespołem
Bardzo duże doświadczenie w budowaniu wysoko wydajnych i niezawodnych systemów IT
Znajomość architektury systemów
Bardzo dobra znajomość metodologi SRE
Bardzo dobra znajomość cyklu wytwarzania oprogramowania
Znajomość zagadnień Security, Quality Assurance
Bardzo dobra znajomość: Observability, Monitoring, Incident Response, Chaos Engineering
Zdolność do rozwiązywania trudnych problemów technicznych wsparta naturalną dociekliwością
Patrzenie na systemy IT przez pryzmat całości (big picture”) - sieć, infrastruktura, aplikacje

Doświadczenie (jedno z):
- 3+ doświadczenia jako SRE
- 5+ na doświadczenia jako DevOps
- 5+ doświadczenia jako Dev
Bardzo dobra znajomość Chmury Publicznej (AWS) - na poziomie Architect
Bardzo dobra znajomość języków:
- Python / Java / Go
- Bash
- HCL, YAML, JSON
- Jinja2
Bardzo dobra znajomość Kubernetes, pojęcia konteneryzacji
Bardzo dobra znajomość narzędzi oraz platform GitOps, CI, CD:
- FluxCD
- ArgoCD
- Gitlab
- Ansible
- Puppet
- Kustomize
Bardzo dobra znajomość narzędzi IaC:
- Terraform
- Terragrunt
- Helm
- Ansible
- Puppet
- Docker
- Kubernetes
Bardzo dobra znajomość baz danych:
- PostgreSQL
- AWS Aurora DB
- DynamoDB (lub inny silnik NoSQL)
Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np.
- CentOS
- Amazon Linux 2
Znajomość Chaos Engineering

Doświadczenie (jedno z):
- 2+ doświadczenia jako Junior SRE
- 2+ doświadczenia jako DevOps
- 2+ doświadczenia jako Dev
Dobra znajomość chmury publicznej (AWS)
Znajomość języków:
- Python / Java / Go
- Bash
- HCL, YAML, JSON
Dobra znajomość systemów operacyjnych (Linux)
Kubernetes:
- Znajomość podstaw platformy
- Rozumienie różnic oraz zależności między zasobami
- Wdrażanie / skalowanie / aktualizacja aplikacji
- Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp)
Znajomość rozwiązań GitOps
Analityczne podejście do pracy
Nastawienie na automatyzację oraz jakość

2+ doświadczenia w administrowaniu aplikacjami/systemami IT
Podstawy programowania (dowolny język z Java, Python, Go)
Podstawowa znajomość Bash
Podstawowa znajomość YAML/JSON
Podstawowa znajomość platformy Kubernetes
Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus)
Znajomość API Gateway, Load Balancery
ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab
Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL
Podstawowa znajomość rozwiązań chmurowych
Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK)
Podstawowa znajomość systemów operacyjnych
Analityczne myślenie (szybkość wyszukiwania informacji w internecie
Ciekawość, chęć analizy jak coś działa
Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej
Nastawienie na optymalizację
Pojęcie domenowe (mile widziana znajomość systemów płatności)
Znajomość Confluence/Jira

	TechLead Site Reliability Specialist	Senior SRE Specialist	SRE Specialist	Junior SRE Specialist
Obowiązki		SRE Specialist + Samodzielne rozwiązywanie zgłoszonych lub znalezionych problemów procesowych Tworzenie procedur znacząco zmieniających funkcjonowanie całej organizacji lub działu Współpraca na poziomie całej organizacji, a także z partnerami zewnętrznymi Tworzenie procedur optymalizujących działanie działu IT Analiza aktualnych procedur, ulepszanie ich i standaryzacja Analiza optymalności współpracy zespołów i systemów Weryfikacja danych dotyczących działania systemów Właścicielstwo KPI Wykorzystywanie technologii AI w analizowaniu danych Analiza danych z monitoringu, tworzenie monitoringu w celu gromadzenia danych Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps Analizy, postmortem awarii: analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps Weryfikacja infrastruktury (VM, Kubernetes, Cloud). Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy). Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji). Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje. Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java) Reakcja na awarie	Junior SRE Specialist+ Automatyzacja procesów, powtarzalnych zadań (Python, Bash) rozpoznawanie braków procesowych tworzenie procesów IT tworzenie czytelnych, funkcjonalnych i dynamicznych przestrzeni w Confluence integrowanie przestrzeni Confluence z Jira współpraca z innymi zespołami w celu lepszego wykorzystania Confluence współpraca z innymi zespołami w celu stworzenia spójnych procesów Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS) Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes Analizy optymalizacji kosztów w ramach wsparcia zespołu SRE Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps Wsparcie w analizowaniu przyczyn awarii Wsparcie w zarządzaniu narzędziami wykorzystywanymi przez Application Monitoring (np. Statuspage) Dbałość o ciągłość procesu Dbałość o dostępność usług Opieka nad metrykami wg wskazań przełożonych Opieka nad raportami (KPI, wyniki kolejek utrzymaniowych, dostępność systemów, monitoring, incydenty) Tworzenie monitoringu w oparciu o Grafanę, Promentheusa, Zabbix, ELK Opieka nad Opsgenie Dokładna analiza kolejek utrzymaniowych i wprowadzanie zmian w ich organizacji	wsparcie w tworzeniu procesów IT proponowanie usprawnień w istniejących procesach współtworzenie czytelnych i funkcjonalnych przestrzeni w Confluence tworzenie grafów BMPN/UML pokazujących przebieg procesów wsparcie (deploy, monitorowanie) aplikacji napisanych w Java opieka na procesem Incident Response (zarządzanie incydentem) budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych rozwój obszaru Observability budowa i opieka nad metrykami SLI/SLO/SLA tworzenie KPI w oparciu o dane z zadań oraz incydentów udział przy projektowaniu systemów IT wsparcie w ustalaniu procesów IT rozwój procesu Production Readiness Review Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji) Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować rozwój osobisty w obszarze SRE wsparcie SRE/SRE Tech Lead w ich pracy
Wymagania		SRE Specialist+ Doświadczenie (jedno z): 2+ lat doświadczenia jako SRE Specialist 2+ lat doświadczenia jako Dev/DevOps i 2+ lat jako Project Manager w IT bardzo dobra znajomość MS Excel bardzo dobra znajomość BPMN bardzo dobra znajomość UML znajomość regulacji dotyczących procesów (w tym normy ISO potrzebne do wykonywanej pracy) bardzo dobra znajomość SQL znajomość zależności narzędzi IT (GitOps, IaC, bazy danych, rozwiązania chmurowe) Bardzo dobra znajomość rozwiązań monitoringowych (wykorzystywanie) Opsgenie Grafana Prometheus Zabbix Bardzo dobra znajomość metodyk oraz ich ram postępowania ITSM (ITIL) Agile (Scrum) Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np. CentOS Amazon Linux 2 Dobra znajomość chmury publicznej (AWS) Dobra znajomość baz danych: PostgreSQL AWS Aurora DB DynamoDB (lub inny silnik NoSQL) Dobra znajomość narzędzi IaC: Terraform Terragrunt Helm Ansible Puppet Docker Kubernetes Dobra znajomość Kubernetes, pojęcia konteneryzacji Dobra znajomość narzędzi oraz platform GitOps, CI, CD	Junior SRE Specialist+ Doświadczenie: 1+ doświadczenia jako Junior SRE Specialist Dobra znajomość Confluence (administrowanie) Bardzo dobra znajomość Confluence (tworzenie artykułów i przestrzeni) Dobra znajomość MS Excel znajomość BPMN znajomość UML znajomość metodyk oraz ich ram postępowania ITSM (ITIL) Agile (Scrum) umiejętność tworzenia przejrzystych i czytelnych modeli/schematów umiejętność tworzenia intuicyjnych przestrzeni Confluence dobra znajomość rozwiązań monitoringowych, tworzenie nowych reguł, analiza danych, ustalanie wytycznych dot konfiguracji powiadomień Opsgenie Grafana Prometheus Zabbix ELK Znajomość języków: Python / Java / Go Bash HCL, YAML, JSON Dobra znajomość systemów operacyjnych (Linux) Kubernetes: Znajomość podstaw platformy Rozumienie różnic oraz zależności między zasobami Wdrażanie / skalowanie / aktualizacja aplikacji Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp) Znajomość rozwiązań GitOps Dobra znajomość Statuspage	1+ doświadczenia w administrowaniu aplikacjami/systemami IT Dobra znajomość Confluence (tworzenie artykułów i przestrzeni) Dobra znajomość Jira (administrowanie) Dobra znajomość Opsgenie (administrowanie, tworzenie polityk, integracji, systemu powiadomień) podstawowa znajomość BPMN podstawowa znajomość UML znajomość MS Excel Rozumienie przyczyn i skutków Widzenie całościowe Komunikatywność i umiejętność pracy w zespole Podstawy programowania (dowolny język z Java, Python, Go) Podstawowa znajomość Bash Podstawowa znajomość YAML/JSON Podstawowa znajomość platformy Kubernetes Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus) Znajomość API Gateway, Load Balancery ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL Podstawowa znajomość rozwiązań chmurowych Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK) Podstawowa znajomość systemów operacyjnych Analityczne myślenie (szybkość wyszukiwania informacji w internecie Ciekawość, chęć analizy jak coś działa Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej Nastawienie na optymalizację Pojęcie domenowe (mile widziana znajomość systemów płatności)

TechLead Site Reliability Specialist

Senior SRE Specialist

SRE Specialist

Junior SRE Specialist

Obowiązki

SRE Specialist +
Samodzielne rozwiązywanie zgłoszonych lub znalezionych problemów procesowych
Tworzenie procedur znacząco zmieniających funkcjonowanie całej organizacji lub działu
Współpraca na poziomie całej organizacji, a także z partnerami zewnętrznymi
Tworzenie procedur optymalizujących działanie działu IT
Analiza aktualnych procedur, ulepszanie ich i standaryzacja
Analiza optymalności współpracy zespołów i systemów
Weryfikacja danych dotyczących działania systemów
Właścicielstwo KPI
Wykorzystywanie technologii AI w analizowaniu danych
Analiza danych z monitoringu, tworzenie monitoringu w celu gromadzenia danych
Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps
Analizy, postmortem awarii:
- analiza przyczyn źródłowych awarii zgłaszanych przez Developerów, DevOps
- Weryfikacja infrastruktury (VM, Kubernetes, Cloud).
- Weryfikacja uruchomionych procesów i aplikacji powiązanych z systemem (np. proces odpowiedzialny za zarządzanie kontenerami, apache, silnik bazodanowy).
- Weryfikacja konfiguracji (Kubernetes, Docker, usługi na VM, aplikacji).
- Tworzenie rekomendacji w oparciu o przeprowadzoną analizę, best practices, dokumentacje.
Tworzenie exporterów metryk dla aplikacji / systemów (Python, Java)
Reakcja na awarie

Junior SRE Specialist+
Automatyzacja procesów, powtarzalnych zadań (Python, Bash)
rozpoznawanie braków procesowych
tworzenie procesów IT
tworzenie czytelnych, funkcjonalnych i dynamicznych przestrzeni w Confluence
integrowanie przestrzeni Confluence z Jira
współpraca z innymi zespołami w celu lepszego wykorzystania Confluence
współpraca z innymi zespołami w celu stworzenia spójnych procesów
Wsparcie (deploy, improvement) przy tworzeniu infrastruktury w chmurach publicznych (AWS)
Wsparcie (deploy, improvement) przy tworzeniu infrastruktury aplikacyjnej na Kubernetes
Analizy optymalizacji kosztów w ramach wsparcia zespołu SRE
Przeprowadzanie szkoleń wewnętrznych dla zespołów Dev / AM / DevOps
Wsparcie w analizowaniu przyczyn awarii
Wsparcie w zarządzaniu narzędziami wykorzystywanymi przez Application Monitoring (np. Statuspage)
Dbałość o ciągłość procesu
Dbałość o dostępność usług
Opieka nad metrykami wg wskazań przełożonych
Opieka nad raportami (KPI, wyniki kolejek utrzymaniowych, dostępność systemów, monitoring, incydenty)
Tworzenie monitoringu w oparciu o Grafanę, Promentheusa, Zabbix, ELK
Opieka nad Opsgenie
Dokładna analiza kolejek utrzymaniowych i wprowadzanie zmian w ich organizacji

wsparcie w tworzeniu procesów IT
proponowanie usprawnień w istniejących procesach
współtworzenie czytelnych i funkcjonalnych przestrzeni w Confluence
tworzenie grafów BMPN/UML pokazujących przebieg procesów
wsparcie (deploy, monitorowanie) aplikacji napisanych w Java
opieka na procesem Incident Response (zarządzanie incydentem)
budowa i rozwój systemu monitoringowego z wykorzystaniem narzędzi monitoringowych
rozwój obszaru Observability
budowa i opieka nad metrykami SLI/SLO/SLA
tworzenie KPI w oparciu o dane z zadań oraz incydentów
udział przy projektowaniu systemów IT
wsparcie w ustalaniu procesów IT
rozwój procesu Production Readiness Review
Przeglądy kolejek utrzymaniowych (zgłoszenia dotyczące systemów/aplikacji)
Analiza zasadności zgłoszeń zapotrzebowania na automatyzację, wyszukiwanie procesów, które warto zautomatyzować
rozwój osobisty w obszarze SRE
wsparcie SRE/SRE Tech Lead w ich pracy

Wymagania

SRE Specialist+

Doświadczenie (jedno z):
- 2+ lat doświadczenia jako SRE Specialist
- 2+ lat doświadczenia jako Dev/DevOps i 2+ lat jako Project Manager w IT
bardzo dobra znajomość MS Excel
bardzo dobra znajomość BPMN
bardzo dobra znajomość UML
znajomość regulacji dotyczących procesów (w tym normy ISO potrzebne do wykonywanej pracy)
bardzo dobra znajomość SQL
znajomość zależności narzędzi IT (GitOps, IaC, bazy danych, rozwiązania chmurowe)
Bardzo dobra znajomość rozwiązań monitoringowych (wykorzystywanie)
- Opsgenie
- Grafana
- Prometheus
- Zabbix
Bardzo dobra znajomość metodyk oraz ich ram postępowania
- ITSM (ITIL)
- Agile (Scrum)
Bardzo dobra znajomość systemów operacyjnych z rodziny Linux, np.
- CentOS
- Amazon Linux 2
Dobra znajomość chmury publicznej (AWS)
Dobra znajomość baz danych:
- PostgreSQL
- AWS Aurora DB
- DynamoDB (lub inny silnik NoSQL)
Dobra znajomość narzędzi IaC:
- Terraform
- Terragrunt
- Helm
- Ansible
- Puppet
- Docker
- Kubernetes
Dobra znajomość Kubernetes, pojęcia konteneryzacji
Dobra znajomość narzędzi oraz platform GitOps, CI, CD

Junior SRE Specialist+

Doświadczenie:
- 1+ doświadczenia jako Junior SRE Specialist
Dobra znajomość Confluence (administrowanie)
Bardzo dobra znajomość Confluence (tworzenie artykułów i przestrzeni)
Dobra znajomość MS Excel
znajomość BPMN
znajomość UML
znajomość metodyk oraz ich ram postępowania
- ITSM (ITIL)
- Agile (Scrum)
umiejętność tworzenia przejrzystych i czytelnych modeli/schematów
umiejętność tworzenia intuicyjnych przestrzeni Confluence
dobra znajomość rozwiązań monitoringowych, tworzenie nowych reguł, analiza danych, ustalanie wytycznych dot konfiguracji powiadomień
- Opsgenie
- Grafana
- Prometheus
- Zabbix
- ELK
Znajomość języków:
- Python / Java / Go
- Bash
- HCL, YAML, JSON
Dobra znajomość systemów operacyjnych (Linux)
Kubernetes:
- Znajomość podstaw platformy
- Rozumienie różnic oraz zależności między zasobami
- Wdrażanie / skalowanie / aktualizacja aplikacji
- Znajomość różnic między Native Kubernetes a platformami od dostawców chmurowych (EKS, itp)
Znajomość rozwiązań GitOps
Dobra znajomość Statuspage

1+ doświadczenia w administrowaniu aplikacjami/systemami IT

Dobra znajomość Confluence (tworzenie artykułów i przestrzeni)
Dobra znajomość Jira (administrowanie)
Dobra znajomość Opsgenie (administrowanie, tworzenie polityk, integracji, systemu powiadomień)
podstawowa znajomość BPMN
podstawowa znajomość UML
znajomość MS Excel
Rozumienie przyczyn i skutków
Widzenie całościowe
Komunikatywność i umiejętność pracy w zespole
Podstawy programowania (dowolny język z Java, Python, Go)
Podstawowa znajomość Bash
Podstawowa znajomość YAML/JSON
Podstawowa znajomość platformy Kubernetes
Doświadczenie we wdrażaniu i wspieraniu Microservices opartych na Javie (JEE, Spring, Quarkus)
Znajomość API Gateway, Load Balancery
ZnajomośćContinuous Integration/Deployment (CI/CD)np. gitlab
Znajomość baz danych (np. Postgresql) i systemów kolejkowych (np. Kafka, AMQ) w tym znajomość SQL
Podstawowa znajomość rozwiązań chmurowych
Znajomość narzędzi monitoringowych (np. Zabbix, Prometheus, Grafana, ELK)
Podstawowa znajomość systemów operacyjnych
Analityczne myślenie (szybkość wyszukiwania informacji w internecie
Ciekawość, chęć analizy jak coś działa
Wrażliwość na drobiazgi, chęć poprawiania, myślenie że zawsze można zrobić lepiej
Nastawienie na optymalizację
Pojęcie domenowe (mile widziana znajomość systemów płatności)

Pozostałe role w zespole SRE:

DBA (Database Administrator/Architect)
Security Officer

W przyszłości przy większym zespole Team Lead SRE

Last modified: 30 May 2024