SLI's, SLA's e SLO's :: Não sabe por onde começar com suas métricas? Comece por aqui!

TL; DR; Um guia pra te levar do 0 ao 1

Se SRE é hype, então vamos hypar do jeito certo! Esse é um guia pra quem está começando uma jornada de SRE e tem dificuldades pra entender os fundamentos básicos ou com dificuldade de começar de algum lugar. Elaborei esse artigo pra ser simples, acessível e assertivo pra quem quer entender as principais métricas e descobrir por onde começar a medir e garantir a confiabilidade de seus produtos.

O que faz um SRE?

O papel do SRE, de uma forma bem alto nível são somente dois: Medir e Garantir.

Medir indicadores de performance, risco, custo, entrega, qualidade e disponibilidade de uma aplicação e/ou produto.

Como garantir tudo isso? Avaliando arquitetura de infraestrutura, plataforma, qualidade de código, segurança, fluxos de entrega, implementando monitoramento, alertas que fazem sentido e encontrando pontos de melhoria de disponibilidade dos serviços.

Mas isso ainda é muito complicado, e você não precisa colocar tudo isso num checklist pra poder começar. Esse artigo serve pra isso, pra te fazer dar o primeiro passo e sair do 0 pro 1.

E vamos começar pelo coração do que se considera Engenharia de Confiabilidade, os SLO`s, SLI`s e SLA`s e Error Budgets.

O que são essas siglas?

Parece complexo, muita gente vai escrever artigos com muito tecniquês pra explicar, mas é bem simples, vamos lá. Sem enrolar:

SLA (Service Level Agreement): É o nível contratual que um provedor, de qualquer coisa, IaaS, PaaS, SaaS estabelece com seu cliente referente a disponibilidade. Esse contrato nunca pode ser 100%. Se existe uma certeza nessa vida é que aplicações e serviços vão cair. Independente de tempo, criticidade e etc. O que podemos fazer é sempre adicionar 9`s nos nossos SLA`s, ao 99,999999 e além.

SLO (Service Level Objective): É o contrato interno, entre os times e produto. Normalmente ele é muito mais apertado e rígido que o SLA. Pois o mesmo é focado em melhorias, e adicionar mais 9`s aos nossos serviços. Caso o SLA seja de 99,9% de disponibilidade, seu SLO deve sempre mirar um 99,99 pra mais. Quando se atinge o SLO com segurança, aumente seu SLA público, e assim vai...

SLI (Service Level Indicators): São as métricas que você vai utilizar pra acompanhar como sua situação atual está em relação aos SLO's. Isso independe de ferramentas, pois são cálculos simples.

Error Budget: É a margem de erro que você tem pra trabalhar nos seus serviços. Normalmente calculado como (100 - SLO) = Error Budget. Como 100 - 99,9 = 00,1% de erros são aceitáveis.

Resumindo...

No fim das contas, o SLA é o mínimo disposto em contrato, os SLO`s são os objetivos que você quer atingir além desse contrato, e os SLI são os indicadores que você vai utilizar pra acompanhar como estão o andamento desses objetivos. Fácil né?

E o Error Budget é simplesmente o quanto você pode ter de falhas dentro desse contrato, e como você está posicionado em relação a isso. Se você quer ter 99% de disponibilidade, seu error budget é de 1%, mega simples né? E você quebra esse 1% em 100% e analisa quanto falta pra atingir esse budget, ou o quanto você passou dele. Não entendeu? Segura ai que a gente já vai te ajudar mais.

E pra que serve tudo isso? Qual a vantagem?

Simples, pra encontrar uma Estrela Guia.

O que seria uma Estrela Guia pro time? Uma, ou algumas poucas métricas, simples e objetivas que são fáceis de acompanhar e entender. E principalmente que façam sentido pra um escopo maior que o seu time.

E por incrível que pareça isso é MUITO difícil. Trabalhar com métricas em times de tecnologia de uma forma enxuta é muito complicado, principalmente entre vários times. Ou porque ninguém sabe o que medir, ou porque tem muita coisa sendo medida e fica difícil pra todo mundo acompanhar, ou porque métricas fornecidas e seguidas pelo time de infraestrutura não fazem sentido pros times de desenvolvimento, redes, produto e vice-versa (várias vezes).

Pra isso foram criados esses conceitos de SLO's, SLI's, Error Budgets e SLA's.

SLO's então. Qual meu objetivo? O quanto eu preciso entregar?

Vamos definir isso em 3 passos, mantendo um mindset de configuração e adaptação. A ideia desse artigo é te fazer começar de algum lugar. Então não se prenda em levantar tantas informações nesses primeiros passos. Vamos lá:

1) Sente, respire e formule duas frases:

Eu preciso responder todas as requisições em menos de 200 milisegundos (coloque aqui a métrica que o seu coração mandar)
Eu preciso ter 99% de disponibilidade pra minha aplicação, e vou medir isso semanalmente (coloque aqui a porcentagem e o período que vier na sua cabeça)

2) Leve isso para o seu time:

Pegue essas duas métricas, converse com pessoas próximas do seu time, de outros times, com alguns desenvolvedores, sysadmins, testers, engenheiros de rede, sei lá.
Pegue feedback e lapide mais ainda para o que faz sentido pra realidade da aplicação.

3) Leve isso pra sua gestão, junto com seu time

Defina esses acordos com bastante gente, seu time, seu gestor, líder técnico, ou alguém com papel de tomada de decisão, para que o ciclo de feedback seja o mais proveitoso possível.

Lembrando que essas métricas fazem pouco sentido se não forem adotadas em conjunto.

O que medir? O que definir como meus SLI`s?

Existem muitas coisas que podem ser medidas e se tornar estrelas guias do time. Mas vamos começar do feijão com arroz e nos limitar a duas métricas simples que fazem sentido na maioria dos casos. Disponibilidade e Tempo de resposta da aplicação. Então vamos começar com o básico e recomendado. O padrão RED, Rate, Errors e Duration. E como eu começo?

Disponibilidade:

Medir disponibilidade é simples, No caso de um sistema web podemos seguir com o calculo básico de (Quantidade de requisições realizadas com sucesso / Quantidade total de requisições) * 100

Em outros casos quando você não está tentando medir um sistema web, o calculo seria: (Quantidade de tempo em uptime / Quantidade de horas acordadas) * 100 .

Response Time:

Response time é mais baba ainda, dependendo da ferramenta que você estiver utilizando pra olhar isso. Mas pode se tornar complexo dependendo do seu cenário. Mas basicamente é o tempo de resposta que o servidor leva pra responder um cliente.

Basicamente o cálculo é a média de http dispatch de todas as requisições. Algo como average('duration').

Exemplo de Dashboard de SLO's e SLI's

Medir response time de um microserviço é simples, mas de uma malha não.

Na minha humilde opinião, o principal ponto a ser medido é sempre a sensação do cliente final, que está "consultando o histórico de vacinas do cachorrinho dele", ou "cadastrando um novo gatinho no cadastro de pets". O cliente final não liga pra quantos microserviços estão por trás daquela solicitação enviada. Por isso, considero o tempo de resposta do cliente final como um todo, por exemplo "o tempo que levou pra tirar tirar o relatório de vacinas" uma métrica mais importante do que medir o tempo em que microserviço de cadastro de pets leva pra consultar o microserviço de vacinas.

É importante também, mas comece pelo simples e importante. O que for mais fácil e fizer sentido pra você.

Com o tempo isso pode e deve evoluir. Como por exemplo, começar a tirar métricas da comunicação entre os serviços da malha e atingir objetivos de negócio. Assim como um SLO no futuro pode vir a se tornar algo do tipo: Com meu microserviço de análise de antifraude no ar, quero reduzir o número de chargebacks para menos de 0.05%. E assim vai...

Ainda não sabe por onde começar a medir? Comece com 10.

O número 10 é um número mágico que veio na minha cabeça agora. Simplesmente porque é ridículo e absurdo.

10% de erro é aceitável, e quero responder abaixo de 10s.

Soa ridículo, né? Eu sei. Mas pelo menos vai te ajudar a encontrar onde você está. Essa primeira métrica sendo fácil de bater, vai te ajudar a encontrar a saúde e estado atual da sua aplicação.

Depois que começar a medir e entender o seu cenário, logo após o primeiro ciclo de métricas, abaixe a régua pra onde faz sentido real pra você.

E depois do feijão com arroz...

O que podemos monitorar depois que fizemos o básico? Como podemos evoluir nossas métricas?

Monitoramento de disponibilidade e error rate por endpoints chaves;
Quantidade de requisições que passaram do response time acordado, além da média;
Custo por aplicação;
Disponibilidade por feature, como por exemplo, feature de emissão de boleto, cartão, emissão de notas fiscais, envio de email e etc
Error rate / Response time / Throughput baseado em padrões em dias do mês ou períodos do ano

Agradeço imensamente a todos que doaram uns 5 minutinhos do seu tempo pra revisar esse texto antes de ser publicado, foi de grande ajuda pra mim e eu agradeço de coração.

Espero que ele te ajude de alguma forma. Se te ajudou, conta pra mim!

Grande abraço!

12 comentários:

Felipe Hitomi12 de agosto de 2020 às 14:30
Muito interessante a postagem, foi simples mas com conceitos.
ResponderExcluir
Respostas
Victor Paulo13 de agosto de 2020 às 23:42
Parabéns ! Comecei a entender aqui sobre o assunto !
ResponderExcluir
Respostas
Fabio Costa15 de fevereiro de 2021 às 15:46
O mais simples e objetivo que eu encontrei até o momento. Parabéns!
ResponderExcluir
Respostas
Anônimo4 de março de 2021 às 05:30
Muito bom, parabéns!
ResponderExcluir
Respostas
Rui4 de março de 2021 às 09:10
Ajudou a enteder o conceito. Obrigado
ResponderExcluir
Respostas
Bruno Santos8 de março de 2021 às 04:45
Fantástico, simples e objetivo, suficiente para entender o assunto, parabéns
ResponderExcluir
Respostas
Giovanni Lima9 de abril de 2021 às 13:53
Muito bom!
ResponderExcluir
Respostas
mordp25 de maio de 2021 às 14:21
Muito Bom! Sinto falto as vezes de post objetivos e simples! Tem muitos tecniqueis que parece as vezes outro mundo...
ResponderExcluir
Respostas
apolzek1 de junho de 2021 às 11:28
Bem escrito, esclareceu bastante os termos !! ;)
ResponderExcluir
Respostas
Leo Sena29 de outubro de 2024 às 15:20
O mais simples e objetivo que eu encontrei até o momento. Parabéns!
ResponderExcluir
Respostas
Michael Gard23 de outubro de 2025 às 10:08
OPIPLJIVO SVJEDOČANSTVO O PLANIRANJU BOŽIĆNOG KREDITA..

Ovo nije uobičajena objava koju svakodnevno vidite na internetu kada ljudi daju lažna svjedočanstva i lažne informacije o velikoj financijskoj pomoći.. Svjestan sam da su mnogi od vas prevareni i da su lažni agenti iskoristili one koji traže kredite. Neću ovo nazvati normalnim svjedočanstvom, nazvat ću ovo situacijom u kojoj sam živi svjedok kako možete dobiti svoj kredit nakon što ispunite uvjete i odredbe tvrtke. Nije važno imate li dobar kreditni rejting ili odobrenje vlade, sve što vam treba je važeća osobna iskaznica i važeći IBAN broj kako biste mogli podnijeti zahtjev za kredit s kamatnom stopom od 3%. Minimalni iznos je 1000 eura, a maksimalni iznos koji se može posuditi je 100.000.000 eura. Dajem vam 100% jamstvo da možete dobiti svoj kredit putem ove pouzdane i poštene tvrtke, posluju 24 sata online i daju kredite svim građanima Europe i izvan Europe. Poslali su mi dokument koji je provjeren i testiran kao valjan prije nego što sam dobio kredit, stoga pozivam sve kojima je potreban kredit da posjete ili ih kontaktiraju putem
E-pošte: michaelgardloanoffice@gmail.com
WhatsApp za Europu: +385915608706
WhatsApp za SAD: +1 (717) 826-3251

Nakon što ih kontaktirate, obavijestite ih da vam je gospođa Dejana Ivica iz Zagreba dala informacije. Vidjeti znači vjerovati i zahvalit ćete mi kasnije kada dobijete kredit od njih. Dao sam obećanje da ću, nakon što dobijem kredit od njih, objaviti dobru vijest svima online. Ako imate prijatelja ili rodbinu, uključujući kolege, možete im reći o ovoj ponudi i da se događa u ovom BOŽIĆNOM DOBU.
ResponderExcluir
Respostas
Estela Maria8 de novembro de 2025 às 01:36
Sinto-me extremamente entusiasmado em apresentar ao mundo este grupo de hackers autorizados e peculiares. Palavras não são suficientes para expressar o nível de inteligência e profissionalismo deste lendário grupo de hackers, os "Legendwizardhackers". Eles são um grupo excepcional e consolidado de hackers éticos. Contate-os através do e-mail LEGENDWIZARDHACKERS@GMAIL.COM ou pelo WhatsApp: +5493416872686. Eles tornaram todos os problemas de hacking fáceis de resolver com suas equipes de hackers brilhantes, que possuem todos os softwares necessários para solucionar qualquer problema de hacking. Eles são verdadeiros magos no mundo do hacking. Eles são excepcionais nos seguintes serviços:
* Hackear notas escolares
* Hackear notas e históricos escolares universitários
* Hackear antecedentes criminais
* Hackear bancos de dados
* Venda de cartões de crédito clonados de todos os tipos
* Hackear computadores individuais
* Hackear sites
* Hackear dispositivos remotamente
* Hackear números descartáveis
* Hackear contas do PayPal verificadas
* Hackear qualquer conta de mídia social
* Hackear Android e iPhone
* Aumentar sua pontuação de crédito
* Hackear interceptação de mensagens de texto
* Hackear interceptação de e-mails
* Aumentar o tráfego do blog
* Hackear Skype
* Hackear contas bancárias
* Empréstimo grátis
* Hackear contas de e-mail
* Hackear sites que caem
* Ajuda para se inscrever nos ILLUMINATI e ficar famoso mais rápido
* Excluir vídeos do YouTube ou aumentar as visualizações
* Transferência escolar e falsificação de certificados
* Hackear servidores que caem
* Recuperação de arquivos ou documentos perdidos
* Hackear cartões de crédito
* Carregar bitcoins
* Para mais informações, entre em contato com a equipe de serviços pelo e-mail:
LEGENDWIZARDHACKERS@GMAIL.COM
Whatsapp +5493416872686.
Assim, você também poderá testemunhar sobre o bom trabalho deles e ter todos os seus problemas de invasão resolvidos de forma satisfatória, com máxima segurança e proteção.
ResponderExcluir
Respostas