Triagem de incidentes: um problema de coordenação entre ferramentas
Quando um incidente acontece em produção, os Engenheiros de Confiabilidade de Site (SREs) e engenheiros de suporte precisam agir rápido — e o problema é que as evidências estão espalhadas em ferramentas diferentes. Coletar logs, avaliar o impacto para os usuários e registrar o acompanhamento em um sistema de tarefas são etapas que, feitas manualmente, consomem tempo precioso e aumentam o risco de perda de contexto entre turnos.
A AWS publicou um tutorial que mostra como resolver exatamente esse problema usando o Amazon Quick em conjunto com o Servidor de Protocolo de Contexto de Modelo (MCP) do New Relic e o Asana. A proposta é coordenar todas essas etapas de investigação e handoff em um único fluxo de trabalho conversacional.
O que é o Amazon Quick e como ele se conecta ao New Relic
O Amazon Quick é uma plataforma da AWS que permite criar agentes de chat capazes de explorar dados e executar ações por meio de conversas abertas. Esses agentes são conectados a serviços externos por meio de conectores de ação — integrações pré-construídas que ligam o Amazon Quick a ferramentas do ecossistema corporativo.
O New Relic já é um conector nativo do Amazon Quick, o que simplifica bastante a configuração. Ele dá ao agente acesso a ferramentas de raciocínio de IA voltadas para resposta a incidentes e análise de desempenho. O Asana também é um conector nativo, utilizado para criação de tarefas. O agente orquestra os dois, produzindo um relatório de Análise de Causa Raiz (RCA) e uma tarefa no Asana a partir de um único prompt.
As cinco ferramentas de raciocínio do New Relic
O agente de triagem utiliza cinco ferramentas do New Relic para conduzir a investigação. O próprio agente decide quais chamar com base no prompt recebido:
- generate_alert_insights_report: identifica os principais gatilhos de alertas.
- generate_user_impact_report: quantifica o raio de impacto, incluindo número de usuários e serviços afetados.
- analyze_entity_logs: exibe assinaturas de erro e exceções nos logs.
- analyze_transactions: identifica requisições lentas ou com falha.
- natural_language_to_nrql_query: converte perguntas em linguagem natural para a Linguagem de Consulta do New Relic (NRQL) e as executa contra os dados de observabilidade.
O fluxo completo vai de um prompt do engenheiro de plantão até a criação automática de uma tarefa no Asana, passando pela chamada sequencial das ferramentas do New Relic e pela montagem do relatório de RCA com links de evidências.
Pré-requisitos para montar a solução
Antes de começar a implementação, é necessário ter em mãos os acessos corretos nas três plataformas envolvidas:
- Amazon Quick: É necessária uma assinatura Professional. O usuário precisa ter permissões de Author ou superior para criar integrações e agentes de chat. Consulte os detalhes de preços do Amazon Quick para entender os planos disponíveis.
- New Relic: O conector do New Relic já está integrado ao Amazon Quick. A autenticação é feita com as credenciais da conta New Relic existente durante a configuração do conector.
- Asana: É preciso ter um workspace com um projeto chamado SRE Incident Triage e acesso administrativo para criar uma aplicação OAuth no console de desenvolvedor do Asana, obtendo assim as credenciais necessárias.
Implementação passo a passo
Passo 1: Configurar a integração com o New Relic
O New Relic está disponível como conector nativo no console de Integrações do Amazon Quick. O processo consiste em navegar até a aba de Ações, localizar o tile do New Relic e iniciar a configuração. Na tela de criação da integração, basta informar um nome e uma descrição opcional, manter o tipo de conexão como rede pública e prosseguir. A autenticação com a conta New Relic é feita em uma etapa posterior, na página de detalhes da integração, onde também ficam disponíveis as ações suportadas e as URLs de conexão.
Passo 2: Configurar a integração com o Asana
O conector do Asana utiliza OAuth 2.0. Antes de configurá-lo no Amazon Quick, é necessário criar uma aplicação OAuth no console de desenvolvedor do Asana para obter o Client ID e o Client Secret. Em seguida, no Amazon Quick, acesse Integrações → Ações e selecione o Asana. Os valores necessários para preencher são:
- Base URL:
https://app.asana.com/api/1.0 - URL de Autorização:
https://app.asana.com/-/oauth_authorize - URL de Redirecionamento: copiar da tela de configuração do Amazon Quick e colar nas URLs de redirecionamento permitidas do aplicativo OAuth no Asana.
- Client ID e Client Secret: obtidos na aplicação OAuth do Asana.
Para instruções completas, a documentação oficial está disponível no guia de integração com o Asana no Amazon Quick User Guide.
Passo 3: Criar o agente de triagem de incidentes
Com as duas integrações configuradas, o próximo passo é criar o agente de chat. No Amazon Quick, acesse Chat agents, clique em Create chat agent, defina um nome e uma finalidade para o agente. Para instruções detalhadas de criação, consulte a documentação de agentes de chat personalizados no Amazon Quick User Guide.
Na seção de Ações do construtor de agentes, é preciso vincular as duas integrações criadas anteriormente — New Relic e Asana. Depois disso, substitua as instruções geradas automaticamente pelo seguinte bloco de instruções, que define o comportamento completo do agente:
You are the Incident triage assistant.
Primary job
Help on-call engineers triage incidents using New Relic reasoning tools.
When the investigation is complete, create an Asana task with the RCA brief.
How to respond
Keep responses concise and operational. Do not guess. Use tool outputs as evidence.
If inputs are missing, ask for: service or entity name, environment, and time window.
Default RCA brief format:
Summary (1-2 lines)
Blast radius
Likely trigger
Key evidence (bullets with links)
Recommended next actions (3 bullets)
Tool routing: New Relic investigation
alert fired, key drivers, signals changed -> generate_alert_insights_report
blast radius, customer impact, users affected -> generate_user_impact_report
logs, error signature, exceptions, anomalies -> analyze_entity_logs
slow requests, latency, transactions -> analyze_transactions
segmentation by region, version, endpoint -> natural_language_to_nrql_query
Tool routing: output
After generating the RCA brief -> create an Asana task.
Task fields: Name = incident title, Notes = full RCA brief with evidence links,
Due date = today, Tags = [sre-triage, incident].
Confirm the Asana project name with the user if not already known.
Output rules
If a tool call fails (permissions, timeout, missing entity), state what failed
and what input you need next.
Do not include PII, customer identifiers, user IDs, email addresses, IP addresses,
session tokens, raw credentials, internal hostnames, infrastructure topology details,
database connection strings, or environment variables in the RCA brief or Asana task notes.
Passo 4: Testar o fluxo completo
Com o agente criado e as integrações vinculadas, basta abrir o assistente de triagem no Amazon Quick e enviar o seguinte prompt para iniciar uma investigação:
"Checkout is slow and we are seeing server errors on checkout-service in production. Check the last 24 hours. Generate RCA brief."
O agente chama as cinco ferramentas de raciocínio do New Relic em sequência, monta o relatório de RCA com resumo, raio de impacto, provável gatilho, evidências com links e três próximas ações recomendadas. Em seguida, pergunta ao engenheiro se pode criar a tarefa no Asana. Para confirmar, basta responder:
"Yes, create an Asana task in project SRE Incident Triage with this RCA brief."
O agente então cria a tarefa no projeto indicado, com o relatório completo nas notas, pronta para handoff.
Segurança e governança: pontos de atenção
Antes de disponibilizar o agente para toda a rotação de plantão, a AWS recomenda atenção a alguns pontos importantes de segurança:
- Menor privilégio para o New Relic: O conector do New Relic opera com as permissões da conta autenticada. O recomendado é usar uma conta de serviço dedicada com a função de somente leitura padrão do New Relic, ou uma função personalizada limitada ao acesso de leitura de APM (Monitoramento de Desempenho de Aplicação), logs, alertas, entidades e NRQL. Credenciais de administrador completo não devem ser usadas.
- Escopo de permissões do Asana: Use uma conta de serviço dedicada no Asana com acesso de criação de tarefas limitado ao projeto SRE Incident Triage. Os escopos OAuth do aplicativo devem incluir apenas o necessário:
tasks:write,tasks:read,projects:readeworkspaces:read. - Dados sensíveis nas notas de tarefas: As notas das tarefas do Asana devem ser tratadas como um resumo de handoff, não como uma exportação bruta de dados de incidentes. Não devem constar Informações de Identificação Pessoal (PII), identificadores de clientes, IDs de usuários, endereços de e-mail, endereços IP, tokens de sessão, hostnames internos, detalhes de topologia de infraestrutura, strings de conexão de banco de dados, variáveis de ambiente ou credenciais brutas.
- Armazenamento de credenciais: Rotacione as credenciais OAuth do New Relic e do Asana de acordo com a política de rotação de chaves da organização.
- Auditoria: O Amazon Quick registra as invocações dos conectores de ação, o que facilita o rastreamento das ações realizadas pelo agente.
Limpeza dos recursos
Para quem construiu a solução como protótipo e deseja evitar cobranças contínuas, a AWS indica remover os seguintes recursos:
- No Amazon Quick: excluir o agente de chat personalizado.
- No Amazon Quick: excluir os conectores de integração do New Relic e do Asana.
- No console de desenvolvedor do Asana: revogar as credenciais da aplicação OAuth criada para a integração.
- Rotacionar ou excluir quaisquer credenciais de teste utilizadas durante a configuração, seguindo a política de segurança da organização.
Conclusão
O tutorial publicado pela AWS demonstra como o Amazon Quick pode ser usado para eliminar a coordenação manual entre o sistema de observabilidade e o sistema de rastreamento de tarefas durante um incidente. Com um único prompt, o agente chama as cinco ferramentas de raciocínio do New Relic, monta um relatório de RCA padronizado com links de evidências e cria uma tarefa rastreável no Asana pronta para handoff.
O benefício vai além da velocidade: cada investigação produz um formato de RCA consistente, independentemente de quem está de plantão, tornando as trocas de turno mais rápidas e as análises pós-mortem mais diretas. Para começar, a AWS indica seguir o artigo de integração do New Relic para o Amazon Quick e o Amazon Quick User Guide.
Fonte
Build an agentic incident triage assistant with Amazon Quick and New Relic (https://aws.amazon.com/blogs/machine-learning/build-an-agentic-incident-triage-assistant-with-amazon-quick-and-new-relic/)
Leave a Reply