Estratégias de Expansão para o AWS Directory Service gerenciado de Active Directory

Entendendo as capacidades do serviço gerenciado de Active Directory

O AWS Directory Service para Microsoft Active Directory oferece às organizações a possibilidade de utilizar um Active Directory gerenciado como floresta primária para hospedar identidades de usuários. Essa abordagem permite que os times de infraestrutura continuem utilizando suas competências e aplicações existentes, enquanto a organização se beneficia dos atributos de segurança, confiabilidade e escalabilidade próprios dos serviços gerenciados pela AWS.

O serviço também pode ser configurado como uma floresta de recursos. Nessa topologia, o Active Directory gerenciado funciona como intermediário para serviços AWS compatíveis, enquanto as identidades dos usuários permanecem sob controle exclusivo da organização em um Active Directory auto-gerenciado. Essa flexibilidade arquitetural permite que diferentes cenários de negócio sejam atendidos com segurança.

O desafio do crescimento e escalabilidade

À medida que as organizações expandem suas operações, também crescem as demandas sobre suas infraestruturas de diretório. Workflows mais complexos e um volume maior de usuários exigem que o serviço de Active Directory seja ajustado adequadamente para manter performance e confiabilidade.

A AWS simplifica esse processo de escalabilidade oferecendo duas estratégias principais: scale-up (também chamado de upgrade) e scale-out (expansão do número de instâncias). Compreender quando e como aplicar cada uma dessas estratégias é fundamental para otimizar custos e desempenho.

As duas estratégias de escalabilidade

Scale-up: Upgradando a edição do serviço

O scale-up consiste em atualizar a edição do AWS Managed Microsoft AD de Standard para Enterprise. A edição Enterprise fornece controladores de domínio com maior capacidade computacional e armazenamento ampliado para objetos do Active Directory. Durante um upgrade, o serviço mantém o mesmo número de instâncias de controlador de domínio que havia antes, mas com recursos maiores e quotas aumentadas.

As instâncias são substituídas uma por vez para minimizar interrupções nos workflows de produção. Algumas funcionalidades do serviço são exclusivas da edição Enterprise e requerem esse upgrade obrigatoriamente.

Considere realizar um scale-up quando enfrentar qualquer um destes cenários:

Quando há planos para replicar o diretório em múltiplas regiões AWS. Essa capacidade está disponível apenas na edição Enterprise.
Quando o número de objetos no Active Directory ultrapassará o limite recomendado de 30.000 para a edição Standard. A edição Enterprise suporta até 500.000 objetos.
Quando há necessidade de compartilhar o diretório com mais de 25 contas AWS diferentes. O limite padrão da Standard é 25 contas, enquanto a Enterprise permite 500 contas.

Importante: A atualização de Standard para Enterprise é irreversível e implica um custo horário maior. Por isso, essa decisão deve ser bem planejada.

Scale-out: Adicionando mais controladores de domínio

O scale-out refere-se ao lançamento de controladores de domínio adicionais para o AWS Managed Microsoft AD. Diferentemente do scale-up, essa estratégia pode ser aplicada tanto em diretórios Standard quanto Enterprise. Além disso, cada região pode ser escalada independentemente, não sendo necessário ampliar uniformemente todas as regiões.

Quando uma operação de scale-out ocorre, novas instâncias de controlador de domínio com os mesmos recursos computacionais e capacidade de armazenamento são iniciadas nas mesmas subnets existentes. A vantagem do scale-out é que essa operação pode ser revertida se necessário, ao contrário do scale-up.

Por esse motivo, recomenda-se privilegiar o scale-out como primeira opção, reservando o scale-up apenas para situações em que uma funcionalidade exclusiva da Enterprise seja absolutamente necessária.

Fluxo de decisão para escalabilidade de Active Directory — demonstrando como monitoramento contínuo via CloudWatch guia as decisões entre scale-out e scale-up. Fonte: Aws

Tomando decisões informadas com CloudWatch

Desde dezembro de 2021, o AWS Managed Microsoft AD integra métricas de diretório com Amazon CloudWatch, permitindo uma visão profunda do desempenho do serviço. As métricas do CloudWatch são conjuntos de dados ordenados no tempo que representam indicadores de desempenho e podem ser analisadas ao longo do período para identificar tendências.

Para entender adequadamente o desempenho do diretório, é essencial definir métricas-chave relevantes para sua carga de trabalho no momento da criação do diretório. Os valores iniciais dessas métricas devem ser registrados para estabelecer uma baseline de desempenho. Posteriormente, esses dados devem ser revisitados periodicamente para comparação, permitindo identificar tendências de crescimento e utilização de recursos.

Combinando essas informações — baseline inicial e comparações periódicas — é possível tomar decisões embasadas sobre quando escalar e qual estratégia aplicar. Esse processo cíclico de monitoramento, análise e planejamento é fundamental para manter a eficiência operacional.

Métricas críticas de infraestrutura

A perspectiva de infraestrutura revela três recursos mais comumente constrangidos:

Network Interface: Current Bandwidth — utilização da largura de banda disponível na rede
Processor: % Processor Time — percentual de tempo que o processador está ocupado
LogicalDisk: % Free Space — espaço livre disponível em volumes que armazenam dados do Active Directory

Métricas críticas do Active Directory

A perspectiva do serviço de diretório aponta para métricas como:

NTDS: LDAP Searches/sec — volume de buscas LDAP por segundo
NTDS: ATQ Estimated Queue Delay — atraso estimado na fila de processamento

Matriz de decisão por restrição identificada

Quando uma métrica revela constrangimento de recursos, essa informação orienta diretamente a estratégia de escalabilidade a ser adotada. Por exemplo:

Se % Processor Time estiver elevado → Scale-out
Se I/O Database Reads Average Latency estiver elevada → Scale-out
Se Committed Bytes in Use estiver elevado → Scale-out
Se % Free Space estiver baixo → Scale-up

Como exemplo prático: um alarme do CloudWatch pode ser configurado para disparar quando Processor: % Processor Time ultrapasse 80% por mais de 5 minutos. Disparos frequentes desse alarme indicam que os controladores de domínio têm dificuldade em processar o volume regular de requisições de autenticação de usuários. Nessa situação, um scale-out com um controlador de domínio adicional pode garantir que o Acordo de Nível de Serviço (SLA) seja mantido.

Por outro lado, se LogicalDisk: % Free Space cair abaixo de 10% com tendência de queda contínua, um scale-up para Enterprise Edition pode ser apropriado, já que oferece capacidade maior para objetos do diretório.

Criando um dashboard no CloudWatch

Para facilitar o acompanhamento e análise do desempenho do AWS Managed Microsoft AD, a AWS recomenda usar CloudWatch para construir um dashboard personalizado contendo as métricas mais relevantes.

Pré-requisitos necessários

Antes de começar, certifique-se de ter em lugar:

Uma conta AWS
Um usuário ou papel AWS Identity and Access Management (IAM) com permissões para operações de AWS Directory Service e CloudWatch
Uma Amazon Virtual Private Cloud (VPC) configurada em cada região
Pelo menos duas subnets privadas na VPC
Um diretório AWS Managed Microsoft AD já criado

Passo a passo para criar o dashboard

Com os pré-requisitos em lugar, siga estes passos:

Acesse o Console de Gerenciamento AWS para CloudWatch.
No painel de navegação, selecione Dashboards e em seguida Criar dashboard.
Na caixa de diálogo de criação, insira um nome para o dashboard e selecione Criar dashboard.
Quando a janela Adicionar widget aparecer, configure como segue:
- Em Tipos de fontes de dados, selecione CloudWatch
- Em Tipo de dados, selecione Métricas
- Em Tipo de widget, selecione Linha
- Selecione Próximo
Na janela Adicionar gráfico de métrica, escolha DirectoryService.
Selecione Processor como categoria de métrica e % Processor Time como nome da métrica.
Selecione cada instância da métrica (representada pelo IP do controlador de domínio) para um Directory ID.
Selecione Criar widget.

Nota: Se houver múltiplos diretórios na mesma região, todas as instâncias (IPs dos controladores de domínio) estarão disponíveis para seleção. Recomenda-se criar um dashboard separado para cada diretório, facilitando o monitoramento e gerenciamento de alarmes.

Após criar o primeiro widget, selecione o símbolo de adição (+) no topo da janela para adicionar mais widgets. Repita o processo anterior para incluir as seguintes métricas adicionais:

Processor: % Processor Time
LogicalDisk: % Free Space
Memory: Committed Bytes in Use
Database: I/O Database Reads Average Latency
Network Interface: Current Bandwidth
DNS: Recursive Queries/Sec

Depois de adicionar todas as métricas desejadas, selecione Salvar.

Configurando alarmes no CloudWatch (opcional)

Com o dashboard em lugar, considere configurar alarmes do CloudWatch para ser notificado quando uma métrica atingir ou ultrapassar um limite específico. Para mais detalhes, consulte a documentação sobre criar alarmes CloudWatch com limiares estáticos e adicionar alarmes a dashboards CloudWatch.

A AWS fornece recomendações de limiares para guiar as decisões de escalabilidade. Estes são valores de referência baseados em casos de uso padrão e podem precisar de ajuste conforme as características específicas de cada organização:

Processor: % Processor Time — Configure alarmes em 80% para um período de 5 minutos. Valores persistentemente elevados sugerem problemas de dimensionamento que podem exigir scale-out.
LogicalDisk: % Free Space — Mantenha pelo menos 25% de espaço livre em volumes contendo dados do Active Directory. Configure alarmes para disparar quando o espaço livre cair abaixo de 20%, pois isso pode impactar severamente as operações do diretório.
Network Interface: Current Bandwidth — A utilização média de rede deve ficar abaixo de 50% da largura de banda disponível durante operações de pico. Configure alarmes em 70% para deixar espaço para picos de atividade. Valores consistentemente elevados sugerem restrições de rede que podem exigir scale-out.
Memory: Committed Bytes in Use — Monitore os níveis de memória comprometida para garantir recursos suficientes. Configure alarmes em 80% do limite de comprometimento. Valores persistentemente elevados podem levar a paginação excessiva, degradando significativamente o desempenho e causando atrasos em autenticações.
Database: I/O Database Reads Average Latency — Mantenha latências médias de leitura abaixo de 25 milissegundos. Configure alarmes em 50 milissegundos. Se latências estiverem consistentemente elevadas, considere um scale-out.
DNS: Recursive Queries/sec — Dada a integração profunda do Active Directory com DNS, use detecção de anomalias do CloudWatch em vez de limiares fixos para identificar comportamentos inesperados que possam indicar problemas de configuração ou preocupações de segurança.

Considerações após escalabilidade

Diferentes componentes da arquitetura podem manter referências aos endereços IP do AWS Managed Microsoft AD. Após uma operação de scale-out que implante controladores de domínio adicionais, essas referências devem ser atualizadas para manter a funcionalidade completa dos workloads.

Referências que podem conter IPs do diretório incluem:

Para manter a funcionalidade completa dos workloads após uma operação de escalabilidade, atualize:

Regras de firewall que permitam tráfego para e dos endereços IP dos controladores de domínio
Regras de endpoint do Route 53 Resolver e forwarders DNS condicionais que encaminhem queries para as instâncias do diretório
Dashboards CloudWatch que exibam dados de métricas do diretório para incluir dimensões dos novos endereços IP

Limpeza de recursos

Os componentes criados durante esse processo geram custos. Para evitar encargos adicionais quando não forem mais necessários:

Remova os endereços IP dos controladores de domínio adicionados das regras de firewall, regras de endpoint do resolver e forwarders DNS condicionais
Exclua os dashboards CloudWatch customizados que não planeja manter
Reverta diretórios escalados para o número anterior de instâncias de controladores de domínio

Conclusão

O monitoramento contínuo do desempenho usando CloudWatch é a base para decisões informadas sobre escalabilidade de diretórios. Combinando baselines de desempenho, análises periódicas e planejamento estruturado, as organizações podem escalar seus diretórios de forma segura e eficiente.

O scale-out do diretório é apropriado quando workflows de Active Directory cresceram ao longo do tempo e a solução necessita de instâncias adicionais de controladores de domínio para manter o SLA do serviço. O scale-up para Enterprise Edition é indicado quando funcionalidades exclusivas dessa edição — como replicação multi-region ou armazenamento ampliado para objetos do diretório — tornam-se necessárias.

Utilizando as capacidades flexíveis de escalabilidade e expansão independente por região, as organizações podem otimizar custos enquanto mantêm níveis apropriados de serviço. Para aprofundar conhecimento sobre otimização e monitoramento do AWS Managed Microsoft AD, consulte as melhores práticas do AWS Managed Microsoft AD e a documentação sobre como determinar quando adicionar controladores de domínio usando métricas do CloudWatch.

Fonte

Explore scaling options for AWS Directory Service for Microsoft Active Directory (https://aws.amazon.com/blogs/security/explore-scaling-options-for-aws-directory-service-for-microsoft-active-directory/)