Avanços no SageMaker AI durante 2025
Durante 2025, o SageMaker AI recebeu diversas melhorias voltadas para treinar, ajustar e hospedar cargas de trabalho de IA generativa. Na primeira parte desta série, foram abordadas as Planos de Treinamento Flexíveis e as melhorias de custo-desempenho para componentes de inferência. Este artigo foca nos aprimoramentos relacionados à observabilidade, customização de modelos e hospedagem de modelos, que habilitam uma nova classe de casos de uso para ser hospedada no SageMaker AI.
Observabilidade: Visibilidade granular e segurança em implantações
Os aprimoramentos de observabilidade implementados no SageMaker AI durante 2025 proporcionam visibilidade aprofundada sobre o desempenho dos modelos e a saúde da infraestrutura. As métricas melhoradas oferecem rastreamento granular em nível de instância e container, monitorando utilização de CPU, memória e GPU, além de métricas de desempenho de invocação com frequências de publicação configuráveis. Isso permite que equipes diagnostiquem problemas de latência e ineficiências de recursos que anteriormente ficavam ocultas pela agregação em nível de endpoint.
As atualizações progressivas de componentes de inferência transformam a segurança de implantação ao eliminar a necessidade de provisionamento de infraestrutura duplicada. As atualizações são implantadas em lotes configuráveis com monitoramento integrado do Amazon CloudWatch, que dispara rollbacks automáticos se problemas forem detectados, viabilizando implantações sem tempo de inatividade enquanto minimizam riscos por meio de validação gradual.
Métricas aprimoradas para diagnóstico preciso
O SageMaker AI introduziu métricas aprimoradas que fornecem visibilidade granular sobre o desempenho de endpoints e utilização de recursos em níveis de instância e container. Esta capacidade preenche uma lacuna crítica em observabilidade, permitindo que clientes diagnostiquem problemas de latência, falhas de invocação e ineficiências de recursos que antes eram obscurecidas pela agregação em nível de endpoint.
As métricas aprimoradas rastreiam utilização de CPU, memória e GPU em nível de instância, juntamente com métricas de desempenho de invocação como latência, erros e throughput, com dimensões de InstanceId para endpoints SageMaker. Para componentes de inferência, métricas em nível de container oferecem visibilidade no consumo de recursos de réplicas de modelo individuais, com dimensões de ContainerId e InstanceId. A frequência de publicação de métricas é configurável, fornecendo monitoramento quase em tempo real para aplicações críticas que requerem resposta rápida.
A ativação via self-service através de um simples parâmetro MetricsConfig na API CreateEndpointConfig reduz o tempo para obter insights, permitindo autodiagnóstico de problemas de desempenho. As métricas aprimoradas ajudam a identificar qual instância ou container específico requer atenção, diagnosticar distribuição desigual de tráfego entre hosts, otimizar alocação de recursos e correlacionar problemas de desempenho com recursos de infraestrutura específicos.
O recurso funciona perfeitamente com alarmes CloudWatch e políticas de escalamento automático, fornecendo monitoramento proativo e respostas automatizadas a anomalias de desempenho. Para ativar as métricas aprimoradas, adicione o parâmetro MetricsConfig ao criar sua configuração de endpoint:
response = sagemaker_client.create_endpoint_config(
EndpointConfigName='my-config',
ProductionVariants=[{...}],
MetricsConfig={
'EnableEnhancedMetrics': True,
'MetricPublishFrequencyInSeconds': 60 # Suportados: 10, 30, 60, 120, 180, 240, 300
}
)
As métricas aprimoradas estão disponíveis em todas as regiões da AWS, tanto para endpoints de modelo único quanto para componentes de inferência, proporcionando observabilidade abrangente para implantações de IA em produção em escala.
Atualizações progressivas com proteção contra falhas
O SageMaker AI introduziu atualizações progressivas para componentes de inferência, transformando como você pode implantar atualizações de modelo com segurança e eficiência aprimoradas. Implantações tradicionais de blue/green requerem provisionamento de infraestrutura duplicada, criando restrições de recursos — particularmente para cargas de trabalho pesadas em GPU, como modelos de linguagem grandes.
As atualizações progressivas implantam novas versões de modelo em lotes configuráveis enquanto dimensionam a infraestrutura dinamicamente, com alarmes CloudWatch integrados monitorando métricas para disparar rollbacks automáticos se problemas forem detectados. Esta abordagem alivia a necessidade de provisionar frotas duplicadas, reduz o overhead de implantação e ativa atualizações sem tempo de inatividade por meio de validação gradual que minimiza riscos mantendo disponibilidade.
Para mais detalhes, consulte Enhance deployment guardrails with inference component rolling updates for Amazon SageMaker AI inference.
Usabilidade: Removendo complexidade e acelerando o time-to-value
Os aprimoramentos de usabilidade do SageMaker AI focam em remover complexidade e acelerar o tempo para agregar valor para equipes de IA. A customização de modelo serverless reduz o tempo de planejamento de infraestrutura pelo provisionamento automático de recursos de computação baseado no tamanho do modelo e dados, suportando técnicas avançadas como aprendizado por reforço de recompensas verificáveis (RLVR) e aprendizado por reforço de feedback de IA (RLAIF) por meio de fluxos de trabalho baseados em interface e código com rastreamento de experimentos MLflow integrado.
O streaming bidirecional ativa aplicações multimodais em tempo real mantendo conexões persistentes onde dados fluem simultaneamente em ambas as direções — transformando casos de uso como agentes de voz e transcrição ao vivo de trocas transacionais em conversas contínuas. A conectividade aprimorada por meio de suporte abrangente a AWS PrivateLink em todas as regiões e compatibilidade IPv6 garante que implantações empresariais possam atender requisitos rigorosos de conformidade enquanto futuro-prova arquiteturas de rede.
Customização serverless de modelos
A nova capacidade de customização serverless do SageMaker AI aborda um desafio crítico enfrentado por organizações: o processo extenso e complexo de ajuste fino de modelos de IA, que tradicionalmente leva meses e requer expertise significativa em gerenciamento de infraestrutura. Muitas equipes enfrentam dificuldades ao selecionar recursos de computação apropriados, gerenciar a complexidade técnica de técnicas avançadas de ajuste fino como aprendizado por reforço, e navegar pelo fluxo de trabalho completo desde seleção de modelo até avaliação e implantação.
Esta solução serverless remove essas barreiras ao provisionar automaticamente os recursos de computação corretos baseado no tamanho do modelo e dados, possibilitando equipes focarem no ajuste de modelo em vez de gerenciamento de infraestrutura, acelerando o processo de customização. A solução suporta modelos populares incluindo Amazon Nova, DeepSeek, GPT-OSS, Llama e Qwen, fornecendo fluxos de trabalho de customização baseados em interface e código que tornam técnicas avançadas acessíveis para equipes com níveis variados de expertise técnica.
A solução oferece múltiplas técnicas de customização avançada, incluindo ajuste fino supervisionado, otimização de preferência direta, RLVR e RLAIF. Cada técnica otimiza modelos de formas diferentes, com seleção influenciada por fatores como tamanho e qualidade do dataset, recursos computacionais disponíveis, requisitos de tarefa, níveis de precisão desejados e restrições de implantação.
A solução inclui rastreamento de experimentos integrado via MLflow serverless para logging automático de métricas críticas sem modificações de código, ajudando equipes monitorar e comparar desempenho de modelo durante o processo de customização. A flexibilidade de implantação é uma característica-chave, com opções para implantar em Amazon Bedrock para inferência serverless ou endpoints SageMaker AI para gerenciamento controlado de recursos.
A solução inclui capacidades de avaliação de modelo integradas para comparar modelos customizados contra modelos base, um playground interativo para testes com prompts ou modo chat, e integração perfeita com o ambiente mais amplo do Amazon SageMaker Studio. Este fluxo de trabalho completo — desde seleção de modelo e customização até avaliação e implantação — é tratado inteiramente em uma interface unificada.
Atualmente disponível nas regiões US East (N. Virginia), US West (Oregon), Asia Pacific (Tokyo) e Europe (Ireland), o serviço opera em modelo de cobrança por token tanto para treinamento quanto inferência. Esta abordagem de preço torna rentável para organizações de diferentes tamanhos customizar modelos de IA sem investimentos de infraestrutura antecipada, e a arquitetura serverless garante que equipes possam dimensionar seus esforços de customização de modelo baseado em uso real em vez de capacidade provisionada.
Para mais informações sobre esta capacidade central, consulte New serverless customization in Amazon SageMaker AI accelerates model fine-tuning.
Streaming bidirecional para inferência em tempo real
O SageMaker AI introduziu a capacidade de streaming bidirecional durante 2025, transformando inferência de trocas transacionais em conversas contínuas entre usuários e modelos. Este recurso ativa dados para fluir simultaneamente em ambas as direções por uma única conexão persistente, suportando casos de uso multimodais em tempo real variando desde transcrição e tradução de áudio até agentes de voz.
Diferente de abordagens tradicionais onde clientes enviam questões completas e esperam por respostas completas, o streaming bidirecional permite que fala e respostas fluam concorrentemente — usuários veem resultados assim que modelos iniciam gerá-los, e modelos mantêm contexto através de streams contínuos sem reenviarem histórico de conversa.
A implementação combina protocolos HTTP/2 e WebSocket, com a infraestrutura SageMaker gerenciando conexões eficientemente multiplexadas de clientes através de roteadores até containers de modelo. O recurso suporta implementações bring-your-own-container e integrações com parceiros, com Deepgram servindo como parceiro de lançamento oferecendo seu modelo Nova-3 de fala-para-texto através do AWS Marketplace.
Esta capacidade aborda requisitos empresariais críticos para aplicações de IA de voz em tempo real — particularmente para organizações com necessidades de conformidade rigorosa requerendo processamento de áudio permanecer dentro de sua nuvem privada virtual da Amazon (VPC) — enquanto remove o overhead operacional tradicionalmente associado com soluções de IA em tempo real auto-hospedadas.
A abordagem de conexão persistente reduz overhead de infraestrutura de handshakes TLS e gerenciamento de conexão, substituindo conexões de curta duração com sessões eficientes de longa duração. Desenvolvedores podem implementar streaming bidirecional através de duas abordagens: construir containers customizados que implementam o protocolo WebSocket em ws://localhost:8080/invocations-bidirectional-stream com o rótulo Docker apropriado (com.amazonaws.sagemaker.capabilities.bidirectional-streaming=true), ou implantar soluções pré-construídas de parceiros como o modelo Nova-3 da Deepgram diretamente do AWS Marketplace.
O recurso requer containers para processar quadros de dados WebSocket recebidos e enviar quadros de resposta de volta ao SageMaker, com implementações de amostra disponíveis em Python e TypeScript. Para mais detalhes, consulte Introducing bidirectional streaming for real-time inference on Amazon SageMaker AI.
Conectividade empresarial: IPv6 e PrivateLink
O SageMaker AI expandiu suas capacidades de conectividade durante 2025 com suporte abrangente a PrivateLink em todas as regiões e compatibilidade IPv6 tanto para endpoints públicos quanto privados. Estes aprimoramentos melhoram significativamente a acessibilidade e postura de segurança do serviço para implantações empresariais.
A integração PrivateLink torna possível acessar endpoints SageMaker AI de forma privada a partir de suas VPCs sem percorrer a internet pública, mantendo o tráfego dentro da infraestrutura de rede da AWS. Isto é particularmente valioso para organizações com requisitos rigorosos de conformidade ou políticas de residência de dados que demandam conectividade privada para cargas de trabalho de aprendizado de máquina.
A adição de suporte IPv6 para endpoints SageMaker AI aborda a necessidade crescente de endereçamento IP moderno conforme organizações transitam do IPv4. Você pode agora acessar serviços SageMaker AI usando endereços IPv6 tanto para endpoints públicos quanto para endpoints VPC privados, fornecendo flexibilidade no design de arquitetura de rede e futuro-prova investimentos em infraestrutura. A capacidade de dual-stack (suportando IPv4 e IPv6) facilita compatibilidade retroativa enquanto ajuda organizações adotar IPv6 em seu próprio ritmo.
Combinados com PrivateLink, estes aprimoramentos de conectividade tornam o SageMaker AI mais acessível e seguro para ambientes de rede empresariais diversos, desde centros de dados tradicionais on-premises conectando usando AWS Direct Connect até arquiteturas modernas baseadas em nuvem construídas inteiramente em IPv6.
Conclusão
Os aprimoramentos de 2025 no SageMaker AI representam um avanço significativo em tornar cargas de trabalho de IA generativa mais observáveis, confiáveis e acessíveis para clientes empresariais. De métricas de desempenho granulares que identificam gargalos de infraestrutura até customização serverless, estes aprimoramentos tratam desafios do mundo real que equipes enfrentam ao implantar IA em escala. A combinação de observabilidade aprimorada, mecanismos de implantação mais seguros e fluxos de trabalho simplificados capacita organizações a se moverem mais rápido mantendo os padrões de confiabilidade e segurança requeridos para sistemas em produção.
Essas capacidades estão disponíveis agora em todas as regiões, com recursos como métricas aprimoradas, atualizações progressivas e customização serverless prontos para transformar como você constrói e implanta aplicações de IA. Se você está ajustando modelos para tarefas específicas de domínio, construindo agentes de voz em tempo real com streaming bidirecional, ou facilitando segurança de implantação com atualizações progressivas e monitoramento integrado, o SageMaker AI fornece as ferramentas para acelerar sua jornada de IA enquanto reduz complexidade operacional.
Começando agora
Para explorar estas capacidades, consulte a documentação de métricas aprimoradas, experimente a customização de modelo serverless, ou implemente o streaming bidirecional para suas cargas de trabalho de inferência em tempo real. Para orientação abrangente sobre implementação desses recursos, consulte a Documentação do Amazon SageMaker AI ou entre em contato com sua equipe de conta da AWS para discutir como estas capacidades podem suportar seus casos de uso específicos.
Fonte
Amazon SageMaker AI in 2025, a year in review part 2: Improved observability and enhanced features for SageMaker AI model customization and hosting (https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-in-2025-a-year-in-review-part-2-improved-observability-and-enhanced-features-for-sagemaker-ai-model-customization-and-hosting/)