Implantações Otimizadas por Caso de Uso no SageMaker JumpStart

Acesso Rápido a Modelos Pré-treinados para IA

O Amazon SageMaker JumpStart oferece uma biblioteca de modelos pré-treinados que abrangem diversos tipos de problemas, facilitando o início de projetos de inteligência artificial. A plataforma disponibiliza soluções para os principais casos de uso, que podem ser implantadas em endpoints de Inferência Gerenciada do SageMaker AI ou em clusters SageMaker HyperPod. Com opções de implantação pré-configuradas, os usuários conseguem transitar rapidamente da seleção do modelo até sua colocação em produção.

O Desafio das Implantações Genéricas

As implantações através do SageMaker JumpStart sempre foram rápidas e diretas. Os clientes podiam selecionar opções baseadas no número esperado de usuários simultâneos, mantendo visibilidade sobre métricas como latência P50, tempo até o primeiro token (TTFT) e vazão (tokens por segundo por usuário).

Porém, as opções de configuração de usuários simultâneos, embora úteis para cenários genéricos, não levariam em conta as características específicas das tarefas. A AWS reconheceu que clientes utilizam o SageMaker JumpStart para aplicações bastante distintas e especializadas — geração de conteúdo, resumização de textos, sistemas de perguntas e respostas, entre outras. Cada uma dessas aplicações demanda configurações particulares para otimizar desempenho.

Além disso, a definição de “desempenho” vai além da latência. Alguns clientes priorizam vazão, enquanto outros buscam minimizar o custo por token. Essas variações exigiam abordagens de implantação mais granulares e direcionadas.

Implantações Otimizadas por Caso de Uso

Respondendo a essas necessidades, a AWS anunciou o lançamento das implantações otimizadas do SageMaker JumpStart. Essa capacidade oferece configurações de implantação pré-definidas, cada uma elaborada especificamente para um caso de uso determinado, resolvendo a demanda por customização clara e direta.

Os clientes mantêm o mesmo nível de transparência sobre os detalhes de suas implantações propostas, mas agora as configurações são otimizadas para o caso de uso específico e para a restrição de desempenho desejada. Essa abordagem combina facilidade de uso com precisão técnica.

Preparação para Começar

Para utilizar as implantações otimizadas do SageMaker JumpStart, são necessários os seguintes pré-requisitos:

Uma conta AWS
Um domínio SageMaker Studio
Uma função AWS Identificação e Gerenciamento de Acesso (IAM) que permita criar um modelo e um endpoint

Com esses componentes em lugar, os usuários podem começar a usar as implantações otimizadas imediatamente.

Iniciando uma Implantação Otimizada

O processo de configuração é direto. Primeiro, abre-se o SageMaker Studio e acessa-se a seção de Modelos. Em seguida, seleciona-se um dos modelos que suportam implantações otimizadas (listados na próxima seção) e clica-se em “Deploy” no canto superior direito.

A tela que se abre apresenta uma nova seção expansível denominada “Performance”, que contém as opções para implantações otimizadas. Antes de mais nada, pede-se ao usuário que escolha um caso de uso. Para modelos baseados em texto, esses casos de uso podem variar desde escrita generativa até interações em estilo de chat. Suporte para imagem e vídeo virá com futuras atualizações.

Após selecionar o caso de uso, o usuário precisa escolher uma das três otimizações de restrição: Otimizado para Custo, Otimizado para Vazão e Otimizado para Latência. Existe também uma opção Balanceada para quem busca o melhor desempenho médio entre todas as métricas registradas.

Uma vez selecionada, uma configuração de implantação pré-definida é gerada para o endpoint. Os usuários podem revisar e ajustar valores adicionais como timeouts, nomenclatura do endpoint e configurações de segurança. Após completar a configuração, basta clicar em “Deploy” no canto inferior direito para finalizar.

Modelos Disponíveis para Implantação Otimizada

As implantações otimizadas do SageMaker JumpStart estão disponíveis para o seguinte conjunto de modelos:

Modelos Meta Llama

Llama-3.1-8B-Instruct
Llama-2-7b-hf
Llama-3.2-3B
Meta-Llama-3-8B
Llama-3.2-1B-Instruct
Llama-3.2-1B
Llama-3.1-70B-Instruct
Llama-3.2-3B-Instruct
Meta-Llama-3-8B

Modelos Microsoft Phi

Phi-3-mini-4k-instruct

Modelos Mistral AI

Mistral-7B-Instruct-v0.2
Mistral-Small-24B-Instruct-2501
Mistral-7B-v0.1
Mistral-7B-Instruct-v0.3
Mixtral-8x7B-Instruct-v0.1

Modelos Qwen

Qwen3-8B
Qwen3-32B
Qwen3-0.6B
Qwen2.5-7B-Instruct
Qwen2.5-72B-Instruct
Qwen2-VL-7B-Instruct
Qwen2-1.5B-Instruct

Modelos Google Gemma

gemma-7b
gemma-7b-it
gemma-2b

Outros Modelos

Tiiuae Falcon3-1B-Instruct

Esses modelos formam o lançamento inicial das implantações otimizadas, e a AWS está expandindo ativamente o suporte para incluir modelos adicionais.

Próximos Passos

Usuários interessados podem começar a trabalhar com as implantações otimizadas do SageMaker JumpStart imediatamente. Basta selecionar um dos modelos de implantação otimizada disponíveis no hub de modelos do SageMaker Studio, explorar as diferentes opções de configuração e determinar qual delas melhor se adequa à aplicação em questão. A capacidade de ajustar a implantação ao caso de uso específico promete facilitar significativamente a colocação de modelos de linguagem em produção.

Fonte

Use-case based deployments on SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/use-case-based-deployments-on-sagemaker-jumpstart/)

Implantações Otimizadas por Caso de Uso no SageMaker JumpStart

Acesso Rápido a Modelos Pré-treinados para IA

O Desafio das Implantações Genéricas

Implantações Otimizadas por Caso de Uso

Preparação para Começar

Iniciando uma Implantação Otimizada

Modelos Disponíveis para Implantação Otimizada

Modelos Meta Llama

Modelos Microsoft Phi

Modelos Mistral AI

Modelos Qwen

Modelos Google Gemma

Outros Modelos

Próximos Passos

Fonte

Comments

Leave a Reply Cancel reply

More posts

Como garantir capacidade de GPU de curto prazo para cargas de ML com EC2 Capacity Blocks e SageMaker Training Plans

AWS conquista certificações SNI 27017, SNI 27018 e SNI 9001 na Região Ásia-Pacífico (Jacarta)

Agentes que transacionam: conheça o Amazon Bedrock AgentCore Payments, desenvolvido com Coinbase e Stripe

Superando desafios de sinal de recompensa: aprendizado por reforço com recompensas verificáveis e GRPO no SageMaker AI