Acesso Rápido a Modelos Pré-treinados para IA
O Amazon SageMaker JumpStart oferece uma biblioteca de modelos pré-treinados que abrangem diversos tipos de problemas, facilitando o início de projetos de inteligência artificial. A plataforma disponibiliza soluções para os principais casos de uso, que podem ser implantadas em endpoints de Inferência Gerenciada do SageMaker AI ou em clusters SageMaker HyperPod. Com opções de implantação pré-configuradas, os usuários conseguem transitar rapidamente da seleção do modelo até sua colocação em produção.
O Desafio das Implantações Genéricas
As implantações através do SageMaker JumpStart sempre foram rápidas e diretas. Os clientes podiam selecionar opções baseadas no número esperado de usuários simultâneos, mantendo visibilidade sobre métricas como latência P50, tempo até o primeiro token (TTFT) e vazão (tokens por segundo por usuário).
Porém, as opções de configuração de usuários simultâneos, embora úteis para cenários genéricos, não levariam em conta as características específicas das tarefas. A AWS reconheceu que clientes utilizam o SageMaker JumpStart para aplicações bastante distintas e especializadas — geração de conteúdo, resumização de textos, sistemas de perguntas e respostas, entre outras. Cada uma dessas aplicações demanda configurações particulares para otimizar desempenho.
Além disso, a definição de “desempenho” vai além da latência. Alguns clientes priorizam vazão, enquanto outros buscam minimizar o custo por token. Essas variações exigiam abordagens de implantação mais granulares e direcionadas.
Implantações Otimizadas por Caso de Uso
Respondendo a essas necessidades, a AWS anunciou o lançamento das implantações otimizadas do SageMaker JumpStart. Essa capacidade oferece configurações de implantação pré-definidas, cada uma elaborada especificamente para um caso de uso determinado, resolvendo a demanda por customização clara e direta.
Os clientes mantêm o mesmo nível de transparência sobre os detalhes de suas implantações propostas, mas agora as configurações são otimizadas para o caso de uso específico e para a restrição de desempenho desejada. Essa abordagem combina facilidade de uso com precisão técnica.
Preparação para Começar
Para utilizar as implantações otimizadas do SageMaker JumpStart, são necessários os seguintes pré-requisitos:
- Uma conta AWS
- Um domínio SageMaker Studio
- Uma função AWS Identificação e Gerenciamento de Acesso (IAM) que permita criar um modelo e um endpoint
Com esses componentes em lugar, os usuários podem começar a usar as implantações otimizadas imediatamente.
Iniciando uma Implantação Otimizada
O processo de configuração é direto. Primeiro, abre-se o SageMaker Studio e acessa-se a seção de Modelos. Em seguida, seleciona-se um dos modelos que suportam implantações otimizadas (listados na próxima seção) e clica-se em “Deploy” no canto superior direito.
A tela que se abre apresenta uma nova seção expansível denominada “Performance”, que contém as opções para implantações otimizadas. Antes de mais nada, pede-se ao usuário que escolha um caso de uso. Para modelos baseados em texto, esses casos de uso podem variar desde escrita generativa até interações em estilo de chat. Suporte para imagem e vídeo virá com futuras atualizações.

Após selecionar o caso de uso, o usuário precisa escolher uma das três otimizações de restrição: Otimizado para Custo, Otimizado para Vazão e Otimizado para Latência. Existe também uma opção Balanceada para quem busca o melhor desempenho médio entre todas as métricas registradas.
Uma vez selecionada, uma configuração de implantação pré-definida é gerada para o endpoint. Os usuários podem revisar e ajustar valores adicionais como timeouts, nomenclatura do endpoint e configurações de segurança. Após completar a configuração, basta clicar em “Deploy” no canto inferior direito para finalizar.
Modelos Disponíveis para Implantação Otimizada
As implantações otimizadas do SageMaker JumpStart estão disponíveis para o seguinte conjunto de modelos:
Modelos Meta Llama
- Llama-3.1-8B-Instruct
- Llama-2-7b-hf
- Llama-3.2-3B
- Meta-Llama-3-8B
- Llama-3.2-1B-Instruct
- Llama-3.2-1B
- Llama-3.1-70B-Instruct
- Llama-3.2-3B-Instruct
- Meta-Llama-3-8B
Modelos Microsoft Phi
- Phi-3-mini-4k-instruct
Modelos Mistral AI
- Mistral-7B-Instruct-v0.2
- Mistral-Small-24B-Instruct-2501
- Mistral-7B-v0.1
- Mistral-7B-Instruct-v0.3
- Mixtral-8x7B-Instruct-v0.1
Modelos Qwen
- Qwen3-8B
- Qwen3-32B
- Qwen3-0.6B
- Qwen2.5-7B-Instruct
- Qwen2.5-72B-Instruct
- Qwen2-VL-7B-Instruct
- Qwen2-1.5B-Instruct
Modelos Google Gemma
- gemma-7b
- gemma-7b-it
- gemma-2b
Outros Modelos
- Tiiuae Falcon3-1B-Instruct
Esses modelos formam o lançamento inicial das implantações otimizadas, e a AWS está expandindo ativamente o suporte para incluir modelos adicionais.
Próximos Passos
Usuários interessados podem começar a trabalhar com as implantações otimizadas do SageMaker JumpStart imediatamente. Basta selecionar um dos modelos de implantação otimizada disponíveis no hub de modelos do SageMaker Studio, explorar as diferentes opções de configuração e determinar qual delas melhor se adequa à aplicação em questão. A capacidade de ajustar a implantação ao caso de uso específico promete facilitar significativamente a colocação de modelos de linguagem em produção.
Fonte
Use-case based deployments on SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/use-case-based-deployments-on-sagemaker-jumpstart/)
Leave a Reply