Detecção de Objetos com Amazon Nova 2 Lite: Visão Computacional Sem Treinar Modelos

Visão computacional sem o custo de sempre

Montar uma solução tradicional de visão computacional é caro e demorado. Pipelines de dados, infraestrutura de treinamento, recursos de computação e uma equipe dedicada de ciência de dados são barreiras reais — especialmente para times menores ou empresas que estão começando a explorar esse território.

A AWS apresenta o Amazon Nova 2 Lite, disponível pelo Amazon Bedrock, como uma alternativa direta a esse cenário. Trata-se de um modelo de fundação multimodal capaz de detectar objetos em imagens por meio de prompts em linguagem natural — sem nenhum treinamento prévio. Você especifica o que quer encontrar (“veículo”, “pessoa”, “amassado”) e o modelo retorna coordenadas precisas de bounding box em formato JSON estruturado.

O que você vai aprender

O artigo original da AWS demonstra como implementar detecção de objetos com o Nova 2 Lite usando AWS Lambda e Amazon API Gateway. O conteúdo cobre como construir prompts eficazes, processar a saída JSON, visualizar os resultados e explorar aplicações práticas em manufatura, agricultura e logística.

Pré-requisitos e custos estimados

Para seguir a implementação, você vai precisar de:

  • Conta AWS ativa com acesso ao Amazon Bedrock habilitado
  • Permissões do Gerenciamento de Identidade e Acesso (IAM) para bedrock:InvokeModel
  • Acesso ao modelo Amazon Nova 2 Lite na sua região
  • Interface de Linha de Comando da AWS (AWS CLI) configurada
  • Python 3.8 ou superior, com Boto3 (versão 1.28.0+) e Pillow instalados

A instalação das dependências é feita com:

pip install boto3 pillow

Em relação a custos, o Amazon Bedrock cobra $0,0003 por mil tokens de entrada e $0,0025 por mil tokens de saída. Uma imagem típica gera cerca de 230 tokens de entrada (~$0,000069) e ~200 tokens de saída (~$0,0005). Para 10.000 imagens, o custo estimado fica em torno de $5,69. Lambda e API Gateway seguem o modelo de pagamento por uso, com custo mínimo em cenários de teste. O tempo estimado para implementação é de 30 a 45 minutos.

Como a solução funciona

A detecção de objetos com o Nova 2 Lite segue quatro etapas principais:

  • Engenharia de prompt — Estruturar o prompt especificando os objetos a detectar e o formato JSON esperado na saída
  • Amazon Bedrock — Invocar o Nova 2 Lite via API, sem gerenciar infraestrutura, e extrair as coordenadas de bounding box da resposta
  • Processamento de coordenadas — Converter as coordenadas normalizadas do Nova (escala 0-1000) para posições em pixels com base nas dimensões reais da imagem
  • Visualização — Desenhar os bounding boxes sobre a imagem original para validação

O fluxo é direto: você envia uma imagem e uma lista de objetos para a API Converse do Amazon Bedrock. O Nova 2 Lite analisa a imagem e retorna um JSON com as coordenadas de cada objeto detectado. Em seguida, você converte essas coordenadas normalizadas para pixels e visualiza os resultados.

Engenharia de prompt: a chave para detecções precisas

A qualidade das detecções depende diretamente de como o prompt é estruturado. O template utilizado no exemplo contém um conjunto de instruções que define claramente os requisitos. Duas variáveis dinâmicas — elements (elementos a detectar) e schema (estrutura esperada do JSON) — permitem que o mesmo template funcione para qualquer categoria de objeto sem modificações.

Veja o template completo:

# Object Detection and Localization

## Objective
Your task is to detect and localize objects in the target image with high precision and recall.

## Instruction
- The objects to be detected are: {elements}
- Analyze the provided target image and return only the reasoning and a JSON object with bounding box data for detected objects
- Think step-by-step and then provide precise bounding box coordinates for each detection
- Detect all instances of the specified objects
- Fit bounding boxes tightly around each object
- Do not output duplicate bounding boxes
- Coordinates should use the format [x_min, y_min, x_max, y_max] where:
  * (x_min, y_min) is the top-left corner of the bounding box
  * (x_max, y_max) is the bottom-right corner of the bounding box

## Output Requirements and Examples
The JSON output should strictly follow this structure including the word json:
```json
{schema}
```

### Example JSON Structure:
```json
{{
  "car": [{{
    "bbox": [321, 432, 543, 876],
  }}],
  "pedestrian": [{{
    "bbox": [432, 543, 654, 987],
  }}, {{
    "bbox": [123, 234, 345, 678],
  }}],
  // Continue for all detected elements...
}}
```

Briefly explain the detection results and provide the specified JSON format wrapped within triple backticks.

Para os detalhes completos de implementação, o código está disponível no repositório GitHub.

Exemplo prático: detecção em cena urbana

A AWS testou o Nova 2 Lite em uma imagem de rua. Sem nenhum treinamento ou ajuste fino, o modelo foi capaz de detectar dois tipos de objeto — “vehicle” (veículo) e “stop sign” (placa de pare) — com alta precisão. O resultado mostrou que o modelo identifica não apenas objetos óbvios, mas também aqueles que são pequenos, distantes ou parcialmente encobertos. Os bounding boxes se ajustam com precisão aos limites dos objetos usando apenas nomes básicos, sem descrições detalhadas.

Implantando na nuvem: escolha sua plataforma de computação

O Amazon Bedrock fornece acesso via API ao Nova 2 Lite, o que significa que ele pode ser invocado a partir de qualquer serviço de computação da AWS. A escolha depende do tipo de carga de trabalho:

Independentemente do serviço de computação escolhido, todos utilizam a mesma API Converse do Amazon Bedrock para interagir com os modelos Nova. Essa consistência facilita a integração da detecção de objetos na infraestrutura existente e a migração entre plataformas conforme as necessidades evoluem.

Aplicação serverless de exemplo

A AWS construiu uma aplicação web serverless de exemplo que demonstra a detecção de objetos com o Nova 2 Lite. A arquitetura segue o modelo serverless-first, combinando múltiplos serviços AWS:

  • O Amazon CloudFront serve a aplicação de página única a partir de um bucket privado do Amazon Simple Storage Service (Amazon S3), com distribuição global e aplicação de HTTPS via Origin Access Control.
  • Quando o usuário faz upload de uma imagem e especifica os objetos a detectar, o front-end envia a requisição ao Amazon API Gateway, que a roteia para uma função AWS Lambda.
  • A função Lambda atua como camada de orquestração, chamando a API Converse do Amazon Bedrock para enviar a imagem e o prompt de detecção ao Nova 2 Lite.
  • O Nova retorna as coordenadas normalizadas de bounding box para cada objeto detectado. A Lambda converte essas coordenadas para posições em pixels e renderiza os boxes anotados sobre a imagem.
  • O resultado anotado percorre o caminho inverso — Lambda → API Gateway → front-end — e o usuário vê a imagem com os objetos destacados.

Essa arquitetura escala automaticamente e mantém cada componente focado em uma única responsabilidade.

Como implantar a aplicação

O código-fonte completo, incluindo todas as definições de infraestrutura do Kit de Desenvolvimento de Nuvem da AWS (AWS CDK) e a função Lambda, está disponível no repositório GitHub. Após instalar o AWS CLI e o AWS CDK e habilitar o acesso ao Amazon Nova 2 Lite no console do Amazon Bedrock, a implantação é direta.

Para evitar cobranças contínuas após os testes, basta remover os recursos criados:

# Delete the AWS CloudFormation stack
cdk destroy

# Verify resources are removed
aws cloudformation list-stacks --stack-status-filter DELETE_COMPLETE

Se preferir limpeza manual, os recursos a remover são: bucket do Amazon S3 e seu conteúdo, funções AWS Lambda, endpoints do Amazon API Gateway e a distribuição do Amazon CloudFront.

Vale destacar: as chamadas à API do Amazon Bedrock são cobradas por uso, sem custos de infraestrutura contínuos. Após excluir os recursos de implantação, você só paga quando faz chamadas à API.

Aplicações práticas por setor

Controle de qualidade na manufatura

Uma instalação de fabricação de metal que processa 10.000 peças por mês pode usar o Nova 2 Lite para automatizar a inspeção de qualidade. Especificando defeitos como “scratch” (arranhão), “dent” (amassado) ou “rust spot” (ponto de ferrugem), o sistema identifica problemas automaticamente. O custo de analisar 5 imagens por peça fica em aproximadamente $8 por mês — bem abaixo do custo de retornos e retrabalho causados por peças defeituosas que chegam ao cliente.

Agricultura de precisão

Uma fazenda de 5.000 acres que captura imagens semanais de drone durante uma temporada de 20 semanas pode usar o modelo para detectar problemas nas plantações cedo. Especificando “diseased leaf” (folha doente), “pest damage” (dano por pragas) ou “fungus” (fungo), o sistema permite intervenção antes que o problema se agrave. O processamento de 1,2 milhão de imagens de alta resolução por temporada custa aproximadamente $200. A mesma abordagem pode guiar equipamentos por GPS para detectar obstruções no campo — como veículos, equipamentos ou detritos — abrindo caminho para operações autônomas.

Logística e centros de distribuição

Centros de distribuição podem identificar pacotes danificados especificando: “torn box” (caixa rasgada), “crushed package” (pacote amassado) ou “water damage” (dano por água). O sistema sinaliza automaticamente os itens para inspeção e os direciona para áreas de controle de qualidade. A mesma lógica se aplica ao monitoramento de inventário — como “empty shelf” (prateleira vazia) ou “misplaced item” (item fora do lugar) — e à conformidade de segurança, verificando o uso de “hard hat” (capacete), “safety vest” (colete de segurança) e “safety glasses” (óculos de proteção).

Conclusão

O Amazon Nova 2 Lite representa uma mudança significativa na acessibilidade da visão computacional. Ao especificar nomes de objetos via prompts em linguagem natural, equipes podem implantar aplicações de detecção em horas — não em meses — sem gerenciar infraestrutura ou exigir expertise em aprendizado de máquina. O modelo entrega performance de detecção por meio de uma única API, com estrutura de custo por uso.

Para quem quiser experimentar, o código de exemplo está no repositório GitHub, e os modelos Nova podem ser explorados diretamente no console do Amazon Bedrock.

Fonte

Object detection with Amazon Nova 2 Lite (https://aws.amazon.com/blogs/machine-learning/object-detection-with-amazon-nova-2-lite/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *