Paraphrase-multilingual-MiniLM-L12-v2, Table Transformer Detection e Bielik-11B-v3.0-Instruct chegam ao Amazon SageMaker JumpStart

Três novos modelos disponíveis no SageMaker JumpStart

A AWS anunciou a chegada de três novos modelos ao Amazon SageMaker JumpStart: o Paraphrase-multilingual-MiniLM-L12-v2, o Microsoft Table Transformer Detection e o Bielik-11B-v3.0-Instruct. Cada um atende a casos de uso bastante distintos, o que torna essa atualização relevante para equipes que trabalham com processamento de linguagem natural (PLN), extração de dados em documentos e aplicações em idiomas europeus.

Paraphrase-multilingual-MiniLM-L12-v2

Desenvolvido pela Sentence Transformers, esse é um modelo leve de similaridade semântica que converte sentenças e parágrafos em vetores densos de 384 dimensões — e faz isso em mais de 50 idiomas simultaneamente.

A proposta é simples e poderosa: encontrar conteúdos semanticamente parecidos dentro de um mesmo idioma ou entre idiomas diferentes, sem precisar de configurações específicas por língua. Isso o torna especialmente útil para:

  • Busca semântica multilíngue (Recuperação de Informação Cross-lingual)
  • Agrupamento de documentos em múltiplos idiomas
  • Pontuação de similaridade entre sentenças

Para equipes brasileiras que lidam com conteúdo em português e precisam cruzar informações com documentos em outros idiomas, esse modelo pode ser um recurso bastante prático.

Microsoft Table Transformer Detection

Este modelo é baseado na arquitetura Detecção de Objetos por Transformers (DETR) e foi treinado no conjunto de dados PubTables-1M, com foco exclusivo em detectar tabelas dentro de documentos não estruturados — como PDFs e imagens digitalizadas.

A ideia é resolver um problema clássico em pipelines de digitalização de documentos: localizar automaticamente onde estão as tabelas em relatórios financeiros, artigos científicos e outros tipos de documentos, antes de extrair os dados que elas contêm. Isso é especialmente valioso em fluxos de trabalho de extração automatizada de dados em larga escala.

Bielik-11B-v3.0-Instruct

Desenvolvido pela SpeakLeash em parceria com o ACK Cyfronet AGH, o Bielik é um modelo de linguagem generativa com 11 bilhões de parâmetros, treinado em corpora multilíngues que cobrem 32 idiomas europeus, com ênfase especial no polonês.

Entre suas principais capacidades estão:

  • Diálogo em polonês e outros idiomas europeus
  • Raciocínio em Ciência, Tecnologia, Engenharia e Matemática (STEM) e matemático
  • Tarefas de lógica e uso de ferramentas
  • Aplicações empresariais que exigem compreensão linguística profunda em idiomas europeus

Para organizações que atendem mercados europeus ou precisam de um modelo generativo com forte cobertura de idiomas do continente, o Bielik representa uma opção robusta agora acessível diretamente pelo JumpStart.

Como acessar os modelos

Os três modelos podem ser implantados com poucos cliques pela seção Modelos do SageMaker Studio, ou programaticamente via SDK Python do SageMaker, diretamente na conta AWS do usuário. Para mais detalhes sobre como implantar e utilizar modelos de fundação no SageMaker JumpStart, a AWS disponibiliza a documentação oficial do Amazon SageMaker JumpStart.

Fonte

Paraphrase-multilingual-MiniLM-L12-v2, Table Transformer Detection, and Bielik-11B-v3.0-Instruct are now available in Amazon SageMaker JumpStart (https://aws.amazon.com/about-aws/whats-new/2026/04/paraphrase-multilingual-table-transformer-bielik-on-sagemaker-jumpstart/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *