Projeto Tupã: LLMs Soberanos para o Contexto Brasileiro

Status

⚠️ Em pesquisa e desenvolvimento. Este projeto ainda não foi publicado oficialmente. Em breve disponibilizaremos o artigo completo em PDF e o repositório público.

Sobre o Projeto

O Projeto Tupã é uma iniciativa de pesquisa e desenvolvimento voltada à criação de modelos de linguagem de grande escala (LLMs) genuinamente alinhados ao contexto brasileiro — linguístico, cultural, jurídico e econômico.

O objetivo central é alcançar soberania de dados e infraestrutura, reduzindo a dependência de modelos estrangeiros que carecem de representação adequada da língua portuguesa brasileira, das nuances regionais e dos domínios regulatórios nacionais.

Motivação

Os principais modelos disponíveis hoje são treinados predominantemente em inglês e dados ocidentais, resultando em lacunas significativas para aplicações críticas no Brasil — desde saúde e direito até segurança pública e indústria.

Objetivos

Desenvolver arquiteturas de LLMs otimizadas para o português brasileiro
Construir pipelines de dados com fontes verificadas e representativas do contexto nacional
Implementar técnicas de alinhamento (RLHF, DPO) guiadas pelo Axisor ConstitutionAI: um framework constitucional proprietário que define os valores, limites éticos e conformidade regulatória do modelo — adaptado ao contexto brasileiro (LGPD, CFM, Marco Civil, entre outros)
Garantir infraestrutura computacional soberana para treinamento e inferência

Próximos Passos

O artigo técnico completo e o repositório de código serão disponibilizados em breve. Acompanhe as atualizações.