Status
⚠️ Em pesquisa e desenvolvimento. Este projeto ainda não foi publicado oficialmente. Em breve disponibilizaremos o artigo completo em PDF e o repositório público.
Sobre o Projeto
O Projeto Tupã é uma iniciativa de pesquisa e desenvolvimento voltada à criação de modelos de linguagem de grande escala (LLMs) genuinamente alinhados ao contexto brasileiro — linguístico, cultural, jurídico e econômico.
O objetivo central é alcançar soberania de dados e infraestrutura, reduzindo a dependência de modelos estrangeiros que carecem de representação adequada da língua portuguesa brasileira, das nuances regionais e dos domínios regulatórios nacionais.
Motivação
Os principais modelos disponíveis hoje são treinados predominantemente em inglês e dados ocidentais, resultando em lacunas significativas para aplicações críticas no Brasil — desde saúde e direito até segurança pública e indústria.
Objetivos
- Desenvolver arquiteturas de LLMs otimizadas para o português brasileiro
- Construir pipelines de dados com fontes verificadas e representativas do contexto nacional
- Implementar técnicas de alinhamento (RLHF, DPO) guiadas pelo Axisor ConstitutionAI: um framework constitucional proprietário que define os valores, limites éticos e conformidade regulatória do modelo — adaptado ao contexto brasileiro (LGPD, CFM, Marco Civil, entre outros)
- Garantir infraestrutura computacional soberana para treinamento e inferência
Próximos Passos
O artigo técnico completo e o repositório de código serão disponibilizados em breve. Acompanhe as atualizações.
Leia também
- Projeto Pandora: Investigação Comportamental em LLMs Obliteradas
Investigação comportamental em LLMs obliteradas em ambientes controlados. Pesquisa aplicada em segurança de IA.