Portuguese Synthetic Speech Detection

Deteção de Fala Sintética em Português

A administração pública portuguesa tem vindo a adotar a fala como um dos principais meios de interação com o cidadão. Com o aumento da utilização de sistemas de fala sintética, também conhecida como deepfake áudio quando usada de forma maliciosa, surgem novos desafios na validação da autenticidade das comunicações. Neste contexto, o Artigo 50 do AI Act da União Europeia estabelece requisitos de transparência para conteúdos gerados por inteligência artificial, tornando essencial o desenvolvimento de ferramentas capazes de identificar áudio sintético de forma automática e fiável.

O projeto PT-SSD propõe uma solução baseada em inteligência artificial para a deteção de fala sintética em língua portuguesa, contribuindo para a segurança dos sistemas de comunicação. A maioria dos detetores existentes está focada na língua inglesa, criando uma lacuna significativa para o português.

Este sistema disponibiliza uma API de deteção automática de fala sintética, permitindo analisar ficheiros de áudio em tempo real.

Modelo Utilizado

O modelo utilizado combina o modelo de Self-Supervised Learning (SSL) Wav2vec2 com o classificador AASIST. Este foi treinado exclusivamente com ficheiros de áudio em formato WAV e com duração curta.

O sistema foi treinado com aproximadamente 10% dos datasets ASVspoof5, SSD-PT, SSD-PTPT e Vocoder .

Os dados foram cuidadosamente balanceados entre fala genuína e sintética, e o modelo foi validado não só nos datasets usados no treinamento mas também em datasets externos, assegurando robustez em diferentes cenários, sotaques e técnicas de geração de áudio.

Para o desenvolvimento do modelo foram utilizados os códigos disponíveis em ssd-pt-dataset, utilizado para a criação do dataset SSD_PT, e ASVspoof5_PT-SSD, utilizado na implementação dos processos de treino e teste dos modelos.

Adicionalmente, o código da presente aplicação encontra-se disponível em SSDPT_API.

Acknowledgement

Este trabalho é apoiado pela NOVA LINCS (UID/04516/2025), com o apoio financeiro da FCT.IP.DOI, e pelo projeto 2024.07291.IACDC-PT-SSD – Deteção de fala sintética em português para a administração pública, financiado pela FCT (Fundação para a Ciência e a Tecnologia).

O desenvolvimento deste sistema contou com a contribuição de: Rafael Geraldo dos Santos, André Miguel Viegas Oliveira, Helder Daniel e José Valente de Oliveira.