Enviar áudio
Enviar um áudio é o primeiro passo de qualquer auditoria no AuditorIA. Este guia percorre o formulário campo a campo, quando usar cada opção e como interpretar a resposta do sistema.

Acessar o formulário
Três caminhos equivalentes:
- Item Enviar arquivo na sidebar.
- Rota direta
/subir-archivo. - Tecla
Nem qualquer tela (se o atalho estiver habilitado no seu tenant).
O motor de transcrição, idioma e dispositivo são resolvidos automaticamente a partir da configuração de IA da campanha selecionada (passo 7 do wizard de campanhas).
Campos do formulário
ID Campanha *
Seletor obrigatório com as campanhas disponíveis para seu usuário. A campanha define:
- Planilha de auditoria aplicável (passo 4 do wizard).
- Critérios de alerta (passo 5).
- Processos automáticos disparados ao completar (passo 6).
- Roteamento de IA por funcionalidade (passo 7): modelo de transcrição, geração de tags, análise de falantes, etc.
Campanhas visíveis
A lista é filtrada por permissões. Se você não vê a campanha esperada, peça ao admin para atribuir o path correspondente em Gestão de equipe > Papéis e Permissões.
ID Operador *
Seletor obrigatório do operador associado ao áudio. Se seu usuário tem operator_id próprio, ele já vem pré-selecionado; caso contrário, você escolhe na lista de operadores da campanha. Define a qual representante a chamada será imputada para ranking, relatórios de Amostra Diária e Cross & Habilidades.
Início da chamada *
Data e hora do início da chamada real (não do upload). Formato DD/MM/AAAA HH:MM. Se você não souber, deixe o default (data e hora atuais).
Por que importa
Os relatórios e faixas de data do Painel usam esse timestamp como eixo. Uma data mal informada tira a chamada das janelas de relatório.
Direção
| Valor | Quando usar |
|---|---|
| Entrante | O cliente inicia a chamada para o contact center |
| Sainte | O operador liga para o cliente (vendas, cobranças, lembretes) |
A direção afeta a diarização (qual falante costuma ser agente vs cliente) e alguns critérios da planilha.
Opções avançadas
Toggle expansível com parâmetros usados somente para sobrescrever o default da campanha:
| Campo | Uso |
|---|---|
| Idioma | es · en · pt · auto. Default = o que a campanha indica. |
| Modelo de transcrição | WhisperX / OpenAI Whisper API / Deepgram |
| Dispositivo | CPU / CUDA (aplica só a WhisperX) |
| Notas | Texto livre anexado à tarefa |
| Parâmetros Whisper | beam_size, vad_filter, compute_type (float16/int8) |
| Limiar de diarização | Ajuste fino do splitter de falantes |
Deixe as Opções avançadas fechadas se você não tem motivo concreto para mexer. A configuração por campanha já está otimizada pelo admin para o caso de uso.
Anexar arquivos
Área drag-and-drop com a legenda "Arraste arquivos aqui — Vários formatos suportados. Também aceita ZIP e CSV para carga em massa."
Arquivos individuais
| Formato | Extensão | Observação |
|---|---|---|
| WAV | .wav, .x-wav | Sem compressão, qualidade máxima |
| MP3 | .mp3 | Formato mais comum em contact centers |
| MPEG | .mpeg | Variante do mp3 |
| AAC | .aac | Compressão moderna, comum em mobile |
| OGG | .ogg | Formato livre |
| WebM | .webm | Capturas web, gravações de browser |
| FLAC | .flac, .x-flac | Compressão sem perda |
Carga em massa com ZIP
- Compacte um conjunto de áudios em um único
.zipe arraste-o para a área. - O backend descompacta, cria uma tarefa por áudio válido e aplica os mesmos valores de Campanha/Operador/Direção para todos.
- Arquivos corrompidos dentro do ZIP são ignorados e listados na notificação final.
Carga em massa com CSV + áudios
- Botão Baixar modelo CSV de metadata (acima do formulário) gera um
metadata.csvcom as colunas esperadas:filename·campaign_id·operator_id·start_datetime·direction·notes
- Monte um
.zipcontendo os áudios + ometadata.csvna raiz. - Cada linha do CSV sobrescreve os valores globais do formulário para aquele arquivo.
Limites padrão
- Tamanho máximo: 500 MB por arquivo individual ou ZIP.
- Duração máxima recomendada: 120 minutos por áudio.
- Arquivos maiores precisam ser divididos ou o admin precisa aumentar o limite do tenant.
Enviar o áudio
- Verifique os campos obrigatórios (ID Campanha, ID Operador, Início da chamada, pelo menos um arquivo).
- Clique em Iniciar tarefa.
- O backend retorna um
task_id(UUID) por arquivo e enfileira as tarefas no Redis. - A interface redireciona para Todas as tarefas com as tarefas em estado Pendente.
Exemplo de resposta
{
"task_id": "a1b2c3d4-e5f6-7890-abcd-ef1234567890",
"status": "pending",
"created_at": "2026-04-16T14:23:00-03:00",
"campaign_id": 12,
"operator_id": 2608,
"direction": "inbound",
"language": "es",
"engine": "whisperx",
"device": "cuda"
}
O que acontece depois (pipeline)
Etapas e tempos orientativos
| Etapa | Duração típica (30 min de áudio) |
|---|---|
| Upload ao backend | 5-15 s (depende da rede) |
| Enfileiramento | <100 ms |
| Transcrição com WhisperX GPU | 1-2 min |
| Transcrição com OpenAI/Deepgram | 30-60 s |
| Diarização | 30-60 s (incluído no WhisperX) |
| Análise GPT (tags + sentimento) | 10-30 s |
| Total ponta-a-ponta | ~2-5 min em GPU; 3-8 min em CPU |
Carga em massa (4 caminhos)
- Seleção múltipla na drop zone — cada arquivo gera sua tarefa independente com os mesmos parâmetros.
- ZIP — idem 1 mas empacotado.
- ZIP + metadata.csv — cada tarefa toma valores específicos de uma linha do CSV.
- Integrações automáticas:
- Net2Phone — webhook que cria tarefas ao fechar cada chamada.
- Anura — webhook de gravações de telefonia na nuvem.
- SFTP — worker que sincroniza uma pasta remota.
- API Externa —
POST /api/v1/transcribecom API Key, para sistemas próprios.
Configure origens automáticas pelo passo 2 do wizard de Campanhas: Origens de Áudio.
Carga em massa com arquivos grandes pode saturar a fila. Priorize horários de baixa ou use integrações para distribuir a carga.
Troubleshooting
| Sintoma | Diagnóstico | Ação |
|---|---|---|
| "Arquivo muito grande" | Ultrapassa 500 MB | Divida o arquivo (ffmpeg) ou peça ao admin para aumentar o limite |
| "Formato não suportado" | Extensão fora da lista | Converta para WAV com ffmpeg -i entrada.xxx saida.wav |
| "Campanha sem permissão" | Seu papel não tem o path da campanha | Solicitar acesso ao admin em Gestão de equipe |
| Tarefa presa em Pendente >10 min | Sem workers ativos ou fila saturada | Avisar o admin; ver logs em Configurações > Logs |
| Tarefa vai para Erro imediatamente | Áudio corrompido ou duração 0 | Verifique o arquivo localmente com VLC ou Audacity |
| Diarização mistura falantes | Canal mono com ambos os interlocutores muito sobrepostos | Tente transcrição estéreo (veja Guia estéreo) |
| Transcrição com alucinações | Áudio muito ruidoso ou com muito silêncio | Ativar vad_filter em Opções avançadas |
| ZIP com CSV ignora linhas | O metadata.csv não está na raiz do ZIP | Garanta que metadata.csv esteja no nível superior do ZIP |
Próximos passos
- Visor de transcrições — para revisar o resultado.
- Busca e filtro de tarefas — para encontrar seus áudios.
- Seleção de worker — guia técnico comparando motores.
- Transcrição estéreo — para áudios com canais separados.