CONGRESSO PRÊMIOABT: Atendente de telefone não é humano: IA de voz já atende e escala no Brasil

Joseph Kulmann, CEO da Pessoalize, está no palco, com microfone

A afirmação “seu próximo atendente de telefone não é humano” já vale para operações brasileiras. Na palestra do Congresso PrêmioABT, Joseph Kulmann, CEO da Pessoalize, mostrou que a IA generativa de voz está pronta para atender, vender e cobrar — desde que haja governança, engenharia de prompt e “abrasileiramento” do modelo

Resumo em pontos

  • A IA de voz já atende telefone com naturalidade e baixa latência.
  • “Seu próximo atendente de voz não é humano, isso já é realidade”, disse Joseph Kulmann.
  • O desafio não é tecnologia, é escalar com governança, dados e curadoria contínua.
  • Modelos criados fora precisam ser “abrasileirados” para português e para o jeito brasileiro de falar.
  • Voz para voz (sem transcrição) deve permitir até 60% das chamadas atendidas por IA.
  • Executivos de CX devem testar rápido, auditar e preparar times para o novo modelo.

O atendimento por telefone entrou de vez na era da inteligência artificial generativa. Na palestra “Seu próximo atendente de telefone não é humano – e isso já é realidade”, apresentada no Congresso XXV PrêmioABT, Joseph Kulmann, CEO da Pessoalize, mostrou que a tecnologia de voz já consegue ouvir, entender, responder, vender e registrar cada interação quase como um humano — e, em alguns casos, com mais velocidade. Segundo ele, empresas brasileiras já estão operando bots de voz em ambiente real, apoiadas em soluções como ElevenLabs, Whisper e motores de IA generativa.

O ponto crítico, porém, não é mais “se dá para fazer”, mas como escalar isso com governança, segurança e adaptação ao português, porque, nas palavras dele, “o Brasil não é para amadores”. O público da palestra era executivos e profissionais de relacionamento com o cliente e CX, justamente quem precisa transformar essa novidade em resultado.

IA de voz já chegou ao telefone

Para situar a plateia, Joseph Kulmann lembrou que o mercado já convive há anos com bots de árvore de decisão, chat em WhatsApp e assistentes de texto. A novidade é que o mesmo avanço chegou ao canal de voz, com qualidade suficiente para falar com o cliente ao telefone. O tema ‘seu próximo atendente de voz não é humano, isso já é realidade’, deixou claro logo no início da palestra que não se trata mais de futuro distante, mas de casos funcionando agora.

Kulmann citou tecnologias que hoje estão consolidadas para voz — ElevenLabs para transformar texto em fala natural, Whisper para transcrever fala em texto com rapidez, além de serviços de players globais que ficaram mais acessíveis. Isso cria o pipeline básico: o cliente fala, a IA transcreve, o modelo generativo decide a resposta e outra camada devolve isso em voz, tudo em segundos. Para quem opera contact center, isso significa automatizar chamadas, cobranças, vendas e atendimento de primeiro nível sem precisar de um humano em todas as etapas.

Como o atendente de telefone não é humano em várias dessas interações, a experiência precisa parecer humana. Por isso, Kulmann reforçou que a voz leva emoção, entonação e ritmo, e que “a vírgula muda tudo numa frase”. A IA que atende telefone tem de considerar isso.

Escalar e governar é o verdadeiro desafio

Kulmann foi direto ao ponto: tecnologia existe, o difícil é colocar para rodar em larga escala com qualidade. “A gente tem uma série de tecnologias que precisam ser orquestradas para que, num tempo muito rápido e com alta assertividade, entreguem isso para o cliente”, explicou.

A partir daí ele entrou no tema central da palestra: governança da IA de voz. Como o atendente de telefone não é humano, alguém precisa garantir que ele não vai “alucinar”, nem cair em prompt injection — quando o usuário tenta mudar o papel do bot no meio da conversa. “Empresas sérias, empresas que têm governança, vão se preocupar com isso desde a base”, afirmou.

Por isso ele defendeu que o modelo seja treinado continuamente, com histórico de todas as interações, rastreabilidade de consultas e possibilidade de auditoria. “Grava tudo, histórico de tudo”, disse, explicando que isso serve tanto para melhorar o modelo quanto para dar segurança ao cliente corporativo. Esse é um ponto sensível para operações de atendimento ao cliente: sem rastreio, a automação de voz não passa no compliance.

Outro ponto que ele chamou de “pegadinha” foi o treinamento simplificado. Subir um PDF e dizer que a IA está pronta pode funcionar para uma demonstração, mas não sustenta uma operação que atende centenas de clientes por dia. É preciso uma linha do tempo de curadoria do conhecimento, algo que as áreas de CX já fazem com atendentes humanos e agora terão de fazer com agentes de voz.

Brasil exige “abrasileirar” a IA

Um dos trechos mais práticos da fala de Kulmann tratou do contexto brasileiro. A maior parte das soluções de IA de voz nasce em inglês, para consumidores americanos, com diálogos curtos e diretos. Quando essas soluções são trazidas “como estão” para o Brasil, a experiência se degrada, “A gente tentou num início replicar aqui e falou: ‘cara, não é o caminho. O Brasil não é para qualquer um’”, contou.

Isso acontece porque o português é mais complexo, o cliente brasileiro interrompe mais, faz perguntas laterais e mistura assuntos. Se o atendente de telefone não é humano, mas fala como um script americano, o consumidor percebe na hora. Por isso ele defendeu “abrasileirar” o modelo: ajustar idioma, cultura, vícios de linguagem e até expressões regionais. Isso vale também para empresas globais que querem operar aqui.

Para o público do PrêmioABT — que reúne quem compra, quem atende e quem mede o atendimento —, a mensagem foi clara: IA de voz para o Brasil precisa ser construída para o Brasil. Caso contrário, a taxa de resolução cai e o ROI não aparece.

Ele contou que isso já existe em inglês e que a promessa é chegar ao português. Quando isso acontecer, segundo ele, haverá uma quebra de barreira parecida com a que vimos na IA de texto. “A gente vai chegar aí a pelo menos 60% de chamadas atendidas por uma IA”, afirmou. Essa frase aponta o impacto direto para operações de atendimento, cobrança e vendas: grande parte dos contatos poderá ser feita por agentes de voz, 24×7, com o mesmo padrão de resposta.

Próxima fronteira: voz para voz em 60% das chamadas

Depois de explicar o modelo atual, Kulmann mostrou o que vem na sequência. Hoje o fluxo mais comum ainda faz voz → texto → IA → voz. Mas já existe o modelo voz para voz (speech-to-speech generation, preservando prosódia e emoção), em que a IA entende e responde sem precisar transcrever. “A latência é quase zero”, disse. E, melhor, a IA consegue preservar emoção, prosódia e pausas — exatamente o que faz o cliente sentir que está falando com alguém.

Para mostrar que não era teoria, ele ligou ao vivo para a “Samanta”, IA Generativa de Voz da Qick.ai, e fez perguntas como um cliente faria: sobre cartão, anuidade, cashback, limite. A bot respondeu rápido, aceitou interrupção e manteve coerência. Foi a prova prática de que o atendente de telefone não é humano — e o cliente pode nem perceber.

O que executivos de CX precisam fazer agora

Kulmann terminou com uma mensagem bem pragmática para quem lidera relacionamento e CX. Primeiro, estudar o tema para não comprar soluções sem governança — “não deixem de estudar sobre isso aqui”, pediu. Segundo, começar por pilotos pequenos (as famosas PoCs) para aliviar a ansiedade de times que acham que tudo tem de estar pronto “para ontem”. Terceiro, envolver segurança e LGPD desde o começo, porque o modelo grava, transcreve e aprende com dados sensíveis.

E há ainda um ponto humano. Quando o atendente de telefone não é humano em uma parte relevante das chamadas, o papel das pessoas muda: fica mais nobre, mais analítico, mais de curadoria e menos de tarefa repetitiva. Isso precisa ser explicado para os times e patrocinado pelos CEOs, para que a transformação não trave dentro da empresa.

Imagens: Garrido

Posts Recentes