SAFASTUDIOS

Safa Global · Voz con IA

¿Sobre qué capa de voz
deberíamos construir?

Una decisión de proveedor para 2026 a nivel del holding, que abarca a Aquiii, Safa Health y las operaciones de soporte.

Preparado 2026-05-25

Escucha · briefing ejecutivo en audio

Briefing ejecutivo en audio. Dos voces, unos 17 minutos.


Descargar audio (.m4a)

La decisión

Estandarizar en ElevenLabs como el predeterminado para todo el holding. Es el único proveedor de 2026 que reúne TTS de primer nivel, STT preciso (Scribe v2), clonación de voz de las mejores de su clase, y despliegue nativo de agentes, telefonía y WhatsApp en un solo ecosistema. La amplitud, no la calidad bruta, es la razón por la que gana como predeterminado.

Desviarse dos veces: un pipeline de Azure + Deepgram para Safa Health (HIPAA), y Cartesia + Deepgram + Retell para telefonía de alto volumen. Autoalojar (Kokoro 82M) solo cuando el volumen de texto de una carga de trabajo supere de forma permanente los 10M de caracteres por mes.

01 Veredicto del panorama 2026

ElevenLabs ya no es el líder absoluto en calidad, pero sigue siendo la plataforma más completa.

Lectura: para un holding multiproducto con voz de marca, la amplitud del ecosistema supera a unos cuantos puntos de Elo. Estandarizar reduce el costo de integración entre las distintas empresas.

02 Stacks por empresa

A · Voz de la mascota de marca Aquiii / RiiiRiii

Consumo, español primero en México, personaje expresivo, pedidos por WhatsApp.

CapaElecciónPor qué
TTSElevenLabs Eleven v3más de 70 idiomas incl. es-MX, la emoción más profunda vía audio tags, clonación para fijar la voz exacta de la mascota
STTElevenLabs Scribe v2~4% WER, más de 90 idiomas, conversacional
OrquestaciónElevenLabs AgentsWhatsApp nativo de entrada/salida (mensajes + llamadas)
Mayor riesgoLatencia. v3 sacrifica velocidad por calidad (1-2s). Usa Flash v2.5 para los turnos en tiempo real; reserva v3 para contenido guionizado/expresivo.

B · Safa Health / Together

Cuidado de enfermedades crónicas, ES/EN/AR, maneja información de salud del paciente (PHI).

CapaElecciónPor qué
TTSAzure Neuralmás de 140 idiomas incl. árabe, HIPAA empresarial. Deepgram TTS es solo en inglés; la clonación de ElevenLabs no está cubierta por BAA
STTDeepgram Nova-3 MultilingualAlta precisión en audio con ruido, detección automática de idioma, BAA disponible para PHI
OrquestaciónPipeline encadenado (Pipecat / LiveKit) hacia un LLM elegible para HIPAA (Azure OpenAI)El audio de OpenAI Realtime NO es elegible para HIPAA a mayo de 2026
Mayor riesgoPérdida de velocidad en tiempo real. El cumplimiento obliga a un pipeline encadenado, así que espera entre 1.2 y 1.8s de extremo a extremo y una prosodia menos natural.

C · Agentes de soporte de Aquiii

Teléfono de entrada/salida, tiempo real, sensible al costo a escala.

CapaElecciónPor qué
TTSCartesia Sonic 3Líder en latencia (40ms TTFA), $50 / 1M de caracteres
STTDeepgram Nova-3Menos de 300ms, $0.0048 / min
OrquestaciónRetell AIHecho para telefonía: SIP, enrutamiento de entrada, transferencia cálida a un humano
Mayor riesgoDegradación del audio en PSTN. El audio telefónico G.711 a 8kHz afecta tanto la precisión del STT como la naturalidad del TTS frente al audio web.

03 Arco de costos · inicio, escala, propiedad

04 La realidad de HIPAA

La restricción de carga para Safa Health.

ElevenLabs PUEDE procesar PHI, de forma condicional

Solo con TODO lo siguiente: tier Enterprise + BAA firmado + Zero Retention Mode ACTIVADO + LLM restringido a una lista de permitidos aprobada (Gemini/Claude) o tus propias API keys.

Dos minas terrestres

Zero Retention Mode deshabilita WhatsApp de entrada y el cosido de peticiones/historial. No puedes tener a la vez el modo HIPAA y WhatsApp en el mismo agente.

La clonación de voz no está confirmada como cubierta por BAA y figura como no elegible para zero-retention. Trata una voz clonada + PHI como no conforme hasta que legal lo confirme.

OpenAI Realtime: la modalidad de audio NO es elegible para HIPAA. Cualquier voz de salud basada en OpenAI debe encadenar STT + TTS seguros para HIPAA alrededor de un LLM de texto.

Implicación: mantén a RiiiRiii (clonación + WhatsApp) y a Safa Health (HIPAA) en stacks separados. No fuerces una sola configuración de proveedor para servir a ambos.

05 Próximas acciones recomendadas

  1. Pilotear RiiiRiii en ElevenLabs: clona la voz de la mascota (PVC), construye un agente de pedidos por WhatsApp sobre Flash v2.5, reserva v3 para contenido guionizado.
  2. Prototipa el pipeline de Safa Health sobre Azure + Deepgram con un salto a un LLM de texto redactado; abre pronto la conversación de BAA con ambos proveedores (con acceso vía Enterprise).
  3. Compara una POC de telefonía (Cartesia + Deepgram + Retell) contra ElevenLabs Agents en un flujo real de soporte de Aquiii; decide con base en latencia y costo medidos, no en la hoja de especificaciones.
  4. Instrumenta el volumen por carga de trabajo para que el disparador de autoalojamiento de 10M de caracteres/mes se base en datos.
  5. Revisar en ~2 trimestres: Inworld y Gemini TTS están cerrando la brecha rápido en calidad y podrían cambiar el predeterminado.