Safa Global · Voz con IA
Una decisión de proveedor para 2026 a nivel del holding, que abarca a Aquiii, Safa Health y las operaciones de soporte.
Briefing ejecutivo en audio. Dos voces, unos 17 minutos.
La decisión
Estandarizar en ElevenLabs como el predeterminado para todo el holding. Es el único proveedor de 2026 que reúne TTS de primer nivel, STT preciso (Scribe v2), clonación de voz de las mejores de su clase, y despliegue nativo de agentes, telefonía y WhatsApp en un solo ecosistema. La amplitud, no la calidad bruta, es la razón por la que gana como predeterminado.
Desviarse dos veces: un pipeline de Azure + Deepgram para Safa Health (HIPAA), y Cartesia + Deepgram + Retell para telefonía de alto volumen. Autoalojar (Kokoro 82M) solo cuando el volumen de texto de una carga de trabajo supere de forma permanente los 10M de caracteres por mes.
ElevenLabs ya no es el líder absoluto en calidad, pero sigue siendo la plataforma más completa.
Lectura: para un holding multiproducto con voz de marca, la amplitud del ecosistema supera a unos cuantos puntos de Elo. Estandarizar reduce el costo de integración entre las distintas empresas.
Consumo, español primero en México, personaje expresivo, pedidos por WhatsApp.
| Capa | Elección | Por qué |
|---|---|---|
| TTS | ElevenLabs Eleven v3 | más de 70 idiomas incl. es-MX, la emoción más profunda vía audio tags, clonación para fijar la voz exacta de la mascota |
| STT | ElevenLabs Scribe v2 | ~4% WER, más de 90 idiomas, conversacional |
| Orquestación | ElevenLabs Agents | WhatsApp nativo de entrada/salida (mensajes + llamadas) |
| Mayor riesgo | Latencia. v3 sacrifica velocidad por calidad (1-2s). Usa Flash v2.5 para los turnos en tiempo real; reserva v3 para contenido guionizado/expresivo. | |
Cuidado de enfermedades crónicas, ES/EN/AR, maneja información de salud del paciente (PHI).
| Capa | Elección | Por qué |
|---|---|---|
| TTS | Azure Neural | más de 140 idiomas incl. árabe, HIPAA empresarial. Deepgram TTS es solo en inglés; la clonación de ElevenLabs no está cubierta por BAA |
| STT | Deepgram Nova-3 Multilingual | Alta precisión en audio con ruido, detección automática de idioma, BAA disponible para PHI |
| Orquestación | Pipeline encadenado (Pipecat / LiveKit) hacia un LLM elegible para HIPAA (Azure OpenAI) | El audio de OpenAI Realtime NO es elegible para HIPAA a mayo de 2026 |
| Mayor riesgo | Pérdida de velocidad en tiempo real. El cumplimiento obliga a un pipeline encadenado, así que espera entre 1.2 y 1.8s de extremo a extremo y una prosodia menos natural. | |
Teléfono de entrada/salida, tiempo real, sensible al costo a escala.
| Capa | Elección | Por qué |
|---|---|---|
| TTS | Cartesia Sonic 3 | Líder en latencia (40ms TTFA), $50 / 1M de caracteres |
| STT | Deepgram Nova-3 | Menos de 300ms, $0.0048 / min |
| Orquestación | Retell AI | Hecho para telefonía: SIP, enrutamiento de entrada, transferencia cálida a un humano |
| Mayor riesgo | Degradación del audio en PSTN. El audio telefónico G.711 a 8kHz afecta tanto la precisión del STT como la naturalidad del TTS frente al audio web. | |
La restricción de carga para Safa Health.
Solo con TODO lo siguiente: tier Enterprise + BAA firmado + Zero Retention Mode ACTIVADO + LLM restringido a una lista de permitidos aprobada (Gemini/Claude) o tus propias API keys.
Zero Retention Mode deshabilita WhatsApp de entrada y el cosido de peticiones/historial. No puedes tener a la vez el modo HIPAA y WhatsApp en el mismo agente.
La clonación de voz no está confirmada como cubierta por BAA y figura como no elegible para zero-retention. Trata una voz clonada + PHI como no conforme hasta que legal lo confirme.
OpenAI Realtime: la modalidad de audio NO es elegible para HIPAA. Cualquier voz de salud basada en OpenAI debe encadenar STT + TTS seguros para HIPAA alrededor de un LLM de texto.
Implicación: mantén a RiiiRiii (clonación + WhatsApp) y a Safa Health (HIPAA) en stacks separados. No fuerces una sola configuración de proveedor para servir a ambos.