Nos cambiamos a Groq y nuestra transcripción es 10 veces más rápida

La semana pasada activamos nuestro nuevo backend de transcripción. Si has procesado un video recientemente, probablemente lo notaste — ahora es rápido. Notablemente rápido.

Esto es lo que pasó.

El antes

Desde el lanzamiento, hemos estado ejecutando Whisper Large V3 en instancias GPU. La configuración funcionaba bien. Un video de 5 minutos tardaba unos 20-30 segundos en transcribirse, dependiendo de la carga del servidor. No estaba mal, no estaba genial.

El problema era el escalado. Las instancias GPU son caras, y nuestra cola se atascaba durante las horas pico. Los usuarios subían un video y esperaban de 45 segundos a un minuto solo para la transcripción. Para una herramienta cuya propuesta de valor es "subtítulos rápidos", esa espera estaba empezando a socavar la experiencia.

Exploramos algunas opciones: más instancias GPU (caro), modelos más pequeños (peor precisión), optimizaciones por lotes (ganancias marginales). Ninguna se sentía bien.

La opción Groq

Entonces probamos la inferencia de LPU (Language Processing Unit) de Groq para Whisper. El primer benchmark me hizo recargar la página porque pensé que el temporizador estaba roto.

Un video de 10 minutos. Transcrito en 3.7 segundos. Eso es 164x la velocidad en tiempo real.

Lo corrí de nuevo. Mismo resultado. Lo corrí en un episodio de podcast de 30 minutos. 11 segundos.

La precisión era idéntica — es el mismo modelo Whisper Large V3, solo ejecutándose en hardware diferente. Mismo 8.4% de tasa de error por palabra, mismo soporte de idiomas, mismas marcas de tiempo a nivel de palabra. La única diferencia es la velocidad.

Lo que esto significa para los usuarios

Procesamiento más rápido. La transcripción solía ser el cuello de botella. Ahora el renderizado es el cuello de botella (y el renderizado ya era rápido). El tiempo de procesamiento de extremo a extremo para un TikTok típico de 3 minutos pasó de ~45 segundos a ~15 segundos.

Sin más esperas en la cola. Porque cada transcripción es tan rápida, la cola prácticamente nunca se atasca. El rendimiento en horas pico ahora es igual que fuera de las horas pico.

Mejores marcas de tiempo por palabra. Esto nos sorprendió. La implementación de Groq devuelve marcas de tiempo a nivel de palabra ligeramente más precisas que nuestra configuración anterior. Estamos hablando de mejoras a nivel de milisegundos, pero hace que las animaciones de subtítulos sean notablemente más fluidas — las palabras aparecen exactamente cuando se pronuncian, no 50ms antes o después.

La migración

El cambio fue relativamente sencillo. Nuestro worker de transcripción ya abstraía la API de Whisper detrás de una interfaz, así que cambiar el backend fue principalmente un cambio de configuración. La parte complicada fue manejar las diferencias en el formato de respuesta y asegurarse de que nuestra normalización de marcas de tiempo funcionara correctamente con la salida de Groq.

Ejecutamos ambos backends en paralelo durante una semana, comparando salidas lado a lado. La precisión estaba dentro del margen de error (a veces Groq era ligeramente mejor, a veces nuestra configuración anterior era mejor, nunca una diferencia significativa). La velocidad fue consistentemente 8-12x más rápida.

Una cosa que sí cambiamos: porque la transcripción ahora es tan rápida, eliminamos el polling de progreso para el paso de transcripción. Solía mostrar "Transcribiendo... 40%... 60%..." — pero ahora va de "Transcribiendo" a "Listo" tan rápido que la barra de progreso solo parpadeaba. Lo simplificamos a un único estado "Procesando" que cubre tanto la transcripción como el renderizado.

La pregunta del costo

Groq es en realidad más barato por minuto de audio que ejecutar nuestras propias instancias GPU. No compartiré números exactos, pero la reducción de costos fue lo suficientemente significativa como para reinvertir los ahorros en capacidad de renderizado. Ahora ejecutamos más workers de renderizado concurrentes, lo que reduce aún más los tiempos de espera.

99 idiomas, detección automática

Una cosa más que habilitamos con esta migración: detección automática de idioma en los 99 idiomas que soporta Whisper. Anteriormente, teníamos un selector de idioma que por defecto estaba en inglés y requería cambio manual. Ahora el modelo detecta el idioma automáticamente.

Esto importa más de lo que crees. Muchos de nuestros usuarios crean contenido en múltiples idiomas, o tienen videos con audio en idiomas mixtos. Eliminar el paso manual de selección de idioma elimina un punto de fricción más.

El nuevo backend de transcripción está en vivo para todos los usuarios. Si procesas un video hoy, ya estás en Groq. Cuéntanos si notas la diferencia de velocidad — nosotros sí la notamos.