VK Video ha introducido nuevos algoritmos de inteligencia artificial para el reconocimiento automático de voz y la síntesis de subtítulos en videos, programas, clips y otros contenidos, informa el servicio de prensa de VK.
La precisión del análisis y el descifrado ha aumentado en un 25%, además, las redes neuronales ahora conocen miles de palabras nuevas, incluidos memes, nombres propios, acrónimos y términos profesionales.
Los subtítulos automáticos se generan utilizando modelos Ml que crean texto y colocan signos de puntuación, los sincronizan con el video. Para mejorar la precisión, la transmisión de audio pasa por varias etapas de procesamiento. La red neuronal filtra el ruido extraño, reconoce el habla y la convierte en texto.
Después de eso, se conectan los modelos de puntuación y desnormalización, que convierten un conjunto de palabras reconocidas en un texto conveniente y legible. A continuación, la IA sincroniza el texto resultante con la pista de audio. Todo esto permite que los subtítulos sean claros y cómodos tanto en vídeos profesionales como en vídeos amateurs.
En un futuro próximo, las redes neuronales aprenderán a dividir el habla de los diferentes hablantes en comentarios separados, lo que simplificará la percepción y la lectura de los subtítulos.
La popularidad de los subtítulos está creciendo. La proporción de usuarios que utilizan esta función en la versión web ha aumentado un 28% solo en el último mes, y ahora el 11% de la audiencia total de VK Video usa subtítulos.
La tecnología ayuda a las personas con discapacidades auditivas y también es conveniente para ver videos en condiciones en las que no es deseable encender el sonido.