SenseTime desarrolla una IA capaz de crear deepfakes realistas



La inteligencia artificial puede aplicarse en innumerables campos y uno de los más controvertidos es el de la manipulación de vídeos. Estos clips manipulados, conocidos como deepfakes, suponen un reto para las grandes plataformas sociales como Facebook, y no paran de mejorar y ser más difíciles de detectar. Prueba de ello es la nueva IA de SenseTime , el gigante tecnológico de Hong Kong, que es capaz de crear deepfakes realistas.


Resumiendo su funcionamiento, la IA detecta elementos como la expresión, la geometría y la pose de la cara en cada fotograma de un vídeo. Posteriormente, explican los autores del artículo, "se introduce una red recurrente para traducir el audio de origen en parámetros de expresión que están relacionados con el contenido del audio." Estos parámetros de expresión se utilizan para sintetizar un "humano fotorrealista" en cada fotograma del vídeo "con el movimiento de las regiones de la boca mapeado con precisión al audio fuente".


¿En qué se traduce esto? En que el vídeo generado emula las expresiones faciales que se interpretan a partir del clip de audio original, pero respetando la pose y las características del rostro del sujeto, lo que da como resultado un vídeo realista que, según pudieron comprobar los autores del estudio, es difícil de detectar a simple vista por los usuarios.

Mapeo de un vídeo utilizando el audio como fuente



Esquema del funcionamiento de la IA de SenseTime. Como se puede ver, la IA vincula el clip de audio con las expresiones faciales para posteriormente aplicar estas expresiones faciales a un vídeo.


La metodología seguida por los investigadores es relativamente sencilla. Se puede ver un esquema en la imagen superior y se puede resumir en tres pasos:


Registrar un modelo facial paramétrico en 3D que incluye, como decíamos, la geometría de la cara, la pose y los parámetros de la expresión en cada fotograma del vídeo.

La red de traducción de audio a expresión "aprende" el mapeo de la fuente de audio para aplicar los parámetros de expresión. 


A esto se le aplica la red de eliminación de ID de audio, que sirve para eliminar los problemas de grandes variaciones cuando se utilizan audios de diferentes personas. Es importante, ya que los escasos conjuntos de datos de vídeo disponibles incluyen sujetos diferentes, cada uno con su acento y su tono.


Por último, se genera una malla facial 3D reestructurada utilizando los puntos de referencia de la región de la boca en cada fotograma. Dicho de otro modo, el rostro generado por la IA mueve la cara y la boca para simular que está diciendo lo que se dice en el audio original, lo que hace que el vídeo sea fotorrealista.


En otras palabras, la Inteligencia Artificial de SenseTime puede tomar un clip de cualquier persona y hacerle decir lo que sea respetando la expresión facial y los movimientos del sujeto, pero aplicando expresiones faciales extraídas del clip de audio. 


Es curioso, de hecho, que la IA funcione incluso con poses diferentes. En el minuto 2:36 del vídeo bajo estas líneas puedes ver un ejemplo. Los resultados son de lo más realistas, hasta el punto de que la IA puede hacer cantar a una persona (3:26 del vídeo de abajo).


En el vídeo de arriba se muestran varios ejemplos y llama la atención el detalle de la textura de la cara, los dientes, el movimiento de los labios, las líneas faciales e incluso los hoyuelos. El modelo, eso sí, no es perfecto, ya que no es capaz de imitar emociones ni de estimar los sentimientos expresados en el clip de audio que se utiliza como fuente, sólo recoge las expresiones faciales asociadas.


Del mismo modo, se ignora la lengua, lo que significa que algunos fonemas como la "z" (cuya pronunciación requiere poner la lengua entre los dientes) no se emulan de forma natural. Por último, los investigadores destacan que el modelo tiende a ofrecer peores resultados cuando el clip de audio original tiene mucho acento . Ponen el ejemplo de una persona que habla inglés con acento ruso, cuyo clip de audio no se sincroniza bien con la malla 3D sintetizada por la IA.


En este GIF, el vídeo generado está diciendo "many to one results" y se puede ver cómo los gestos de la boca y la cara coinciden perfectamente con el audio original. Literalmente, casi se pueden leer los labios del sujeto para saber qué está diciendo - VentureBeat


Sea como fuere, los clips se evaluaron mostrándolos a un equipo de 100 voluntarios que debían marcar si un vídeo era verdadero o había sido sintetizado. En total fueron 168 vídeos, la mitad falsos y la otra mitad verdaderos, y el resultado fue que los vídeos generados por la IA fueron etiquetados como reales el 55% de las veces, mientras que los vídeos reales lo fueron el 70,1% de las veces.


Se trata de un proyecto interesante que podría servir, como dicen los investigadores, "para avanzar en la edición de vídeos." Sin embargo, también son conscientes de que tiene "potencial" para ser "mal utilizado o abusado" con diferentes fines, como la manipulación de los medios de comunicación o la difusión de propaganda maliciosa. 


Precisamente por ello, afirman, "defendemos y apoyamos firmemente todas las medidas de salvaguarda contra estas prácticas de explotación" y "acogemos con satisfacción la promulgación y aplicación de una legislación que exija que todos los vídeos editados estén claramente etiquetados como tales".


Artículo traducido y adaptado de Findnow


Comentarios

Entradas más populares de este blog

Guardianes de la Galaxia no debería continuar sin James Gunn

OpenAI lanza GPT-4, una IA multimodal con soporte de imágenes

Lionel Messi, el héroe del Mundial, ha batido el récord de publicaciones en Instagram con más seguidores.