LypSinc di YouTube

12.03.2021

Una sfida basata sull'intelligenza artificiale che valuta quanto la sincronizzazione labiale corrisponda alla canzone! Questo esperimento utilizza la tecnologia AI di Google TensorFlow.js che rileva i punti di riferimento sul tuo viso utilizzando l'apprendimento automatico in esecuzione nel browser.

COME FUNZIONA

Utilizzo di TensorFlow.js facemesh

Il modello di maschera facciale TensorFlow fornisce una stima in tempo reale ad alta densità dei punti chiave della tua espressione facciale utilizzando solo una webcam e l'apprendimento automatico sul dispositivo. Usiamo i punti chiave intorno alla bocca e alle labbra per stimare quanto bene ti sincronizzi con il testo della canzone.

Misurare la forma della bocca

Esistono molti modi diversi per misurare la forma della bocca. L'azienda Google aveva bisogno di una tecnica che permettesse all'utente di muovere la testa mentre canta e che sia relativamente indulgente con diverse forme della bocca, dimensioni e distanza dalla telecamera.

Per questo ha deciso di utilizzare OpenCV matchShapes Hu Moments.

Nella libreria OpenCV, c'è una funzione matchShapes che confronta i contorni e restituisce un punteggio di somiglianza. Sotto il cofano, la funzione matchShapes utilizza una tecnica chiamata Hu Moments che fornisce una serie di numeri calcolati utilizzando momenti centrali invarianti alle trasformazioni dell'immagine. Questo ha permesso di confrontare le forme indipendentemente da traslazione, scala e rotazione. In questo modo l'utente può ruotare liberamente la testa senza influire sul rilevamento della forma della bocca stessa.

Per utilizzare OpenCV matchShapes per confrontare la forma della bocca, ci sarebbe bisogno di creare un'immagine dai punti chiave del viso. Quindi, vengono usati i punti chiave intorno alla bocca per creare un'immagine in bianco e nero sia per la linea di base che per l'input dell'utente.

Clicca su LIPSYNC per provarlo:

LIpsync