Skip to main content

Google: Βελτίωση βιντεοκλήσεων με τεχνητή νοημοσύνη

Η Google ελπίζει να δώσει τέλος στις χαμηλής ποιότητας βιντεοκλήσεις χρησιμοποιώντας τεχνητή νοημοσύνη για να καλύπτει κενά ήχου που προκαλούνται από κακές συνδέσεις.

Όπως αναφέρει το BBC, το WaveNetEQ λειτουργεί χρησιμοποιώντας μια «βιβλιοθήκη» δεδομένων ομιλίας για να συμπληρώνει με ρεαλιστικό/ αληθοφανή τρόπο σύντομα τμήματα συζητήσεων. Η τεχνητή νοημοσύνη εκπαιδεύεται να παράγει κυρίως ήχους συλλαβών και μπορεί να συμπληρώνει κενά μέχρι και 120 μιλισεκόντ.

Η εξέλιξη αυτά λαμβάνει χώρα καθώς η χρήση των βιντεοκλήσεων γίνεται ολοένα και πιο σημαντική, δεδομένης της κρίσης της πανδημίας κορονοϊού.

Όταν λαμβάνει χώρα μια κλήση μέσω Ίντερνετ, τα δεδομένα χωρίζονται σε μικρά κομμάτια, τα packets. Μια κακή σύνδεση μπορεί να σημαίνει πως αυτά τα πακέτα φτάνουν στον προορισμό τους με λάθος σειρά και λάθος στιγμή, ή χάνονται εντελώς. Αυτό συνεπάγεται κακή ποιότητα κλήσης.

Σύμφωνα με τη Google, το 99% των κλήσεων που γίνονται μέσω της εφαρμογής της Duo βιώνουν κάποιου είδους πρόβλημα με τον ήχο. Από αυτές τις κλήσεις, το 20% χάνουν πάνω από το 3% του συνολικού τους ήχου, ενώ το 10% χάνουν σχεδόν το 1/10.

Το WaveNetHQ λειτουργεί δημιουργώντας συγκεκριμένα δεδομένα ομιλίας για να καλύπτει γτα κενά που δημιουργούνται από απώλειες audio. H τεχνητή νοημοσύνη εκπαιδεύτηκε χρησιμοποιώντας τις φωνές 100 ατόμων σε 48 γλώσσες για να μπορέσει να «μάθει» τα γενικά χαρακτηριστικά μιας ανθρώπινης γλώσσας, ανεξαρτήτως διαλέκτου.

Όπως αναφέρει το BBC, το σύστημα είναι διαθέσιμο στο smartphone Pixel 4 της Google, με την εταιρεία να σχεδιάζει να το περάσει και σε περισσότερες συσκευές Android αργότερα μέσα στο έτος.