Τεχνητή Νοημοσύνη της Google κέρδισε πρωταθλητή του «Γκο»

Σάββατο, 30 Ιανουαρίου 2016 23:40
Twitter/@demishassabis

Υπολογιστής κέρδισε για πρώτη φορά πρωταθλητή του «Γκο»: Πρόκειται για ένα αρχαίο επιτραπέζιο παιχνίδι (για κάποιους το ασιατικό «αντίπαλον δέος» του σκακιού) το οποίο εδώ και πάρα πολύ καιρό αποτελούσε μια από τις μεγαλύτερες προκλήσεις στον χώρο της Τεχνητής Νοημοσύνης.

Πίσω από το εν λόγω επίτευγμα βρίσκεται η DeepMind της Google και του Ντέμη Χασάμπη, η οποία ισχυρίζεται ότι το μηχάνημά της πλέον «κατέχει» το παιχνίδι. Σημειώνεται ότι, παρά τους απλούς κανόνες του, το παιχνίδι είναι ιδιαίτερα πολύπλοκο, λόγω του ασύλληπτα τεράστιου αριθμού θέσεων και συνδυασμών που είναι δυνατοί- και ως εκ τούτου είναι πάρα πολύ δύσκολο για την Τεχνητή Νοημοσύνη. «Οι παραδοσιακές μέθοδοι Τεχνητής Νοημοσύνης- με τη δημιουργία ενός “δέντρου αναζήτησης” με όλες τις δυνατές θέσεις- δεν έχουν ελπίδα στο Γκο. Οπότε, όταν ξεκινήσαμε για να “σπάσουμε” το Γκο, πήραμε διαφορετική προσέγγιση. Φτιάξαμε ένα σύστημα, το AlphaGo, το οποίο συνδυάζει ένα προηγμένο tree search με βαθιά νευρικά δίκτυα (deep neural networks). Αυτά τα νευρικά δίκτυα παίρνουν μια περιγραφή του ταμπλό του Γκο ως πληροφορία/ input και την επεξεργάζονται μέσα από 12 διαφορετικά στρώματα δικτύου, που περιέχουν εκατομμύρια συνδέσεις στα πρότυπα νευρώνων. Ένα νευρικό δίκτυο, το “δίκτυο πολιτικής”, επιλέγει την επόμενη κίνηση. Το άλλο νευρικό δίκτυο, το “δίκτυο αξίας” προβλέπει τον νικητή του παιχνιδιού» αναφέρεται σε δημοσίευση του κ. Χασάμπη στο επίσημο blog της Google.

Εν συνεχεία, τα δίκτυα εκπαιδεύτηκαν πάνω σε 30 εκατ. κινήσεις από παιχνίδια που παίχτηκαν από ανθρώπους παίκτες, μέχρι που το πρόγραμμα ήταν σε θέση να προβλέψει την ανθρώπινη κίνηση στο 57% των περιπτώσεων (το προηγούμενο ρεκόρ ήταν 44%). «Αλλά ο στόχος μας ήταν να νικήσουμε τους καλύτερους ανθρώπους παίκτες, όχι να τους μιμηθούμε» γράφει ο Χασάμπης.

Οπότε, το AlphaGo έμαθε να ανακαλύπτει μόνο του νέες στρατηγικές, παίζοντας χιλιάδες παιχνίδια μεταξύ των νευρικών δικτύων του, και προσαρμόζοντας τις συνδέσεις μέσω μιας διαδικασίας trial and error, γνωστή ως reinforcement learning. Αυτό απαιτεί πολύ μεγάλη υπολογιστική ισχύ, οπότε και χρησιμοποιήθηκε το Google Cloud Platform.

Το AlphaGo δοκιμάστηκε σε πρώτη φάση σε ένα τουρνουά με τα άλλα κορυφαία προγράμματα, με το AlphaGo να χάνει μόνο ένα από τα 500 παιχνίδια. Οπότε στη συνέχεια ζητήθηκε από τον τρεις φορές πρωταθλητή Ευρώπης, Φαν Χούι, να παίξει εναντίον του προγράμματος. Σε μια σειρά παιχνιδιών κεκλεισμένων των θυρών στο Λονδίνο, ο άνθρωπος πρωταθλητής ηττήθηκε 5-0. Θα ακολουθήσει μια ακόμα μεγαλύτερη πρόκληση: πέντε παιχνίδια εναντίον του Λι Σεντόλ, του κορυφαίου παίκτη Γκο στον κόσμο, στη Σεούλ.

Καταλήγοντας, ο Χασάμπης υπογραμμίζει ότι το πρόγραμμα χρησιμοποιεί γενικούς κανόνες machine learning για να διαπιστώνει το πώς κερδίζει στο Γκο. «Τη στιγμή που τα παιχνίδια είναι η τέλεια πλατφόρμα για την ανάπτυξη και τη δοκιμή αλγορίθμων ΑΙ γρήγορα και αποτελεσματικά, εν τέλει θέλουμε να εφαρμόζουμε αυτές τις τεχνικές σε σημαντικά προβλήματα του πραγματικού κόσμου. Επειδή οι μέθοδοι που χρησιμοποιούμε είναι γενικού χαρακτήρα, ελπίζουμε ότι κάποια ημέρα θα μπορούσαν να επεκταθούν για να μας βοηθήσουν να λύσουμε κάποια από τα σκληρότερα και πιο πιεστικά προβλήματα της κοινωνίας, από κλιματικά μοντέλα μέχρι ανάλυση ασθενειών».

Η έρευνα δημοσιεύθηκε στο Νature στις 27 Ιανουαρίου. Όπως αναφέρεται χαρακτηριστικά στο σχετικό δημοσίευμα, η βασική διαφοροποίηση σε σχέση με ανάλογα επιτεύγματα του παρελθόντος, όπως τη νίκη του Deep Blue επί του Γκάρι Κασπάροφ στο σκάκι το 1997, ο υπολογιστής της ΙΒΜ ήταν ειδικά προγραμματισμένος για να κερδίζει στο παιχνίδι, ωστόσο το AlphaGo «έμαθε» χρησιμοποιώντας έναν αλγόριθμο γενικών σκοπών, που του επέτρεψε να ερμηνεύει τα μοτίβα του παιχνιδιού.

Σημειώνεται ότι και το Facebook δουλεύει πάνω σε λογισμικό που χρησιμοποιεί machine learning για να παίξει Γκο: Πρόκειται για ένα πρόγραμμα ονόματι darkforest, το οποίο φαίνεται όμως να βρίσκεται ακόμα σε σχετικά αρχικό στάδιο. Σε πρόσφατο (Τετάρτη) post του στο Facebook ο Μαρκ Ζάκερμπεργκ έγραψε ότι πέρυσι η ομάδα έρευνας Τεχνητής Νοημοσύνης της εταιρείας άρχισε να δημιουργεί μια ΑΙ που μπορεί να μάθει να παίζει Γκο. «Μέσα στους τελευταίους έξι μήνες φτιάξαμε μια ΑΙ που μπορεί να κάνει κινήσεις μέσα σε 0,1 δευτερόλεπτα και ακόμα να είναι το ίδιο ικανή με παλαιότερα συστήματα, που χρειάστηκαν χρόνια για να φτιαχτούν. Η Τεχνητή Νοημοσύνη μας συνδυάζει μια search-based προσέγγιση που δημιουργεί μοντέλα κάθε δυνατής κίνησης, καθώς το παιχνίδι προχωρά μαζί με ένα σύστημα αναγνώρισης μοτίβου, φτιαγμένο από την ομάδα computer vision μας. Ο ερευνητής που δουλεύει σε αυτό, ο Γιουαντόνγκ Τιάν, κάθεται περίπου 6 μέτρα από το γραφείο μου. Λατρεύω να έχω την ομάδα Τεχνητής Νοημοσύνης μας κοντά μου, για να μαθαίνω από αυτά πάνω στα οποία δουλεύουν».