Τεχνητή νοημοσύνη έμαθε να κερδίζει παιχνίδια της δεκαετίας του 1980

Παρασκευή, 26 Φεβρουαρίου 2021 22:12 •

Επιστήμονες ανέπτυξαν ενα πρόγραμμα υπολογιστή που μπορεί να κερδίζει μια σειρά παιχνιδιών πλατφόρμας/ εξερεύνησης της δεκαετίας του 1980, ανοίγοντας έτσι των δρόμο για πιο αυτόνομα ρομπότ.

Όπως γράφει το BBC, οι ερευνητές δημιούργησαν μια «οικογένεια» αλγορίθμων ικανών να κερδίζουν κλασικά παιχνίδια στο Atari, όπως το Pitfall. Στο παρελθόν αυτά τα παιχνίδια ήταν δύσκολο να κερδηθούν μέσω τεχνητής νοημοσύνης (ΑΙ).

Οι αλγόριθμοι αυτοί θα μπορούσαν να βοηθήσουν ρομπότ να πλοηγούνται καλύτερα σε περιβάλλοντα πραγματικού κόσμου- κάτι που συνεχίζει να αποτελεί σημαντική πρόκληση στους τομείς της ρομποτικής και της τεχνητής νοημοσύνης. Τα επίμαχα περιβάλλοντα περιλαμβάνουν περιοχές που έχουν πληγεί από καταστροφές, όπου τα ρομπότ θα μπορούσαν να αποστέλλονται προς αναζήτηση επιζώντων, ή ακόμα και το μέσο σπίτι.

Η συγκεκριμένη έρευνα εντάσσεται στο ευρύτερο πλαίσιο της έρευνας τεχνητής νοημοσύνης που είναι γνωστή ως reinforcement learning. Κάποια από τα παιχνίδια που χρησιμοποιήθηκαν στην έρευνα θέλουν ο παίκτης να εξερευνά λαβυρίνθους που περιέχουν ανταμοιβές, εμπόδια και κινδύνους. Η οικογένεια των αλγορίθμων, που είναι γνωστή συλλογικά ως Go-Explore, έχει δώσει σημαντικές βελτιώσεις σε σχέση με προηγούμενες προσπάθειες για να κερδίζονται τέτοια παιχνίδια- όπως πχ τα Montezuma’s Revenge, Freeway και Pitfall.

Μεταξύ άλλων, οι ερευνητές ανέπτυξαν αλγορίθμους που μπορούσαν να δημιουργούν αρχεία περιοχών που είχαν ήδη επισκεφθεί. «Η μέθοδός μας είναι όντως πολύ απλή και άμεση, αν και αυτό ισχύει συχνά με τα επιστημονικά επιτεύγματα» δήλωσαν στο BBC οι ερευνητές Αντριέν Εκοφέτ, Τζουστ Χουϊζίνγκα και Τζεφ Κλουν. «Ο λόγος που η προσέγγισή μας δεν είχε εξεταστεί στο παρελθόν είναι πως διαφέρει πολύ από την κυρίαρχη προσέγγιση που παραδοσιακά εχρησιμοποιείτο για την αντιμετώπιση αυτών των προβλημάτων στην κοινότητα του reinforcement learning, το αποκαλούμενο “intrinsic motivation”. Σε αυτό, αντί να διαχωρίζεται η εξερεύνηση στην επιστροφή και τη διερεύνηση όπως κάνουμε εμείς, ο δρων απλά ανταμείβεται για την ανακάλυψη νέων περιοχών».

Ένα πρόβλημα με την προσέγγιση του intrinsic motivation είναι πως, ενώ αναζητείται λύση, ο αλγόριθμος μπορεί να «ξεχνά» τις πολλά υποσχόμενες περιοχές που πρέπει ακόμα να εξερευνώνται. Αυτό είναι γνωστό ως «detachment». Οι ερευνητές βρήκαν τρόπο να το προσπερνούν αυτό: Δημιουργώντας αρχεί με τις περιοχές που έχει επισκεφθεί, ο αλγόριθμος μπορεί να επιστρέψει σε ένα υποσχόμενο ενδιάμεσο στάδιο του παιχνιδιού, ως ένα σημείο από όπου μπορεί να εξερευνά περαιτέρω.

Ωστόσο υπήρχε και ένα άλλο πρόβλημα με τις προηγούμενες προσεγγίσεις σε αυτά τα παιχνίδια: «Βασίζονται σε τυχαίες ενέργειες που μπορεί να ληφθούν σε οποιοδήποτε σημείο στον χρόνο, μεταξύ των οποίων και ενώ ο δρων πηγαίνει ακόμα προς την περιοχή που πρέπει να εξερευνηθεί» είπαν στο BBC News οι επιστήμονες. «Αν έχεις ένα περιβάλλον όπου οι ενέργειές σου πρέπει να είναι ακριβείς, όπως ένα παιχνίδι με πολλούς κινδύνους που μπορούν να σε σκοτώσουν άμεσα, τέτοιες τυχαίες ενέργειες μπορούν να σε εμποδίσουν από το να φτάσεις στην περιοχή που θες στα αλήθεια να εξερευνήσεις» (ο τεχνικός όρος για αυτό είναι derailment, εκτροχιασμός).

Η νέα μέθοδος, που περιγράφεται στο Nature, επιλύει το πρόβλημα του εκτροχιασμού διαχωρίζοντας τη διαδικασία της επιστροφής σε προηγούμενες περιοχές από τη διαδικασία της εξερεύνησης νέων- και το επιλύει με διαφορετικούς τρόπους.

Προτιμώμενη πηγή στην Google

Για να εμφανίζονται περισσότερα άρθρα της Ναυτεμπορικής στις αναζητήσεις σας εύκολα και γρήγορα, πρέπει να προσθέσετε το site στις προτιμώμενες πηγές σας. Μπορείτε να το κάνετε πηγαίνοντας εδώ.

Παρακολουθήστε ζωντανά εδώ το Naftemporiki TV

Ακολουθήστε μας στο Messenger και μάθετε πρώτοι όλες τις ειδήσεις!

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις!

Κάντε λήψη της εφαρμογής της «Ν» στο App Store!

Κάντε λήψη της εφαρμογής της «Ν» στο Google Play!

Ακολουθήστε μας στο επίσημο κανάλι της «Ν» στο Viber

Ακολουθήστε μας στο επίσημο κανάλι της «Ν» στο Youtube

Realtime ΓΔ	23,11 0,91% 2.560,34
Τζίρος	296.96 εκ
Τελ. Ενημ.	17:27
Με μία ματιά	REAL TIME ΤΑΜΠΛΟ

SPX	7544.3	0.816%
DAX	25817.89	0.1497%
SXXP	652.77	0.6817%
Όλοι οι Ξένοι Δείκτες

EUR/USD	1.14429
EUR/CHF	0.9211
USD/ZAR	16.1963
Όλες οι Ισοτιμίες

BTC/USD	63646.6
Χρυσός	4161.18

Αγορές