Skip to main content

Αυτόματο «ρετούς» φωτογραφίας σε πραγματικό χρόνο

Ερευνητές του Computer Science and Artificial Intelligence Laboratory του MIT ανέπτυξαν ένα σύστημα το οποίο μπορεί να προβεί σε αυτόματο «ρετούς» φωτογραφιών, έτσι ώστε να παραπέμπουν σε εικόνες- προϊόντα επαγγελματικής φωτογράφησης, ενώ ταυτόχρονα έχει ενεργειακές απαιτήσεις τόσο χαμηλές, ώστε να μπορεί να «τρέχει» σε smartphone.

Παράλληλα, είναι τόσο ταχύ ώστε να μπορεί να προβάλλει ρετουσαρισμένες εικόνες σε πραγματικό χρόνο, έτσι ώστε ο φωτογράφος να μπορεί να δει την τελική εκδοχή της εικόνας, ενώ ακόμα «σημαδεύει» για να τραβήξει τη φωτογραφία.

Όπως αναφέρει το MIT News, το ίδιο σύστημα μπορεί επίσης να βελτιώσει/ επιταχύνει υπάρχοντες αλγορίθμους επεξεργασίας εικόνας. Σε δοκιμές με νέο αλγόριθμο της Google για την παραγωγή εικόνων HDR, (high dynamic range), οι οποίες «πιάνουν» αποχρώσεις οι οποίες χάνονται στις κανονικές ψηφιακές εικόνες, το νέο σύστημα απέδωσε οπτικά αποτελέσματα τα οποία ήταν σχεδόν πανομοιότυπα με αυτά του αλγορίθμου, μέσα στο 1/10 του χρόνου- επαρκώς γρήγορα για χρήση σε πραγματικό χρόνο.

Πρόκειται για σύστημα machine-learning, κάτι που σημαίνει πως «μαθαίνει« να λειτουργεί αναλύοντας δεδομένα εν είδει «εκπαίδευσης»- σε αυτή την περίπτωση, για κάθε νέα λειτουργία που «έμαθε», εκπαιδεύτηκε σε χιλιάδες ζεύγη εικόνων- ρετουσαρισμένες και μη.

Το όλο εγχείρημα βασίζεται σε ένα προηγούμενο project των ερευνητών του ΜΙΤ, όπου ένα κινητό τηλέφωνο έστελνε μια έκδοση χαμηλής ανάλυσης μιας εικόνας σε έναν web server. Ο server στη συνέχεια απαντούσε στέλνοντας μια «συνταγή μεταμόρφωσης» που μπορούσε να χρησιμοποιηθεί για ρετούς της υψηλής ανάλυσης έκδοσης της φωτογραφίας στο τηλέφωνο, μειώνοντας την κατανάλωση bandwidth.

«Η Google έμαθε για τη δουλειά που είχα κάνει στη “συνταγή μεταμόρφωσης”» λέει ο Μίκαελ Γκάρμπι, τελειόφοιτος του MIT σε ηλεκτρολογία- μηχανολογία και επιστήμη υπολογιστών, και πρώτος συντάκτης και στα δύο papers. «Οι ίδιοι συνέχισαν, οπότε συναντηθήκαμε και ενώσαμε τις δύο προσεγγίσεις. Η ιδέα ήταν να κάνουμε ότι κάναμε και πριν, αλλά αντί να προβαίνουμε σε επεξεργασία στο cloud, να το “μαθαίνουμε”. Και ο πρώτος σκοπός της εκμάθησης ήταν να το επιταχύνουμε».

Στην ουσία, αυτό που κάνει το σύστημα είναι να μην παράγει ακριβώς εικόνα, αλλά ένα σετ από απλές φόρμουλες για τροποποίηση των χρωμάτων των πίξελ της εικόνας. Επίσης, χρησιμοποιεί και μια τεχνική η οποία καθορίζει το πώς αυτές οι φόρμουλες εφαρμόζονται σε μεμονωμένα πίξελ σε μια εικόνα υψηλής ανάλυσης. Αυτό που προκέπτει είναι ένα «πλέγμα», που απεικονίζει τις θέσεις και τις εντάσεις των πίξελ- και συνοδεύεται από τις φόρμουλες, οι οποίες καθορίζουν τις μεταβολές του χρώματος.

Οι ερευνητές εκπαίδευσαν το σύστημά τους σε ένα data set από την ομάδα ενός εξ αυτών, του καθηγητή ηλεκτρολογίας- μηχανολογίας και επιστήμης υπολογιστών του ΜΙΤ, Φρέντο Ντουράντ, και από την Adobe Systems (Photoshop). Το data set αυτό περιλαμβάνει 5.000 εικόνες, που η καθεμία έχει ρετουσαριστεί από πέντε διαφορετικούς φωτογράφους. Επίσης εκπαίδευσαν το σύστημά τους σε χιλιάδες ζεύγη φωτογραφιών- προϊόντων επεξεργασίας από αλγορίθμους επεξεργασίας εικόνων. Εν τέλει, σύγκριναν τις επιδόσεις του συστήματός τους με αυτές ενός συστήματος machine learning που επεξεργάζεται εικόνες σε πλήρη ανάλυση (και όχι σε χαμηλή). Κατά την επεξεργασία, η έκδοση πλήρους ανάλυσης χρειαζόταν 12 GB μνήμης για τη λειτουργία της- ενώ η ειδική έκδοση των ερευνητών ήθελε μόλις 100 MB.