Μία πρωτοπόρα προσπάθεια για τη δημιουργία καινοτόμων γλωσσολογικών πόρων για την Ελληνική προωθούν το ΟΠΑ και η Εθνική Βιβλιοθήκη Ελλάδος.
Η Ελληνική γλώσσα διαδίδεται στην εποχή του Ιντερνέτ και των ψηφιακών μέσων κατά κύριο λόγο μέσω online υπηρεσιών και ιστοσελίδων του Παγκόσμιου Ιστού (ΠΙ) ο οποίος είναι η κύρια πηγή αναζήτησης πληροφορίας και γνώσης. Οι πρόσφατες εξελίξεις στην Τεχνητή Νοημοσύνη έχουν παράξει τα τελευταία χρόνια πρωτοφανούς εκφραστικότητας διανυσματικές παραστάσεις λέξεων (word embeddings) και έχουν καθιερωθεί ως αναπόσπαστο μέρος των πόρων και μοντέλων για Επεξεργασία Φυσικής Γλώσσας.
Όπως επισημαίνεται στη σχετική ανακοίνωση, είναι χαρακτηριστική η έλλειψη τέτοιων γλωσσολογικών πόρων για την Ελληνική γλώσσα που να στηρίζεται σε μεγάλες ποσότητες κειμένου. Υπό τις συνθήκες αυτές η ερευνητική ομάδα «Εξόρυξης Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό» του Τμήματος Πληροφορικής του ΟΠΑ, υπό την επιστημονική επίβλεψη και καθοδήγηση του Δρ. Μιχάλη Βαζιργιάννη (Καθηγητής στο ΟΠΑ και την Ecole Polytechnique στη Γαλλία) έχει επιτύχει ένα σημαντικό επίτευγμα στο χώρο αυτό: την παραγωγή του πληρέστερου ως τώρα συνόλου γλωσσολογικών πόρων για την Ελληνική γλώσσα που παράχθηκε με τεχνικές Τεχνητής Νοημοσύνης από την μεγαλύτερη συλλογή κειμένων που υπήρξε ποτέ στην Ελληνική.
Συγκεκριμένα το έργο
- Αρχικά συνέλεξε το προσβάσιμο περιεχόμενο του Ελληνικού ΠΙ, περίπου 170 εκατομμύρια ιστοσελίδες, συνολικού μεγέθους περίπου 10 τρισεκατομμύρια χαρακτήρες, αξιοποιώντας διαδεδομένες τεχνολογίες και λογισμικά ανοικτού κώδικα.
- Με τις κατάλληλες τεχνικές μετα-επεξεργασίας, στην αιχμή της επιστήμης, δημιούργησε ένα ενιαίο ασυμπίεστο κείμενο, και από αυτό εξήγαγε τις μοναδικές λέξεις (περίπου 7 εκατομμύρια) που είναι ουσιαστικά το τρέχον και πλήρως ενημερωμένο λεξιλόγιο της Ελληνικής γλώσσας.
- Ανέπτυξε ένα πακέτο αυτόματης διόρθωσης του λεξιλογίου, που δίνει τη δυνατότητα για την εύρεση και καταχώρηση των νεοφυών λέξεων του υπό δημιουργία λεξικού.
- Αξιοποίησε σύγχρονες τεχνικές βαθέων νευρωνικών δικτύων για να παράγει διανυσματικές παραστάσεις λέξεων (word embeddings) για την Ελληνική γλώσσα – δίνοντας τη δυνατότητα για πολύπλοκες γλωσσολογικές αναζητήσεις (αναλογίες, ομοιότητες, κλπ).
Το σύνολο των παραπάνω πόρων θα είναι διαθέσιμο σαν ανοιχτό λογισμικό και δεδομένα για χρήση από την ερευνητική, ακαδημαϊκή και βιομηχανική κοινότητα της χώρας αλλά και διεθνώς. Δείγμα των γλωσσολογικών αυτών πόρων είναι διαθέσιμο στην ιστοσελίδα: http://archive.aueb.gr:7000/
Η προσπάθεια αυτή χρηματοδοτήθηκε μερικά από το Ίδρυμα Νιάρχου για λογαριασμό της Εθνικής Βιβλιοθήκης της Ελλάδος.