ΟΠΑ: Η τεχνητή νοημοσύνη στην υπηρεσία γλωσσολογικών πόρων για την Ελληνική

Δευτέρα, 7 Μαΐου 2018 13:06 •

Μία πρωτοπόρα προσπάθεια για τη δημιουργία καινοτόμων γλωσσολογικών πόρων για την Ελληνική προωθούν το ΟΠΑ και η Εθνική Βιβλιοθήκη Ελλάδος.

Η Ελληνική γλώσσα διαδίδεται στην εποχή του Ιντερνέτ και των ψηφιακών μέσων κατά κύριο λόγο μέσω online υπηρεσιών και ιστοσελίδων του Παγκόσμιου Ιστού (ΠΙ) ο οποίος είναι η κύρια πηγή αναζήτησης πληροφορίας και γνώσης. Οι πρόσφατες εξελίξεις στην Τεχνητή Νοημοσύνη έχουν παράξει τα τελευταία χρόνια πρωτοφανούς εκφραστικότητας διανυσματικές παραστάσεις λέξεων (word embeddings) και έχουν καθιερωθεί ως αναπόσπαστο μέρος των πόρων και μοντέλων για Επεξεργασία Φυσικής Γλώσσας.

Όπως επισημαίνεται στη σχετική ανακοίνωση, είναι χαρακτηριστική η έλλειψη τέτοιων γλωσσολογικών πόρων για την Ελληνική γλώσσα που να στηρίζεται σε μεγάλες ποσότητες κειμένου. Υπό τις συνθήκες αυτές η ερευνητική ομάδα «Εξόρυξης Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό» του Τμήματος Πληροφορικής του ΟΠΑ, υπό την επιστημονική επίβλεψη και καθοδήγηση του Δρ. Μιχάλη Βαζιργιάννη (Καθηγητής στο ΟΠΑ και την Ecole Polytechnique στη Γαλλία) έχει επιτύχει ένα σημαντικό επίτευγμα στο χώρο αυτό: την παραγωγή του πληρέστερου ως τώρα συνόλου γλωσσολογικών πόρων για την Ελληνική γλώσσα που παράχθηκε με τεχνικές Τεχνητής Νοημοσύνης από την μεγαλύτερη συλλογή κειμένων που υπήρξε ποτέ στην Ελληνική.

Συγκεκριμένα το έργο

Αρχικά συνέλεξε το προσβάσιμο περιεχόμενο του Ελληνικού ΠΙ, περίπου 170 εκατομμύρια ιστοσελίδες, συνολικού μεγέθους περίπου 10 τρισεκατομμύρια χαρακτήρες, αξιοποιώντας διαδεδομένες τεχνολογίες και λογισμικά ανοικτού κώδικα.
Με τις κατάλληλες τεχνικές μετα-επεξεργασίας, στην αιχμή της επιστήμης, δημιούργησε ένα ενιαίο ασυμπίεστο κείμενο, και από αυτό εξήγαγε τις μοναδικές λέξεις (περίπου 7 εκατομμύρια) που είναι ουσιαστικά το τρέχον και πλήρως ενημερωμένο λεξιλόγιο της Ελληνικής γλώσσας.
Ανέπτυξε ένα πακέτο αυτόματης διόρθωσης του λεξιλογίου, που δίνει τη δυνατότητα για την εύρεση και καταχώρηση των νεοφυών λέξεων του υπό δημιουργία λεξικού.
Αξιοποίησε σύγχρονες τεχνικές βαθέων νευρωνικών δικτύων για να παράγει διανυσματικές παραστάσεις λέξεων (word embeddings) για την Ελληνική γλώσσα – δίνοντας τη δυνατότητα για πολύπλοκες γλωσσολογικές αναζητήσεις (αναλογίες, ομοιότητες, κλπ).

Το σύνολο των παραπάνω πόρων θα είναι διαθέσιμο σαν ανοιχτό λογισμικό και δεδομένα για χρήση από την ερευνητική, ακαδημαϊκή και βιομηχανική κοινότητα της χώρας αλλά και διεθνώς. Δείγμα των γλωσσολογικών αυτών πόρων είναι διαθέσιμο στην ιστοσελίδα: http://archive.aueb.gr:7000/

Η προσπάθεια αυτή χρηματοδοτήθηκε μερικά από το Ίδρυμα Νιάρχου για λογαριασμό της Εθνικής Βιβλιοθήκης της Ελλάδος.

Προτιμώμενη πηγή στην Google

Για να εμφανίζονται περισσότερα άρθρα της Ναυτεμπορικής στις αναζητήσεις σας εύκολα και γρήγορα, πρέπει να προσθέσετε το site στις προτιμώμενες πηγές σας. Μπορείτε να το κάνετε πηγαίνοντας εδώ.

Παρακολουθήστε ζωντανά εδώ το Naftemporiki TV

Ακολουθήστε μας στο Messenger και μάθετε πρώτοι όλες τις ειδήσεις!

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις!

Κάντε λήψη της εφαρμογής της «Ν» στο App Store!

Κάντε λήψη της εφαρμογής της «Ν» στο Google Play!

Ακολουθήστε μας στο επίσημο κανάλι της «Ν» στο Viber

Ακολουθήστε μας στο επίσημο κανάλι της «Ν» στο Youtube

Realtime ΓΔ	25,15 1,02% 2.501,13
Τζίρος	217.66 εκ
Τελ. Ενημ.	17:25
Με μία ματιά	REAL TIME ΤΑΜΠΛΟ

SPX	7472.79	-0.3705%
DAX	25139.69	0.6158%
SXXP	639.27	0.5758%
Όλοι οι Ξένοι Δείκτες

EUR/USD	1.14252
EUR/CHF	0.92421
USD/ZAR	16.4513
Όλες οι Ισοτιμίες

BTC/USD	63926.1
Χρυσός	4140.7

Αγορές