GlossAPI

Ανοικτή Υποδομή για Ελληνικά AI-Ready Δεδομένα

Προς ένα διαφανές και συμμετοχικό οικοσύστημα επεξεργασίας φυσικής γλώσσας

Η Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα (ΕΕΛΛΑΚ) αποτελεί έναν από τους πλέον δραστήριους οργανισμούς στην Ελλάδα στον χώρο της ανοιχτής τεχνολογίας και της ψηφιακής διακυβέρνησης. Ως μη κερδοσκοπικός φορέας, προωθεί συστηματικά την ανοιχτότητα, τη διαφάνεια και τη συνεργατική καινοτομία, ενισχύοντας την υιοθέτηση των ανοιχτών προτύπων σε δημόσιους, ακαδημαϊκούς και ερευνητικούς φορείς.

Στο πλαίσιο αυτής της αποστολής, η ΕΕΛΛΑΚ ανέπτυξε το GlossAPI, μια πρωτοβουλία που στοχεύει στην ενίσχυση της ελληνικής γλώσσας στην εποχή της τεχνητής νοημοσύνης και στην καθιέρωσή της ως ισότιμης με τις μεγάλες ευρωπαϊκές και διεθνείς γλώσσες μέσα στο οικοσύστημα της επεξεργασίας φυσικής γλώσσας.

Από τα Μοντέλα στα Δεδομένα

Το GlossAPI γεννήθηκε από την ανάγκη για ανάπτυξη ελληνικών γλωσσικών μοντέλων. Κατά τη διάρκεια της αρχικής διερεύνησης, έγινε εμφανές ότι το μεγαλύτερο εμπόδιο δεν ήταν η έλλειψη τεχνολογίας, αλλά η έλλειψη ποιοτικών, τεκμηριωμένων και ανοιχτών δεδομένων στα ελληνικά.

Το Κενό Δεδομένων

Η ελληνική γλώσσα παραμένει υποεκπροσωπημένη στα διεθνή σύνολα εκπαίδευσης τεχνητής νοημοσύνης. Ενδεικτικά, η αγγλική Wikipedia ξεπερνά τα 80 GB, ενώ η ελληνική περιορίζεται περίπου στο 1 GB. Η ΕΕΛΛΑΚ επιδιώκει να αντιμετωπίσει αυτό το θεμελιώδες πρόβλημα μέσω του GlossAPI.

Τι είναι το GlossAPI

Το GlossAPI είναι μια ανοιχτού κώδικα βιβλιοθήκη Python και ταυτόχρονα μια τεχνική υποδομή για τη δημιουργία, επεξεργασία και δημοσίευση ελληνικών συνόλων δεδομένων έτοιμων για χρήση σε εφαρμογές τεχνητής νοημοσύνης και επεξεργασίας φυσικής γλώσσας.

  • Η βιβλιοθήκη επεξεργάζεται κείμενα από διάφορες μορφές αρχείων (PDF, DOCX, HTML κ.ά.).
  • Καθαρίζει, τυποποιεί και επισημειώνει τα δεδομένα.
  • Εξάγει σε μορφή AI-ready (Parquet, Markdown).
  • Όλα τα παραγόμενα δεδομένα τεκμηριώνονται και δημοσιεύονται με ανοιχτές άδειες.

Λειτουργεί τόσο ως εργαλείο αυτοματοποίησης, όσο και ως πλαίσιο τεκμηρίωσης και διαφάνειας.

Παραγόμενα Αποτελέσματα

Μέχρι σήμερα, έχουν παραχθεί και δημοσιευθεί 15 σύνολα δεδομένων υψηλής ποιότητας:

  • Δημόσιες διαβουλεύσεις
  • Εγκυκλοπαιδικά κείμενα
  • Ακαδημαϊκές διατριβές
  • Ελληνική γραμματεία

Αξίες και Αρχές

  • Διαφάνεια: Πλήρης τεκμηρίωση και έλεγχος.
  • Συμμετοχή: Πρόσβαση σε φοιτητές & ερευνητές.
  • Ανοιχτά Πρότυπα: Συμβατότητα με διεθνή μοντέλα.
  • Ηθική ΤΝ: Σεβασμός στα δικαιώματα και δημοκρατικός έλεγχος.