AN INITIATIVE BY

Δεδομένα για την ΤΝ

Αγωγός για την επεξεργασία κειμένων και τη μετατροπή τους σε έτοιμα προς χρήση σύνολα δεδομένων για εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων.

Χρονολόγιο Δεδομένων

Παρακολούθηση της εξέλιξης των δεδομένων μας και της συνολικής πρόσληψης tokens

Όλα τα σύνολα δεδομένων διατίθενται με άδειες Creative Commons

ΙΑΝ 2026

openbook.gr

251.63MB

133M Tokens

ΙΑΝ 2026

Greek PhD Theses Corpus

7.06GB

5.34B Tokens

ΙΟΥΝ 2025

eurlex-greek-legislation

2.21GB

604M Tokens

ΑΠΡ 2025

ellinika_dedomena_europaikou_koinovouliou

1.09GB

273M Tokens

ΑΠΡ 2025

Apothetirio_Kallipos

572MB

196M Tokens

ΜΑΡ 2025

Apothetirio_Pergamos

2.25GB

839M Tokens

ΙΑΝ 2025

1000_prwta_xronia_ellhnikhs

104MB

33M Tokens

ΙΑΝ 2025

Ekklisiastika_Keimena

16.7MB

6.5M Tokens

ΔΕΚ 2024

Wikisource_Greek_texts

116.3MB

38M Tokens

ΔΕΚ 2024

klasikh_arx_ell_grammateia

63.8MB

20.4M Tokens

ΔΕΚ 2024

Sxolika_vivlia

31.0MB

10.1M Tokens

ΝΟΕ 2024

Ellinika_Keimena_Project_Gutenberg

38.9MB

12.3M Tokens

ΝΟΕ 2024

95k_deigma_ellinikis

28.3MB

2.9M Tokens

ΝΟΕ 2024

dimodis_logotexnia

384KB

0.1M Tokens

Διάγραμμα Ανάπτυξης

Αθροιστικός Όγκος Tokens

7.513.846.854

ΣΥΝΟΛΟ TOKENS

Έχουμε μια ολόκληρη ομάδα αφοσιωμένη σε αυτό το έργο

Θέλεις να συνεργαστείς ή να συμμετέχεις; Αγαπάμε τις συνεργασίες και τους νέους συνεισφέροντες.

Έλα σε επαφή

Καθηγ. Πέτρος Στεφανέας

Επιστημονικός Υπεύθυνος

Ο Πέτρος είναι επιστημονικά υπεύθυνος για το GlossAPI, καθοδηγώντας την ανάπτυξη έγκυρου και αξιόπιστου εκπαιδευτικού υλικού για συστήματα NLP. Η ηγεσία του διασφαλίζει ότι το GlossAPI όχι μόνο επεξεργάζεται ελληνικό κείμενο με τεχνική ακρίβεια, αλλά προάγει επίσης τη σαφήνεια, την αξιοπιστία και την ηθική ακεραιότητα.

Φοίβος Καρούνος

Προγραμματιστής

Ο Φοίβος Καρούνος έχει σπουδάσει Πληροφορική και Ψυχολογία και ενδιαφέρεται για την ανάπτυξη του τεχνολογικού οικοσυστήματος στην Ελλάδα. Έχει αναλάβει διάφορους ρόλους σχετικούς με την επιχειρηματική στρατηγική, την πρόβλεψη απόδοσης κρυπτονομισμάτων και την έρευνα στην επιστημολογία. Ο ρόλος του στην ομάδα του glossAPI είναι αυτός του Lead Software Engineer (πρώην Chief Vibe Coder).

Μυρσίνη Ιωάννου

Προγραμματίστρια

Η Μυρσίνη Ιωάννου σπούδασε Εφαρμοσμένα Μαθηματικά και Φυσικές Επιστήμες στο ΕΜΠ και κατέχει μεταπτυχιακό στον Υπολογιστικό Σχεδιασμό Ήχου και Μουσικής. Εντάχθηκε στην ομάδα του glossAPI τον Μάρτιο του 2025 ως Προγραμματιστής, εστιάζοντας σε τεχνολογίες NLP.

Νίκος Τσέκος

Προγραμματιστής

Ο Νίκος Τσέκος είναι προπτυχιακός φοιτητής Μηχανικών Υπολογιστών και Προγραμματιστής με εστίαση σε εφαρμογές μηχανικής μάθησης. Εργάζεται με τον Οργανισμό Ανοιχτών Τεχνολογιών (ΕΕΛΛΑΚ) στην ομάδα GlossAPI, συνεισφέροντας σε αγωγούς δεδομένων και ροές εργασίας εφαρμοσμένης ML.

Δημήτρης Αθανασόπουλος

Προγραμματιστής

Ο Δημήτριος Αθανασόπουλος είναι προπτυχιακός φοιτητής Μηχανικών Πληροφορικής και Υπολογιστών και εντάχθηκε στην ομάδα του glossAPI μέσω του Google Summer of Code 2025, όπου συνεισέφερε στην επέκταση του pipeline και την εξαγωγή νέων δεδομένων, έργο στο οποίο συνεχίζει να συμβάλλει. Παράλληλα ασχολείται με το Web Development, συμμετέχοντας στην ανάπτυξη και συντήρηση του παρόντος ιστότοπου.

Ιωάννα Μουρά

Γλωσσολόγος

Η Ιωάννα Μουρά είναι γλωσσολόγος και εκπαιδευόμενη διερμηνέας στην Ελληνική Νοηματική Γλώσσα (ΕΝΓ). Ολοκλήρωσε τις προπτυχιακές της σπουδές στην Ελληνική Φιλολογία και τις μεταπτυχιακές της σπουδές στη Γλωσσική Τεχνολογία στο Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών.

Δημήτρης Βογιατζής

Προγραμματιστής

Κείμενο περιγραφής...