AN INITIATIVE BY
GFOSS GFOSS
GlossAPI

Δεδομένα για την ΤΝ

Αγωγός για την επεξεργασία κειμένων και τη μετατροπή τους σε έτοιμα προς χρήση σύνολα δεδομένων για εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων.

Χρονολόγιο Δεδομένων

Παρακολούθηση της εξέλιξης των δεδομένων μας και της συνολικής πρόσληψης tokens

Όλα τα σύνολα δεδομένων διατίθενται με άδειες Creative Commons
ΙΟΥΝ 2025

eurlex-greek-legislation

2.21GB
604M Tokens
ΑΠΡ 2025

ellinika_dedomena_europaikou_koinovouliou

1.09Gb
273M Tokens
ΑΠΡ 2025

Apothetirio_Kallipos

572Mb
196M Tokens
ΜΑΡ 2025

Apothetirio_Pergamos

2.25Gb
839M Tokens
ΙΑΝ 2025

1000_prwta_xronia_ellhnikhs

104Mb
33M Tokens
ΙΑΝ 2025

Ekklisiastika_Keimena

16.7Mb
6.5M Tokens
ΔΕΚ 2024

Wikisource_Greek_texts

116.3Mb
38M Tokens
ΔΕΚ 2024

klasikh_arx_ell_grammateia

63.8Mb
20.4M Tokens
ΔΕΚ 2024

Sxolika_vivlia

31.0Mb
10.1M Tokens
ΝΟΕ 2024

Ellinika_Keimena_Project_Gutenberg

38.9Mb
12.3M Tokens
ΝΟΕ 2024

95k_deigma_ellinikis

28.3Mb
2.9M Tokens
ΝΟΕ 2024

dimodis_logotexnia

384Kb
0.1M Tokens

Διάγραμμα Ανάπτυξης

Αθροιστικός Όγκος Tokens

2.036.069.220
ΣΥΝΟΛΟ TOKENS

Έχουμε μια ολόκληρη ομάδα αφοσιωμένη σε αυτό το έργο

Θέλεις να συνεργαστείς ή να συμμετέχεις; Αγαπάμε τις συνεργασίες και τους νέους συνεισφέροντες.