Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού του glossAPI( a Greek Open Source LLM ), που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons.
🚀 Δημιουργεία καθαρισμένων κειμενικών δεδομένων με χρήσιμα μεταδεδομένα
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/95k_deigma_ellinikis)
A diverse sample of 95,000 Greek texts, providing a broad representation of modern Greek language usage. Useful for general NLP tasks and language modeling.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Sxolika_vivlia)
Collection of Greek school textbooks and educational materials. Great resource for educational NLP applications and studying formal Modern Greek.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/dimodis_logotexnia)
Traditional Greek folk literature, including stories, songs, and poems. Valuable for cultural preservation and studying regional Greek variations.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Ellinika_Keimena_Project_Gutenberg)
Public domain Greek texts from Project Gutenberg, spanning various periods and genres. Excellent for literary analysis and historical language studies.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/1000_prwta_xronia_ellhnikhs)
Texts covering the first millennium of written Greek, crucial for studying the evolution of the Greek language and historical linguistics.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/klasikh_arx_ell_grammateia)
Core works of Classical Greek literature, including philosophical, historical, and dramatic texts. Essential for classical studies and ancient Greek NLP.
- [✓] Scraped
- [✓] Downloaded
- [✓] Cleaned
- [✓] Uploaded with metadata (https://huggingface.co/datasets/glossAPI/Wikisource_Greek_texts)
- [✓] Scraped
- [:hourglass:] Downloading
- Cleaned
- Uploaded with metadata
Συλλογή κειμένων από την πλατφόρμα Πήγασος. Collection of texts from the Pegasus platform.
- [✓] Scraped
- Downloaded
- Cleaned
- Uploaded with metadata
Ακαδημαϊκά συγγράμματα από την πλατφόρμα Κάλλιπος. Academic textbooks from the Kallipos platform.
- Downloaded
- Cleaned
- Uploaded with metadata
Επίσημα έγγραφα της Ευρωπαϊκής Ένωσης. Official documents of the European Union.
[γlo'sapi]
Ένα έργο της ΕΕΛΛΑΚ στον χώρο των ψηφιακών ανθρωπιστικών επιστημών που αξιοποιεί ελεύθερα διαθέσιμες πηγές για τη συγκέντρωση ενός εκτενούς σώματος κειμένων υψηλής ποιότητας τα οποία παρέχονται με άδεια Creative Commons. Το glossAPI καλύπτει ένα ευρύ φάσμα θεματικών περιοχών, από την επιστήμη και τη λογοτεχνία έως τα νομικά κείμενα, με δεδομένα που υφίστανται επιμελή επεξεργασία και αποδελτίωση.
Στόχος του glossAPI είναι να διευκολύνει την επεξεργασία κειμενικών δεδομένων και την εκπαίδευση σύγχρονων γλωσσικών μοντέλων. Όλα τα εργαλεία που αναπτύσσει διατίθενται ελεύθερα με άδεια EUPL μέσω του αποθετηρίου του στο Github.
Το glossAPI συμβάλει στην ανάπτυξη των ελληνικών ανοιχτών κειμενικών δεδομένων, ενθαρρύνοντας ερευνητές και φοιτητές να χρησιμοποιήσουν τα εργαλεία που αναπτύχθηκαν, και να επεκτείνουν το κώδικα και τα δεδομένα προς κατευθύνσεις που τους ενδιαφέρουν.
[ 1: greeklish < γλωσσάρι 2: αγγλ. gloss < μεσαιων. αγγλ. gloze < μεσαιων. λατ. glōsa < κλασ. λατ. glōssa < αρχ. γλῶσσα: "γλώσσα, λέξη" + αγγλ. API: Application Programming Interface ]
Επικοινωνία/ contact at: [email protected]