Skip to content

Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα --- Ground work for a Greek Open Source LLM

License

Notifications You must be signed in to change notification settings

eellak/glossAPI

Repository files navigation

Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού του glossAPI( a Greek Open Source LLM ), που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons.

🚀 Δημιουργεία καθαρισμένων κειμενικών δεδομένων με χρήσιμα μεταδεδομένα

Datasets

95Κ Δείγμα Ελληνικής (95K Greek Sample)

A diverse sample of 95,000 Greek texts, providing a broad representation of modern Greek language usage. Useful for general NLP tasks and language modeling.

Σχολικά Βιβλία (School Books)

Collection of Greek school textbooks and educational materials. Great resource for educational NLP applications and studying formal Modern Greek.

Δημώδης Λογοτεχνία (Folk Literature)

Traditional Greek folk literature, including stories, songs, and poems. Valuable for cultural preservation and studying regional Greek variations.

Ελληνικά Κείμενα Project Gutenberg (Project Gutenberg Greek Texts)

Public domain Greek texts from Project Gutenberg, spanning various periods and genres. Excellent for literary analysis and historical language studies.

1000 Πρώτα Χρόνια Ελληνικής (First 1000 Years of Greek)

Texts covering the first millennium of written Greek, crucial for studying the evolution of the Greek language and historical linguistics.

Κλασική Αρχαία Ελληνική Γραμματεία (Classical Ancient Greek Literature)

Core works of Classical Greek literature, including philosophical, historical, and dramatic texts. Essential for classical studies and ancient Greek NLP.

Ελληνικά Κείμενα Wikisource (Wikisource Greek Texts)

🚧 Υπό επεξεργασία (Work in Progress)

Πέργαμος (Πέργαμος)

  • [✓] Scraped
  • [:hourglass:] Downloading
  • Cleaned
  • Uploaded with metadata

Συλλογή κειμένων από την πλατφόρμα Πήγασος. Collection of texts from the Pegasus platform.

Κάλλιπος (Kallipos)

  • [✓] Scraped
  • Downloaded
  • Cleaned
  • Uploaded with metadata

Ακαδημαϊκά συγγράμματα από την πλατφόρμα Κάλλιπος. Academic textbooks from the Kallipos platform.

Έγγραφα ΕΕ (EU Documents)

  • Downloaded
  • Cleaned
  • Uploaded with metadata

Επίσημα έγγραφα της Ευρωπαϊκής Ένωσης. Official documents of the European Union.

[γlo'sapi]

glossAPI, το

Ένα έργο της ΕΕΛΛΑΚ στον χώρο των ψηφιακών ανθρωπιστικών επιστημών που αξιοποιεί ελεύθερα διαθέσιμες πηγές για τη συγκέντρωση ενός εκτενούς σώματος κειμένων υψηλής ποιότητας τα οποία παρέχονται με άδεια Creative Commons. Το glossAPI καλύπτει ένα ευρύ φάσμα θεματικών περιοχών, από την επιστήμη και τη λογοτεχνία έως τα νομικά κείμενα, με δεδομένα που υφίστανται επιμελή επεξεργασία και αποδελτίωση.

Στόχος του glossAPI είναι να διευκολύνει την επεξεργασία κειμενικών δεδομένων και την εκπαίδευση σύγχρονων γλωσσικών μοντέλων. Όλα τα εργαλεία που αναπτύσσει διατίθενται ελεύθερα με άδεια EUPL μέσω του αποθετηρίου του στο Github.

Το glossAPI συμβάλει στην ανάπτυξη των ελληνικών ανοιχτών κειμενικών δεδομένων, ενθαρρύνοντας ερευνητές και φοιτητές να χρησιμοποιήσουν τα εργαλεία που αναπτύχθηκαν, και να επεκτείνουν το κώδικα και τα δεδομένα προς κατευθύνσεις που τους ενδιαφέρουν.

[ 1: greeklish < γλωσσάρι 2: αγγλ. gloss < μεσαιων. αγγλ. gloze < μεσαιων. λατ. glōsa < κλασ. λατ. glōssa < αρχ. γλῶσσα: "γλώσσα, λέξη" + αγγλ. API: Application Programming Interface ]

Επικοινωνία/ contact at: [email protected]

About

Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα --- Ground work for a Greek Open Source LLM

Topics

Resources

License

Stars

Watchers

Forks