ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Hunspell: Προδιαγραφές ανάπτυξης συστήματος διαχείρισης του εμπλουτισμού του λεξικού ορθογραφικής διόρθωσης ελληνικών

Η διαβούλευση ολοκληρώθηκε

 

Σε συνέχεια της πρώτης διαβούλευσης εκπονήθηκε σχετική μελέτη Εθνικό Δίκτυο Έρευνας και Τεχνολογίας. Παρακάτω παρατίθενται τα βασικά σημεία για σχολιασμό μέχρι τις 29 Απριλίου.

Μπορείτε να κατεβάσετε ολόκληρη τη μελέτη σε μορφή pdf.

Με βάση τα πορίσματα της επισκόπησης των ελληνικών ορθογράφων και της συνεργατικής ανάπτυξης σκιαγραφούνται τα χαρακτηριστικά του ΠΣ προς ανάπτυξη, πρώτα οι τεχνικές προδιαγραφές και στη συνέχεια οι λειτουργικές. Τέλος, περιγράφονται οι προδιαγραφές των κανόνων που χρησιμοποιεί ο ορθογράφος για τη διόρθωση κειμένων.

Τεχνικές προδιαγραφές
Για την αύξηση τής απόδοσης τού έργου στοχεύουμε στη μεγαλύτερη δυνατή εμπλοκή τού κοινού, των ανθρώπων που χρησιμοποιούν κάποιο λογισμικό, γράφουν κείμενα και αντιμετωπίζουν ελλείψεις και λάθη στην ορθογραφική διόρθωση. Για αυτό και ως πλατφόρμα λειτουργίας τού ΠΣ επιλέγεται το Διαδίκτυο. Χαρακτηριστικά τής υποδομής λειτουργίας τού ΠΣ:
• Ανάπτυξη με εργαλεία ανοιχτού λογισμικού τα οποία είναι ευρέως διαδεδομένα και δεν έχουν περιοριστικούς όρους χρήσης και διάθεσης.
• Λειτουργία σε διακομιστές ανοιχτού λογισμικού, βασισμένων σε Linux.
• Περιβάλλον εργασίας στο web (μέσω browser). Όλες οι οθόνες, χειριστών, στελεχών, διαχειριστή θα είναι σε web περιβάλλον.
• Υποστήριξη όλων των γνωστών φυλλομετρητών (όπως Internet Explorer, Firefox, Safari, Chrome κ.ο.κ.).
• Διασφάλιση της ακεραιότητας των δεδομένων και προστασία των ευαίσθητων προσωπικών δεδομένων.

Λειτουργικές προδιαγραφές
• Διαχείριση χρηστών.
Το ΠΣ παρέχει τη δυνατότητα εγγραφής χρηστών. Ο χρήστης δημιουργεί ένα λογαριασμό, διαμορφώνει το προφίλ με βασικά στοιχεία επικοινωνίας και συνδέεται με όνομα και κωδικό τής επιλογής του.
• Διαβάθμιση χρηστών.
Ένας χρήστης μπορεί να είναι απλός χρήστης ή διαχειριστής τού ΠΣ.
• Καταγραφή συνεισφοράς.
Όταν ένας συνδεδεμένος χρήστης συνεισφέρει με κάποιον τρόπο στο έργο, η συνεισφορά του καταγράφεται στο ημερολόγιο τού ΠΣ. Η συνεισφορά μη συνδεδεμένων χρηστών καταγράφεται με τη διεύθυνση ΙΡ με την οποία συνδέθηκαν.
• Ρύθμιση αποδοχής συνεισφορών.
Το ΠΣ δίνει τη δυνατότητα επιλογής από το Διαχειριστή να επιτρέπει ή να αποτρέπει τη συνεισφορά από μη εγγεγραμμένους χρήστες.
• Αναζήτηση λέξης στο ορθογραφικό λεξικό ή στο Θησαυρό.
Ο χρήστης πληκτρολογεί μία λέξη ή ρίζα λέξης και το ΠΣ επιστρέφει τη λίστα των καταχωρημένων λέξεων στο λεξικό ορθογραφίας και στο θησαυρό, που ταιριάζουν με τη ζητούμενη. Έτσι, οι χρήστες μπορούν να βλέπουν εάν μία λέξη ή τύπος της είναι ήδη καταχωρημένη.
• Προτάσεις καταχώρησης νέων λέξεων στο ορθογραφικό λεξικό.
Ο χρήστης πληκτρολογεί μία λέξη και την υποβάλλει για έλεγχο και ενσωμάτωση στη βάση δεδομένων.
Στην περίπτωση που ο χρήστης υποβάλλει μία λέξη, αυτή καταχωρείται στη βάση δεδομένων σε κατάσταση “προς έγκριση”. Ένας διαχειριστής τού ΠΣ θα μπορέσει στη συνέχεια να την ελέγξει και να την εγκρίνει ή να την απορρίψει ως λανθασμένη επιλογή.
Ο χρήστης μπορεί να υποβάλλει και δέσμη λέξεων, όχι μόνον μία προς μία.
Αυτό γίνεται είτε με γραφή τους τη μία κάτω ή δίπλα από την άλλη, είτε επικολλώντας λέξεις από το Πρόχειρο είτε με την εισαγωγή τού περιεχομένου ενός αρχείου κειμένου.
• Ανάπτυξη κλιτικού συστήματος λέξεων.
Ο χρήστης υποβάλλει ένα θέμα λέξης, επιλέγει το μέρος τού λόγου (ουσιαστικό, επίθετο, ρήμα κ.λπ.) και το ανάλογο κλιτικό σύστημα (κλίνεται όπως…). Το ΠΣ αυτόματα αναπαραγάγει το κλιτικό σύστημα τής λέξης. Τα κλιτικά συστήματα που θα ακολουθηθούν είναι αυτά που καταγράφηκαν από το Ίδρυμα Τριανταφυλλίδη στην έκδοση τού ομώνυμου λεξικού τής νέας ελληνικής.
Ο χρήστης μπορεί να υποβάλλει δέσμη λέξεων και όχι μόνον μία, όπως παραπάνω. Βέβαια, κάθε λέξη σε μία δέσμη πρέπει να είναι τού ιδίου μέρους τού λόγου και να κλίνεται με τον ίδιο τρόπο.
Ο χρήστης βλέπει τις λέξεις και το κλιτικό σύστημα τής κάθε μίας για τυχόν λάθος επιλογές και αποφασίζει για καταχώρηση ή για αναίρεση και διορθώσεις.
Καταχωρούμενες οι λέξεις που παράγονται αυτόματα από το ΠΣ με την ανάπτυξη τού κλιτικού τους συστήματος, συνδέονται μεταξύ τους ώστε να γνωρίζουμε ποιές είναι τύποι τού ίδιου θέματος λέξης.
Ένας διαχειριστής τού ΠΣ θα μπορέσει στη συνέχεια να ελέγξει και να εγκρίνει ή να απορρίψει ως λανθασμένη την πρόταση.
• Προτάσεις καταχώρησης νέων θεμάτων ή συνωνύμων στο Θησαυρό.
Ο χρήστης πληκτρολογεί μία λέξη και συνώνυμα για αυτήν. Το ΠΣ ελέγχει εάν υπάρχει η λέξη καταχωρημένη στο Θησαυρό και εάν δεν υπάρχει την προσθέτει. Στη συνέχεια ελέγχει ένα ένα τα προτεινόμενα συνώνυμα και προσθέτει όσα δεν υπάρχουν και τα συνδέει με την προτεινόμενη λέξη. Ένας διαχειριστής τού ΠΣ θα μπορέσει στη συνέχεια να την ελέγξει και να την εγκρίνει ή να την απορρίψει ως λανθασμένη επιλογή.
• Διόρθωση καταχωρημένων λέξεων.
Όπως με την προσθήκη νέων λέξεων, οι χρήστες μπορούν να υποβάλλουν προτάσεις για επανέλεγχο ήδη καταχωρημένων λέξεων. Ο χρήστης γράφει μία λέξη και την αναζητά. Το σύστημα την εμφανίζει και ο χρήστης τη χαρακτηρίζει ως αμφισβητούμενη προσθέτοντας και τα σχόλιά του, που πιστεύει ότι είναι το λάθος, ώστε να ελεγχθεί από τους διαχειριστές.
• Δημοσίευση σε κοινωνικά δίκτυα.
Στο προφίλ τού χρήστη προβλέπεται σημαία που δείχνει εάν ο χρήστης επιθυμεί να γίνονται δημοσιεύσεις στη σελίδα του στο Facebook για τη συνεισφορά του. Η αρχική θέση αυτής τής σημαίας είναι ΟΝ. Όταν μία συνεισφορά γίνεται από εγγεγραμμένο χρήση, και η σχετική σημαία στο προφίλ του είναι ΟΝ, το ΠΣ αυτόματα δημιουργεί μία δημοσίευση στη σελίδα τού χρήστη στο Facebook για αυτή τη συνεισφορά. Η μορφή και το μήνυμα τής δημοσίευσης θα συζητηθεί κατά την υλοποίηση.

Προδιαγραφές κανόνων Hunspell
Οι κανόνες που θα διαμορφωθούν πρέπει να αντιμετωπίζουν τουλάχιστον τα παρακάτω ζητήματα. Θα εκτιμηθεί θετικά η πρόταση επιπλέον περιπτώσεων που πρέπει να αντιμετωπιστούν.
• Δήλωση ελληνικού αλφάβητου.
• Εξίσωση κεφαλαίων με πεζά.
• Εξίσωση δίφθογγων με φωνήεντα ή σύμφωνα.
• Ρύθμιση αναγνώρισης λέξεων με κεφαλαία με και χωρίς τόνο.
• Ρύθμιση αντιμετώπισης εγκλίσεων.
• Ρύθμιση αντιμετώπισης συνθετικών (ανά, κατά, διά κ.λπ.).

Εξαγωγή για χρήση

Με βάση τις καταχωρημένες ενεργές λέξεις τού ορθογραφικού λεξικού και του Θησαυρού συνωνύμων, το ΠΣ δημιουργεί αυτόματα το αρχείο γλωσσικής υποστήριξης τής ελληνικής για το Hunspell και την προτείνει στο χρήστη για online λήψη. Ο χρήστης λαμβάνει το αρχείο και το εγκαθιστά στο λογισμικό που χρησιμοποιεί, π.χ. στο OpenOffice.org. Έτσι, ανά πάσα στιγμή μπορεί οποιοσδήποτε να λάβει και να εγκαταστήσει την τελευταία μορφή τής γλωσσικής υποστήριξης για τα ελληνικά.

Βοηθητικές επεκτάσεις

Απαιτείται η δημιουργία των απαραίτητων επεκτάσεων για τους φυλλομετρητές και άλλα λογισμικά ώστε οι χρήστες να μπορούν να συνεισφέρουν τη στιγμή κατά την οποία εργάζονται, π.χ. γράφουν κείμενα και βρίσκουν ελλείψεις και λάθη στη βάση δεδομένων τού Hunspell για τα ελληνικά. Οι βοηθητικές επεκτάσεις πρέπει να υποστηρίζουν το σενάριο:
• Ο χρήστης γράφει ένα κείμενο στο OpenOffice.org, σε μία φόρμα στο Firefox ή σε άλλο φυλλομετρητή ή λογισμικό που χρησιμοποιεί το Hunspell.
• To Hunspell χαρακτηρίζει τη λέξη ως ανορθόγραφη και προστίθεται η χαρακτηριστική κόκκινη υπογράμμιση.
• Ο χρήστης κάνει δεξί κλικ πάνω στη λέξη.
• Εάν η λέξη υπάρχει ήδη στο ορθογραφικό λεξικό ο χρήστης επιλέγει την προτεινόμενη ορθογραφικώς ορθή μορφή της.
• Εάν από τις προτάσεις φανεί ότι η λέξη δεν υπάρχει στο ορθογραφικό λεξικό, ο χρήστης μπορεί να επιλέξει την αποστολή της στο ΠΣ ώστε να ελεγχθεί και να συμπεριληφθεί με την προβλεπόμενη διαδικασία.

Οι βοηθητικές επεκτάσεις πρέπει να λειτουργούν κατ’ ελάχιστον στα λογισμικά:
• FireFox 3.x Windows / Linux / MacOS X.
• Chrome Windows / Linux / MacOS X.
• LibreOffice.org 3.x Windows / Linux / MacOS X.

Θα εκτιμηθεί θετικά η συμβατότητα με περισσότερα λογισμικά.

2 thoughts on “Hunspell: Προδιαγραφές ανάπτυξης συστήματος διαχείρισης του εμπλουτισμού του λεξικού ορθογραφικής διόρθωσης ελληνικών

  1. Κάποιοι πήραν το λεξικό του Μπαμπινιώτη και το αντέγραψαν στο wikidictionary, μετά διάφορα άλλα site με λεξικά αντέγραψαν τις λέξεις. Μερικές λέξεις μπήκαν και στα aspell, hunspell κτλ.
    Το λεξικό του Μπαμπινιώτη έχει λέξει που ΔΕΝ ΥΠΑΡΧΟΥΝ. Αυτές οι λέξεις είναι σύνθετες. Είπαν «τι να κάνουμε για να γίνει το λεξικό εγκυκλοπαίδεια; Ας το γεμίσουμε με ανύπαρκτες σύνθετες λέξεις.»

    Για αυτό πρέπει οι υπάρχουσες λέξεις και οι νέες λέξεις στο hunspell να ελέγχονται με το google ή το Thesaurus Linguae Graecae (TLG) και να βρεθεί αν υπάρχουν!

  2. Όπως είπε και ο Steve νομίζω το hunspell αυτή τη στιγμή δεν έχει μεγάλο πρόβλημα από αριθμό λέξεων. Καλύτερα θα ήταν η προσπάθεια να εστιαστεί αφενός στην προσθήκη κανόνων «μορφολογίας» της ελληνικής στο hunspell και στον εμπλουτισμό του thesaurus και αφετέρου στην καλύτερη υποστήριξη για ορθογραφικό έλεγχο και διόρθωση κειμένων μικτής γλώσσας ώστε να μη χρειάζονται «hacks» όπως λεξικά που περιέχουν και τις ελληνικές και τις αγγλικές λέξεις ταυτόχρονα.

Comments are closed.