Οι Κύπριοι Έλληνες ομιλητές μπορεί σύντομα να γίνουν κατανοητοί από τα ίδια συστήματα που ενεργοποιούνται με φωνή που συνήθως παλεύουν με τη διάλεκτο του νησιού, χάρη σε ένα πρωτοποριακό μοντέλο AI ομιλίας σε κείμενο που αναπτύχθηκε από μια ομάδα τριών ατόμων.
Ο Igor Akimov, διευθυντής προϊόντων τεχνητής νοημοσύνης σε εταιρεία ξένου ενδιαφέροντος, ένωσε τις δυνάμεις του με δύο ασκούμενους – τους Hussein Khadra και Nikita Markov, φοιτητές στο Πανεπιστήμιο Λευκωσίας και στο UCLan – για να αντιμετωπίσει το πρόβλημα της μη σωστής αναγνώρισης των τοπικών διαλέκτων από την τεχνολογία από την οποία εξαρτώνται πολλοί άνθρωποι.
Η ομάδα έχει δημιουργήσει ένα μοντέλο τεχνητής νοημοσύνης ομιλίας σε κείμενο, ένα σύστημα αυτόματης αναγνώρισης ομιλίας, προσαρμοσμένο ώστε να κατανοεί και να μεταγράφει με ακρίβεια τα κυπριακά ελληνικά. Οι χρήστες μιλούν σε μικρόφωνο και το σύστημα μετατρέπει την ομιλία σε γραπτό κείμενο, μια τεχνολογία που μπορεί στη συνέχεια να εφαρμοστεί σε φωνητικούς πράκτορες AI, υπηρεσίες μετάφρασης ή αυτοματοποιημένη τηλεφωνική υποστήριξη.
Η τεχνολογία έχει επίσης ευρύτερες εφαρμογές σε πολλούς τομείς. Στον τομέα της υγειονομικής περίθαλψης, μπορεί αυτόματα να μεταγράψει την ομιλία των ασθενών, ιδιαίτερα αυτή των ηλικιωμένων, και να την εισάγει απευθείας στα ιατρικά συστήματα χωρίς μη αυτόματη πληκτρολόγηση. Στην επιχείρηση, επιτρέπει αυτοματοποιημένους φωνητικούς πράκτορες που μπορούν να αλληλεπιδρούν φυσικά με Κύπριους πελάτες, ενώ στην εκπαίδευση μπορεί να βοηθήσει στη διατήρηση της κυπριακής διαλέκτου και κουλτούρας ψηφιοποιώντας τα αρχεία ήχου του νησιού.
Η ίδια προσέγγιση θα μπορούσε να εφαρμοστεί και σε άλλες παραγνωρισμένες γλώσσες και διαλέκτους. Ένας από τους κύριους στόχους της ομάδας ήταν να κατανοήσει πώς να εργάζεται με γλώσσες που δεν διαθέτουν επαρκή δεδομένα, μια μεθοδολογία που πιστεύουν ότι θα μπορούσε να αναπαραχθεί παγκοσμίως.
"Δεν ήταν εύκολο. Νομίζω ότι όλοι υποτιμήσαμε πόσο περίπλοκο θα ήταν. Υπήρχαν σίγουρα σκαμπανεβάσματα στην πορεία", παραδέχεται ο Akimov.
Όταν αναζητούσε πόρους δεδομένων, η ομάδα απευθυνόταν σε ερευνητές, αλλά βρήκε μικρή βοήθεια. Οι απαντήσεις κυμαίνονταν από απώλεια δεδομένων, αιτήματα για υψηλές χρεώσεις ή απόλυτη άρνηση.
Έψαξαν λεξικά, κείμενα και δείγματα ήχου, αλλά δεν μπόρεσαν να βρουν υψηλής ποιότητας, προσβάσιμα σύνολα δεδομένων που συνδύαζαν την ομιλία με το μεταγραμμένο και επικυρωμένο κείμενο.
Ακόμη και η Meta, η οποία έχει συλλέξει δεδομένα για 1.600 γλώσσες, είχε μηδέν ώρες διαθέσιμη κυπριακή ομιλία.
«Έτσι, δεν είχαμε τίποτα να ξεκινήσουμε, επομένως, αποφασίσαμε να συγκεντρώσουμε όλο τον διαθέσιμο κυπριακό ήχο από τηλεοπτικές εκπομπές έως ραδιοφωνικούς σταθμούς, podcast και βιβλία», είπε ο Akimov. «Βήμα προς βήμα δημιουργήσαμε τη μεγαλύτερη συλλογή κυπριακών ελληνικών λόγου που έχει συγκεντρωθεί ποτέ».
Η εκπαίδευση του AI ήταν μια σταδιακή διαδικασία. Σε πρώτη φάση, το σύστημα απορρόφησε την καθημερινή κυπριακή ελληνική ομιλία, τους ήχους, τους ρυθμούς και τα μοναδικά χαρακτηριστικά της, για να αποκτήσει μια αίσθηση του πώς ακούγεται φυσικά η διάλεκτος.
Στη συνέχεια, η ομάδα του έδωσε πιο ξεκάθαρη, επαγγελματική ομιλία από εκπομπές ειδήσεων και ραδιοφωνικές εκπομπές, βοηθώντας το AI να βελτιώσει την κατανόησή του και να μειώσει τα λάθη. Ένας ειδικός βοηθός ανάγνωσης, ο KenLM, προστέθηκε επίσης για να λειτουργεί σχεδόν σαν δάσκαλος, προτείνοντας τις πιο πιθανές λέξεις και ενισχύοντας την ακρίβεια αναγνώρισης.
Για να διατηρήσει τη βελτίωση του μοντέλου, η ομάδα δημιούργησε μια πλατφόρμα όπου οι φυσικοί ομιλητές μπορούν να διορθώσουν τις μεταγραφές του AI. Αυτές οι διορθώσεις ανατροφοδοτούνται στην εκπαίδευση, καθιστώντας το σύστημα όλο και πιο ακριβές και πιστό στην κυπριακή διάλεκτο με την πάροδο του χρόνου.
Είναι αξιοσημείωτο ότι όλα αυτά επιτεύχθηκαν με προϋπολογισμό μόλις 150 $, χάρη στις δημιουργικές προσεγγίσεις και την προσβάσιμη τεχνολογία cloud.
Ωστόσο, το έργο απέχει πολύ από το να έχει ολοκληρωθεί. «Με λίγες μόνο ώρες υψηλής ποιότητας απομαγνητοφωνημένου ήχου, δεν μπορέσαμε να δημιουργήσουμε ακόμα το καλύτερο μοντέλο στον κόσμο – αλλά είναι απολύτως εφικτό», εξήγησε ο Akimov. "Αυτή τη στιγμή, είναι περισσότερο μια τεχνολογική απόδειξη της ιδέας που περιμένει περισσότερα δεδομένα."
Μέχρι στιγμής, η ομάδα έχει συγκεντρώσει περίπου 300 ώρες κυπριακής ομιλίας και ζητά βοήθεια από εθελοντές. Αφιερώνοντας μόλις 15 λεπτά για την επικύρωση των μεταγραφών στον ιστότοπο του έργου θα μπορούσε να προσφέρει αρκετά δεδομένα για τη δημιουργία ενός μοντέλου αιχμής για την κυπριακή αναγνώριση ομιλίας και ενδεχομένως ακόμη και ένα σύστημα μετατροπής κειμένου σε ομιλία που να μιλάει στα αυθεντικά κυπριακά ελληνικά.
Οι ενδιαφερόμενοι μπορούν να επισκεφθούν το voiceofcyprus.org για επικύρωση ηχογραφήσεων.
"Αυτό θα βοηθήσει εμάς - και την Κύπρο - τρομερά. Ακόμη και μόλις 10-15 λεπτά κάνουν τη διαφορά", είπε ο Akimov. «Θέλουμε κάθε Κύπριος να μπορεί να μιλά στη δική του διάλεκτο και να γίνεται ακόμα κατανοητός από την τεχνολογία».
