Говорящие на кипрском греческом языке вскоре могут быть поняты теми же голосовыми системами, которые обычно борются с диалектом острова, благодаря революционной модели искусственного интеллекта для преобразования речи в текст, разработанной командой из трех человек.
Игорь Акимов, менеджер по продуктам искусственного интеллекта в иностранной компании, объединил усилия с двумя стажерами — Хусейном Хадрой и Никитой Марковым, студентами Университета Никосии и UCLan — для решения проблемы, связанной с тем, что местные диалекты не распознаются должным образом технологиями, от которых зависят многие люди.
Команда создала модель искусственного интеллекта для преобразования речи в текст — систему автоматического распознавания речи, настроенную для точного понимания и расшифровки кипрского греческого языка. Пользователи говорят в микрофон, а система преобразует речь в письменный текст — технологию, которую затем можно применить к голосовым агентам с искусственным интеллектом, службам перевода или автоматизированной телефонной поддержке.
Эта технология также имеет более широкое применение в различных секторах. В здравоохранении он может автоматически расшифровывать речь пациентов, особенно пожилых людей, и вводить ее непосредственно в медицинские системы без ручного набора текста. В бизнесе это позволяет использовать автоматизированные голосовые агенты, которые могут естественным образом взаимодействовать с кипрскими клиентами, а в сфере образования это может помочь сохранить кипрский диалект и культуру за счет оцифровки аудиоархивов острова.
Тот же подход можно применить и к другим игнорируемым языкам и диалектам. Одной из главных целей команды было понять, как работать с языками, по которым недостаточно данных. По их мнению, эту методологию можно было бы воспроизвести во всем мире.
"Это было непросто. Я думаю, мы все недооценили, насколько сложным это будет. На этом пути определенно были взлеты и падения", - признает Акимов.
При поиске ресурсов данных команда обратилась к исследователям, но не получила никакой помощи. Ответы варьировались от потери данных до требований о высокой плате или полного отказа.
Они просмотрели словари, тексты и аудиообразцы, но не смогли найти высококачественные и доступные наборы данных, в которых речь сочеталась бы с расшифрованным и проверенным текстом.
Даже у Meta, которая собрала данные по 1600 языкам, не было ни одного часа кипрской речи.
«Итак, начинать нам было не с чего, поэтому мы решили собрать всю доступную кипрскую аудиозапись от телешоу до радиостанций, подкастов и книг», — рассказал Акимов. «Шаг за шагом мы создали самую большую коллекцию кипрско-греческих речей, когда-либо собранную».
Обучение ИИ было постепенным процессом. На первом этапе система впитала повседневную кипрско-греческую речь, ее звуки, ритмы и уникальные черты, чтобы получить представление о том, как естественно звучит диалект.
Затем команда снабдила его более четкой, профессиональной речью из новостных передач и радиошоу, помогая ИИ улучшить свое понимание и уменьшить количество ошибок. Также был добавлен специальный помощник по чтению KenLM, который действует почти как наставник, подсказывая наиболее вероятные слова и повышая точность распознавания.
Чтобы продолжать совершенствовать модель, команда создала платформу, на которой носители языка могут исправлять расшифровки ИИ. Эти исправления учитываются при обучении, что со временем делает систему все более точной и точной по отношению к кипрскому диалекту.
Примечательно, что все это было достигнуто при бюджете всего в 150 долларов США благодаря творческому подходу и доступным облачным технологиям.
Однако проект далек от завершения. «Имея всего несколько часов высококачественной расшифровки аудио, мы пока не смогли создать лучшую в мире модель, но это абсолютно достижимо», — объяснил Акимов. «Сейчас это скорее технологическая проверка концепции в ожидании дополнительных данных».
На данный момент команда собрала около 300 часов кипрской речи и ищет помощи у волонтеров. Потратив всего 15 минут на проверку транскрипций на веб-сайте проекта, можно получить достаточно данных для создания современной модели распознавания кипрской речи и, возможно, даже системы преобразования текста в речь, говорящей на аутентичном кипрском греческом языке.
Заинтересованные лица могут посетить сайт voiceofcyprus.org, чтобы проверить аудиозаписи.
"Это очень поможет нам и Кипру. Даже всего 10-15 минут имеют значение", - сказал Акимов. «Мы хотим, чтобы каждый киприот мог говорить на своем диалекте и при этом быть понятым с помощью технологий».
