ПЕРВЫЙ ШАГ НА ПУТИ СОЗДАНИЯ «АЛИСЫ» НА МАРИЙСКОМ ЯЗЫКЕ ПРОЙДЕН

Для людей несведущих в области программирования, не владеющих IT-терминами и компьютерными технологиями, довольно-таки сложно сразу понять результат проделанной работы по созданию специалистами МарНИИЯЛИ им. В.М. Васильева синтезатора марийской речи, демо-версия которого была запущена в конце минувшего года. 

На самом деле все не так уж сложно. Команда сотрудников института под руководством лингвиста, языкового активиста Андрея Чемышева шаг за шагом, уже на протяжении нескольких лет, занимается созданием инструментариев, которые обеспечивают полноценное функционирование марийского языка в электронном информационном пространстве. Синтезатор марийской речи – это один из этапов. В перспективе планируется голосовой помощник «Алиса» на марийском языке, которым жители республики смогут пользоваться на своих гаджетах.

ПРЕТЕНЗИЯ ПОЛОЖИЛА НАЧАЛО

Созданию синтезатора предшествовал долгий период иной работы, связанной с внедрением марийского языка в интернет, компьютерные технологии. Началось все в 2008 году, когда Андрей Чемышев сделал сайт на марийском языке. Для этого он использовал те шрифты, на которых в республике выпускались книги, журналы. Шрифты эти нестандартные, поэтому оказалось, что у тех, кто не имеет этого шрифта в компьютере (к примеру, в Эстонии, Финляндии), марийские буквы просто не отображались. Тогда Андрей Чемышев взялся за решение этой проблемы. Он написал открытое письмо «королю компьютерного мира» Биллу Гейтсу. «Покупая лицензионный продукт Windows, мы заплатили вам, поэтому просим включить пять марийских букв в стандартные шрифты», – было написано в послании. Заокеанский адресат письмо получил. Представитель корпорации Microsoft Бергер Стен чуть позже давал федеральным телеканалам пояснение, что компания не отрицает наличия такой проблемы, но для этого потребуются вложения. В Йошкар-Олу тогда приехали корреспонденты федеральных СМИ, которые лично убедились в причинах предъявленной Гейтсу претензии: сотрудники редакций, выпускающих газеты на марийском языке, работники «Марий Эл Радио», учителя марийского языка в школах выкручивались тогда как могли, выпуская продукт на марийском языке.

– После того, как ТВ-сюжеты вышли в эфир, со мной связались представители разных компаний: одни занимались системой проверки правописания, другие создавали программное обеспечение, третьи – электронные словари, иные пересобирали операционные системы Linux, – рассказал Андрей Чемышев. – Так завертелась работа.

ШАГИ К СОЗДАНИЮ МАРИЙСКОЙ «АЛИСЫ»

В 2011 году в Йошкар-Оле проходила большая конференция, на которую приехали 30 лингвистов со всего мира. Вместе они разработали дорожную карту, расписав, что необходимо для каждого языка, чтобы обеспечить полноценное функционирование его в интернете, в компьютерах. Набралось пять пунктов: стандартизованное электронное представление графических систем национальных языков и раскладки клавиатуры, наличие электронных словарей, систем проверки правописания, систем проверки автоматического перевода и создание поисковых систем. Спустя десять лет в 2020 году этот список дополнили еще три пункта: создание синтезатора речи, распознавание речи и использование искусственного интеллекта для обработки текстов.

Тогда же. в 2011 году, составили списки букв регулярных алфавитов и исторических знаков языков России, у которых нет юникодов (единый стандарт кодирования символов, включающий в себя знаки всех письменных языков мира). 

Потом команда Андрея Чемышева сама сделала раскладки для всех операционных систем, написала программы и благодаря сотрудничеству с нужными компаниями марийские буквы Ӓ, Ӧ, Ӹ, Ҥ, Ӱ были добавлены в раскладку клавиатуры разных операционных систем.

Сам Андрей Чемышев тогда работал в Сыктывкаре, выполняя принятую на конференции дорожную карту для коми языка и параллельно занимаясь этим же для марийского языка. Так постепенно появилась марийская раскладка клавиатуры, марийский электронный словарь, система проверки правописания на марийском языке. Когда дошла очередь до разработки системы автоматического перевода («Яндекс.Переводчик» и/или Google Translate), вернулся в Марий Эл, чтобы заниматься только марийским языком.

– При Республиканском центре марийской культуры тогда открылся отдел инновационного развития марийского языка и культуры. И мне, Геннадию Сабанцеву и Василию Семенову дали полгода для того, чтобы показать результат своей работы, – продолжает рассказывать Андрей Чемышев. – Мы быстро связались с разработчиками Яндекса и занялись включением марийского языка в Яндекс.Переводчик. Сканировали книги, распознавали их. За отведенное время смогли собрать базу – 250 тысяч предложений. Это параллельный корпус, состоящий из текста на марийском языке и соответствующего ему текста на русском языке.

Потом коллектив переключился на создание корпуса марийского языка. За три года, к 100-летию Республики Марий Эл, необходимо было собрать минимум 20 млн словоупотреблений. Сканирование, распознавание, вычитка, метаразметки… Небольшой коллектив, куда входил Андрей Чемышев, Геннадий Сабанцев и Надежда Тимофеева, справился!

– В прошлом году решили вернуться к пополнению базы параллельных текстов. Сейчас у нас собрано 320 тысяч предложений. И работа будет продолжаться, потому как на данный момент наш переводчик работает не совсем корректно. А связано это с тем, что для хорошей работы машинного переводчика необходим 1 миллион предложений. Проблема заключается еще в том, что переводом, вычиткой текстов занимается лишь один человек – Геннадий Сабанцев.

«АЛИСА» БУДЕТ ГОВОРИТЬ МУЖСКИМ ИЛИ ЖЕНСКИМ ГОЛОСОМ?

Следующим шагом по внедрению марийского языка во Всемирную паутину стало создание синтезатора марийской речи. Благодаря средствам, выделенным Федеральной национальной культурной автономией «Марийцы России», получившей субсидии ФАДН России, закуплено необходимое оборудование: сервер с видеокартой для разворачивания нейросети, профессиональная звукозаписывающая техника для студии звукозаписи. Для обучения нейросети использовали готовые библиотеки, например, Tacotron.

Сейчас собрано свыше 15 часов записи актера Марийского национального театра драмы им. М. Шкетана Павла Ефимова, чьим голосом будет говорить синтезатор. К слову, записанные аудиокниги, часть которых использовалась для создания датасета (набора данных, пригодных для использования в алгоритмах машинного обучения), можно прослушать в подкасте «Марий йогын» во «ВКонтакте», «Яндекс.Музыке», Apple Podcasts.

До конца 2021 года готовился датасет, потом велось обучение нейросети. И в январе 2022 года получили первую обученную модель. Безусловно, это еще не вся «Алиса» на марийском языке. Для голосового помощника необходимо еще распознавание речи (то, что мы говорим в гаджет или компьютер, преобразовывается в текст), а также искусственный интеллект (обработка команды, запроса). Синтезатор пока работает следующим образом: в сервере с помощью скрипта на Python запускается обученная модель, модели на входе дается любой текст, а она выдает звуковой файл с озвученным текстом.  Команда Андрея Чемышева будет добиваться более естественного звучания, попробует для обучения другие библиотеки, например, NeMo. На днях начнется создание датасетов с женским луговым, мужским и женским горномарийскими голосами. Об этом можно будет подробнее посмотреть на сайте mari-lab.ru.

Роль синтезатора речи в данный момент неоценима: это использование в обучающих программах, образовательных системах. Также нельзя забывать о людях с ограниченными возможностями (имеющих слабое зрение, незрячих). Ведь для них это зачастую единственная возможность узнавать новости на информационных порталах, ознакомиться с произведениями местных авторов.

– Для распознавания речи, которое станет следующим этапом нашей работы, нужно, чтобы один и тот же текст читали не в студии, а на диктофон несколько тысяч человек разного возраста, разного пола, люди с дефектами речи, – пояснил Андрей Чемышев. – При этом нужно, чтобы говорился текст фоне шума улицы, работы транспорта и так далее. Это важно для обучения нейросети, чтобы она «понимала»: определенный набор звуков соответствует определенным словам.

Кроме того, распознавание речи могли бы использовать журналисты, пишущие на национальных языках. Записанные многочасовые интервью на диктофон можно будет мгновенно переводить в текст.

После этого команда Андрея Чемышева приступит к использованию искусственного интеллекта. Таким образом, до появления «Алисы» на марийском языке необходимо проделать колоссальный объем работы, на который отводится по приблизительным подсчетам пять лет.

Напомним, в конце прошлого года «Марийская правда» сообщала о том, что Андрей Чемышев стал лауреатом Всероссийской общественной премии за личный вклад в этнокультурное развитие и укрепление единства народов России «Гордость нации». 

Он был назван победителем в номинации «За вклад в сохранение и развитие родных языков».

marpravda.ru

Оставьте комментарий

Войти с помощью: 

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Пролистать наверх