Mozilla создаёт систему распознавания кыргызской речи. Любой может принять в этом участие (видео)

Пока смартфоны не умеют распознавать голосовой ввод на кыргызском языке, да и с русским эта функция работает не очень хорошо. Фото: Арсений Мамашев / Kloop.kg

Сообщество Mozilla больше всего известно своим браузером Firefox, но оно делает ещё много чего — в том числе, создаёт систему распознавания кыргызской речи, в улучшении которой может поучаствовать любой желающий. Как это работает и для чего это нужно?

Важное уточнение: «Клооп» принимал участие, хоть и косвенно, в том, чтобы эта система начала работать, но делал это на безвозмездной основе, и на беспристрастности материала это не сказалось.

Житель Бишкека Акпар Мендебаиров ослеп, когда ему было восемь лет. Это не помешало ему построить карьеру юриста, преподавать в университете и самостоятельно передвигаться по городу.

Слепота не мешает ему и пользоваться смартфоном. Он включает функцию talkback в операционной системе «Андроид», которая озвучивает все его действия с телефоном.

Как и многие незрячие пользователи смартфонов, он развил в себе способность слушать эту озвучку на невероятной скорости и быстро на неё реагировать, нажимая пальцем на экран.

Некоторые действия Акпар совершает при помощи голосовых команд, но он пользуется этим не так часто, как хотелось бы — по его словам, всё из-за того, что распознавание русской речи на смартфонах не идеально.

В социальном центре «Равные возможности» Мендебаиров обучает других незрячих людей тому, как использовать смартфон. И если даже с распознаванием русской речи не всё идеально, с кыргызским языком ситуация катастрофична — смартфоны попросту не понимают этот язык.

В итоге посетители курсов, говорящие на кыргызском, не могут использовать смартфон так легко и просто, как это делает Акпар.

«Кыргызоязычное население плохо выговаривает слова на русском, и приложение их часто не слышит и не понимает», — объясняет юрист.

***

Системы распознавания речи нужны не только незрячим людям. Ими можно пользоваться для голосового набора текста или для команд в умном доме.

Еще они нужны в работе с большими данными — например, искусственному интеллекту было бы гораздо проще и быстрее проанализировать все выступления заседания парламента на поиск ключевых слов, чем человеку.

Но мало для кого эта система так важна, как для слепых людей.

Популярнейшие в мире языки давно представлены в системах распознавания речи — например, англоязычные системы уже в начале 1990-х имели словарный запас больше, чем у среднестатистического человека.

Кыргызский язык до сих пор не представлен в них никак, и проект Mozilla CommonVoice — это первая попытка создать систему распознавания речи на нём.

Так выглядит главная страница кыргызского CommonVoice.

Как это делается?

Чтобы искусственный интеллект, отвечающий за распознавание речи, начал отличать отдельные слова, его нужно натренировать.

Для этого он должен иметь доступ к как можно более обширной базе произнесенных вслух слов и фраз из этого языка. Затем он учится сопоставлять устные версии слов с их письменными аналогами.

Можно было бы собрать в одном помещении сотню кыргызоязычных волонтёров, чтобы они зачитали вслух и записали все существующие в языке слова.

Но это, во-первых, сложно организовать, а, во-вторых, это не так уж эффективно — некоторые слова могут иметь разный смысл в зависимости от контекста, поэтому придётся записывать ещё и миллионы комбинаций фраз, и у сотни людей уйдёт на это очень много времени.

Поэтому Mozilla решила использовать так называемый краудсорсинг — когда данные собираются маленькими кусочками у огромного количества добровольцев через интернет.

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*