Последние комментарии

  • Сергей Моздор
    Пока ЦСКА и "Ростов" не сыграли."Зенит" вышел в лидеры РПЛ
  • Наталия Кузнецова (Мунштукова)
    Благодарю.Воздвижения Креста Господня: главное о празднике
  • Наталия Кузнецова (Мунштукова)
    Сволочи, одним словом...Лавров не захотел участвовать в "шоу Трампа" на Генассамблее ООН

Дальневосточные ученые оцифруют русский язык

Цифровой менеджер будет хорошо говорить по-русски, то есть поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи.

К слову, на подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

"Серьезным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнером по машинному обучению, который предоставит нам технологию цифровой разметки материала", - прокомментировал директор Школы цифровой экономики Илья Мирин.

Эксперт объяснил, что фактически речь идет о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути - собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

На первом этапе к работе будут привлечены волонтеры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесенные фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесенных естественным образом.

"На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные - практически вымерли. Сегодня мы говорим о новой письменности - формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины - от микроволновок и принтеров до автомобилей и промышленных роботов, - скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети", - объяснил Илья Мирин.

Справка "РГ" :

Проект будущего реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы "Искусственный интеллект и большие данные". Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.

 

Источник ➝

Популярное

))}
Loading...
наверх