На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Российская газета

17 027 подписчиков

Свежие комментарии

  • Tatyana Fedotova
    Похоже на то. Поэтому так и грустно.Эксперт: США дают...
  • Александр Каблучко
    А где его применять? Ездил я по тем местам, сплошная застройка. А эти ублюдки специально места под позиции полюднее в...Эксперт: США дают...
  • Максим Маркин
    коррумпированных кубаноидов отправить на Чукотку в порядке ротации кадров ..Дефицита риса в Р...

Дальневосточные ученые оцифруют русский язык

Цифровой менеджер будет хорошо говорить по-русски, то есть поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи.

К слову, на подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

"Серьезным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнером по машинному обучению, который предоставит нам технологию цифровой разметки материала", - прокомментировал директор Школы цифровой экономики Илья Мирин.

Эксперт объяснил, что фактически речь идет о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути - собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

На первом этапе к работе будут привлечены волонтеры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесенные фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесенных естественным образом.

"На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные - практически вымерли. Сегодня мы говорим о новой письменности - формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины - от микроволновок и принтеров до автомобилей и промышленных роботов, - скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети", - объяснил Илья Мирин.

Справка "РГ" :

Проект будущего реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы "Искусственный интеллект и большие данные". Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.

 

Ссылка на первоисточник

Картина дня

наверх