Нижегородские специалисты филиала Высшей школы экономики разработали автоматическую систему, которая может распознавать эмоции по голосу. Ученые трансформировали звук в изображения – спектрограммы. Это дало возможность исследовать его способами, используемыми для расшифровки изображений. В серии экспериментов задействовалась так называемая сверточная нейронная сеть глубокого обучения с архитектурой VGG-16.
Как поясняют специалисты, она способна определить 8 разных состояний, от «злого» до «счастливого. Лучше других программа распознает нейтральные и спокойные тона, рассказывают разработчики. А вот счастье либо отвращение различаются далеко не всегда. Первое порой принимается за печаль и даже страх, а второе могут путать с удивлением. По последним оценкам специалистов, созданная система определяет правильно эмоцию в 70% случаев, что считается довольно высоким показателем.