Поклонники футбола никогда не забудут удар головой известнейшего французского футболиста Зинедина Зидана в 2006 году в финале Кубка мира. Атака Зидана на итальянского игрока Марко Матерацци, после словесной перепалки, привела к красной карточке. Зидан был удален с поля, что облегчило для сборной Италии борьбу за чемпионское звание. Уже позже стало известно о матерных словах Матерацци, сказанных в адрес Зидана.
«Если бы тогда была хорошая технология чтения по губам, реакция Зидана была бы объяснимой, и можно было бы удалить обоих игроков», - говорит Хелен Беар, ученый из Университета в г. Норвич в Восточной Англии. «И может быть, исход матча оказался другим».
Беар и ее коллега Ричард Харви разработали новый алгоритм для чтения по губам, совершенствующий способность компьютера различать звуки, которые одинаково выглядят по губам. Исследователи представили свои работы на Международной конференции по акустике и обработке речевых сигналов (ICASSP) в Шанхае.
Машина, которая надежно читает по губам, могла бы быть использована, конечно, не только в спортивных состязаниях. Она может быть использована для раскрытия преступлений или анализа записанного материала после автомобильных и авиационных аварий, говорит Беар. Она может помочь людям, которые потеряли слух. Для них овладеть способностью чтения по губам не столь легко, как тем, у кого врожденная потеря слуха. Она также может быть использована для совершенствования процесса дублирования фильмов.
Чтение по губам или визуальное распознавание речи включает распознавание формы губ, а затем воспроизведение по ним слов. Это более сложная задача, чем технология распознавания речи, которая сегодня уже стала привычной. Дело здесь в том, что губы принимают от 10 до 14 форм, называемых виземы, в то время как речь использует 50 различных звуков, называемых фонемами. Кроме того, визема может соответствовать нескольким фонемам.
Беар и Харви разработали новый алгоритм машинного обучения, который более точно сопоставляет визему с одной конкретной фонемой. Алгоритм включает два этапа подготовки. Вначале компьютер учится увязывать виземы относительно нескольких фонем, которые он может представлять. На втором этапе виземы дублируются, скажем три раза, если они выглядят как «р», «b» и «m», и каждая соотвествует только одному из этих звуков.
Данные для обучения алгоритма брались из аудио- и видеозаписей 12 человек (7 мужчин и 5 женщин), читающих 200 предложений. Беар использует известный алгоритм машинного зрения, который извлекает формы губ. Затем она маркирует извлеченные данные с соответствующими виземами и передает аудиоданные с фонемами в систему обучения алгоритма.
Этот алгоритм на 25% лучше идентифиицирует звуки, в сравнении с прежними методами, говорит Беар. Он распознает слова для всех говорящих в среднем на 5% лучше, что является серьезным шагом вперед, учитывая низкую точность систем распознавания речи, которые были разработаны до сих пор.
Комментарии
(0) Добавить комментарий