Перспективы речевого интерфейса
Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками
речевого ввода. Как бы то ни было, продолжатся поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.
Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.
Построение речевого интерфейса распадается на три составляющие.
I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.
II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!» означают в одной ситуации разные понятия, а в другой - одно и то же.
III. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.
Так вот, из этих трех задач достаточно ясное и окончательное решение существует только для третьей. По сути,
синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация.
Препятствием
для окон
чатель
ного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже .. Во всяком случае, после предварительной тренировки современные систе
мы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы
распознавания печатных символов лет пять-семь назад.
Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Последние, как известно, пока не созданы, хотя большие надежды возлагаются на появление так называемых квантовых.
Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть ,
многие теперешние подходы к речевому интерфейсу вообще окажутся ненужными.
Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру,
чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.
Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами,
монотонно, как это требуется для
системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при наличии вдохновения, раза в два-три медленнее, а без оного
- медленнее раз в пять, так что скорость «ввода» и пр
и диктовке
и при работе н
а клавиатуре у меня абсолютно одинакова.
Но вот сочинять и одновременно
выговаривать сочиняемое
с четкой
артикуляцие
й ,
хоть убей, те не смогу.
Первый - и, пожалуй, основной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.
Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой «руки- глаза». На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Для иллюстрации своих аргументов возможно, несколько спорных утверждений рассмотрю перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.
Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись - 2 слова в секунду, непрофессиональная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.
Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому я еще
вернусь) компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых свя
зок
операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.
Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи- чувствительность к четкости произношения- приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится
в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет.
Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое, на мой взгляд, создателями систем речевого ввода. Оператор, взаимодействующий с компьютером
через речевой интерфейс, вынужден работать в звука изолированном
отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.
Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самый успешный на сегодня проект коммерческого применения распознавания речи - телефонная сеть фирмы АТ&Т.
Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.
Несмотря на то, что одним из наиболее перспективных направлений для внедрений систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных
программ для инвалидов, телефонных
и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора.
Даже Билл Гейтс,
являющий собой в некотором смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 95-96 году с разработки собственной универсальной системы распознавания речи, он, окрыленный первыми и, пожалуй, сомнительными успехами, в 97-м
провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого ввода планируется включить в стандартную поставку новой версии Windows NT- чисто офисной операционной
системы. При этом руководитель Microsoft
упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты «Формулы 1».
Кроме того, неужели в
ближайшем будущем прекратится выпуск
Word, Ехсеl и т. д. ?
Управлять
графическим
и объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно.
Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер». Основная работа еще впереди.
Базовая технология
Не следует путать термины «понимание» и распознавание» речи. В то время как второй непосредственно относится к технологии преобразования акустических речевых сигналов в последовательность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.)
и формирование на его основе представления о смысловом содержании высказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческому успеху узкоспециализированных систем, ни в малейшей степени не нуждающихся, например, в модуле анализа контекста высказывания.
Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала. преобразованного в электрическую форму Обычно
частота дискретизации составляет 10-11 кГц. разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц).
понятно что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки н в некоторых случаях -
поднятием разрядности.
На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.
Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).
Временной (10 мс) интервал вычисления был определен и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал считается стационарным, то есть на таком временном интервале параметры голосового тракта значительно не изменяются.
Следующий этап- распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х
годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений , что ускоряет процесс перебора эталонов и повышает надежность распознавания.
Что такое распознавание речи?
На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно
.На самом деле за столь простой идеей кроются огромные сложности.
Почему же между постановкой задачи и ее решением лежит дистанция огромного размера? Распознавание речи - молодая, развивающаяся технология. Ее очертания пока зыбки и изменчивы. Поэтому в статье пока больше вопросов, чем ответов. Я попытаюсь немного рассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.
Немного о терминах
Начнем с главного термина. Что есть речь?
Говоря о речи, мы должны различать такие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст».
В нашем случае, в приложении к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено,
сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. То есть можно поставить знак эквивалентности
между звуковой речью и ее представлением в виде речевого сигнала.
При этом под понятием «сообщение»
может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.
Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв.
Если мы запишем на магнитофонную
ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится.
Люди уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.
Поначалу ученые рассматривали речевой сигнал как набор неких универсалий, расположенных
друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили.
Тогда одни исследователи справедливо решили, что при генерации речевых сигналов наблюдается коартикуляция,
то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.
Другие исследователи, подобно физикам, атаковали идею элементарности фонем и стали утверждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды
и еще масса авторских названий элементарных звуков.
А дальше все многозначительно замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успехах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели целую кучу претендентов на универсальность. Конечно, в их основу положено прежде всего человеческое
ощущение звука. Возможно поэтому фонемы ничем не лучше букв. А фоноиды,
аллофоны и прочая - лишь усовершенствованная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь услышим. А технически-то сигнал состоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель механизма восприятия звуков речи. Большой интерес для ученых, работающих в области распознавания речи, представляют различные разделы лингвистики,
науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к успешному созданию систем распознавания .
Главные трудности фонемного подхода
Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропо-рционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании
органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется
временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либо имеют нечеткие границы.
Многообразие видов
Существующие системы распознавания речи можно классифицировать по разным признакам.
По назначению:
1) командные системы
2) системы диктовки текста.
По потребительским качествам:
1) диктороориентированные (тренируемые на конкретного диктора)
2) дикторонезависимые (рискую предложить термин «омнивойс»)
3) распознающие отдельные слова
4) распознающие слитную речь.
По механизмам функционирования:
1) простейшие (корреляционные) детекторы
2) экспертные системы с различным способом формирования и обработки базы знаний
3) вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тренировкой системы?
В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор.
Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.
Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:
- Voice Type Dictation , Voice Pilot , ViaVoice от IBM
- Voice Assist Creative от Techonology
- Listen for Windows от Verbex и многие другие.
Некоторые из них (например, ViaVoice) способны, как заявляют разработчики, вводить слитную речь.
Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.
Речевой вывод.
Речевой вывод информации из компьютера- проблема не менее важная, чем речевой ввод. Это вторая часть речевого интерфейса, без которой разговор с компьютером не может состояться. Я имею в виду прочтение вслух текстовой информации, а не проигрывание заранее записанных звуковых файлов. То есть выдачу в речевой форме заранее не известной информации.
Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, аналогичный тому, какой мы имеем благодаря монитору. Конечно, трудновато было бы передать рисунок голосом. Но вот услышать электронную почту или результат поиска в базе данных в ряде случаев было бы довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зеркала или возвращать на место прическу (может быть, даже подкрашивать ногти )
в то время как компьютер будет читать вслух последние известия или почту. Или. например, в середине рабочего дня он может привлечь
ваше внимание сообщением, что приближается время заранее назначенной деловой встречи.
С точки зрения пользователя, наиболее разумное решение проблемы синтеза речи - это включение речевых функций (в перспективе - многоязычных, с возможностями перевода) в состав операционной системы. Компьютеры будут озвучивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д.
Важное замечанием пользователь должен иметь достаточные возможности по настройке голоса компьютера, в частности, при желании, суметь выключить голос совсем.
Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зрением. Для всех остальных они создадут новое измерение удобства пользования компьютером и значительно снизят нагрузку на нервную систему и на зрение. По моему мнению, сейчас не стоит вопрос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом компьютере. Осталось ждать, может быть, год или два.
Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к технологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально
осмысленный текст, например, эту статью. Текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от
их расположения в предложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа применяемой грамматической конструкции: в ряде случаев при произнесении текста слышится явная пауза,
хотя какие-либо знаки препинания отсутствуют. Наконец, произнесение зависит и от смысла слова! Сравните, например, выбор одного из вариантов за'
мок» или «замо'к»
для одного и того же слова «замок».
Обобщенная функциональная система синтеза
Структура идеализированной системы автоматического синтеза речи может быть представлена блок- схемой, изображенной на рис.1.
Ввод текста
Блоки лингвистической Определение Исправление
Обработки языка текста ошибок
Подготовка текста входного текста
к озвучиванию
Нормализация текста
Лингвистический анализ
Формирование Фонемный транскриптор
Просодических Приведение фонем
характеристик к единицам синтеза
Озвучивание Формирование управляющей информации
Получение звукового сигнала
Звук
Она не описывает ни одну из существующих реально систем, но содержит компоненты, которые можно обнаружить во многих системах.
Модуль лингвистической обработки
Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка , а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры
(модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделение введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информативны.
Для озвучивания цифр разрабатываются специальные подблоки.
Преобразование цифр в последовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, произносятся по-разному.
Лингвистический анализ
После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем
или, иначе говоря, создать его фонемную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные
правила чтения - правила соответствия между буквами и фонемами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений.
В английском языке правила чтения очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений
и аббревиатур возникают серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется возможным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.
Кроме того, следует корректно рассматривать случаи графической омонимии:
одна и та же последовательность буквенных символов в различных контекстах порой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный
пример слова «замок»). Часто удается решить проблему неоднозначности такого рода путем грамматического анализа, однако иногда помогает только использование более широкой семантической информации.
Для языков с достаточно регулярными правилами чтения одним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, переводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонемный транскриптор.
Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения системы состоит в занесении нескольких тысяч наиболее употребительных
исключений в словарь. Альтернативное подходу «слово - буква-фонема»
решение предполагает морфемный анализ
слова и перевод в фонемы морфов (то есть значимых частей слова: приставок, корней, суффиксов и окончаний). Однако в связи с разными пограничными явлениями на стыках морфов разложение на эти элементы представляет собой значительные трудности. В то же время для языков с богатой морфологией, например, для русского. словарь морфов был бы компактнее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического анализа текста и задания его просодических характеристик. В английских системах синтеза морфемный анализ был реализован в системе M
iTalk,
для которой процент ошибок транскриптора
составляет 5%.
Особую проблему для данного этапа обработки текста образуют имена собственные.
Формирование просодических характеристик
К просодическим характеристикам высказывания относятся его тональные, акцентные и ритмические характеристики. Их физическими аналогами являются частота основного тона, энергия и длительность. Таким образом, от системы синтеза следует ожидать примерно того
же, то есть, что она сможет понимать имеющийся у нее на входе текст, используя методы искусственного интеллекта. Однако этот уровень развития компьютерной технологии еще не достигнут, и большинство современных систем автоматического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интонацией. Между тем, даже эта задача на сегодняшний день представляется очень сложной .
Методы озвучивания
Теперь скажу несколько слов о наиболее распространенных методах озвучивания, то есть о методах получения информации, управляющей параметрами создаваемого звукового сигнала, и способах формирования самого звукового сигнала.
Самое широкое разделение стратегий, применяемых при озвучивании речи, - это разделение на подходы, которые направлены на построение действующей модели рече-производящей системы человека, и подходы, где ставится задача смоделировать акустический сигнал как таковой. Первый подход известен под названием артикуляторного синтеза. Второй подход представляется на сегодняшний день более простым, поэтому он гораздо лучше изучен и практически более успешен. Внутри него выделяется два основных направления - формантный синтез по правилам и компилятивный синтез.
Формантные синтезаторы
используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.
Компилятивный синтез
осуществляется путем склейки нужных единиц компиляции из имеющегося инвентаря. На этом принцип
е построено множество систем, использующих
разные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая
речь. Кроме того, требуется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантией (и спектральной в целом) структуре на границах сегментов. В системах компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала: LP
(сокр. англ. Linear Prediction - линейное предсказание) и PSQLA
(сокр. англ. Pitch Synchronous Overlap and Add). LP-
синтез основан в значительной степени на акустической теории речеобразования,
в отличие от PSOLA-
синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы PSOLA
позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.
Наиболее
распространенные системы
синтеза (иностранные языки)
Наиболее распространенными системами синтеза речи на сегодня, очевидно, являются системы, поставляемые в комплекте со звуковыми платами. Если ваш компьютер оснащен какой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи - увы, не русской, а английской речи, точнее, ее американского варианта. К большинству оригинальных звуковых плат Sound Blaster прилагается система Creative Tex
t
- Assist,
а вместе со звуковыми картами других производителей часто поставляется программа Monologue
компании FirsfByte.
TexAssist
представляет собой реализацию формантного
синтезатора по правилам и базируется на системе DECTalk,
разработанной корпорацией Digital Equipment
при участии известного американского фонетиста Денниса Клатта
(к сожалению, рано ушедшего из жизни). DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского. Компания Creative Tech
n
ologies
предлагает разработчикам использовать TextAssist
в своих программах.
Поддерживаемые
операционные системы - MS Windows и Windows 95; для Windows NT
существует версия системы DECTalk.
изначально создававшейся для Digital Unix. Новая версия TextAsslst, объявленная фирмой Associative Computing, Inc. и разработанная с использованием технологий DECtalll
и Creative, является в то же время многоязычной системой синтеза, поддерживая английский, немецкий, испанский и французский языки. Это обеспечивается прежде всего использованием соответствующих лингвистических модулей. разработчик которых- фирма Lemout & Hausple Speech Produсts признанный лидер в поддержке многоязычных речевых технологий. В новой версии будет встроенный редактор словаря, а также специализированное устройство TextReader с кнопочным управлением работой синтезатора в разных режима), чтения текста.
Программа Monologue,
предназначенная для озвучивания текста, находящегося в буфере обмена MS Windows, использует систему ProVoice.
ProVoice-
компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность TD-PSOLA. Рассчитан на американский и британский английский, немецкий, французский, латиноамериканскую разновидность испанского и итальянский языки. Инвентарь сегментов компиляции - смешанной размерности: сегменты- фонемы или аллофоны. Компания FirstByte позиционирует систему ProVoice
и программные продукты, основанные на ней, как приложения с низким потреба
пением процессорного времени. FirstByte
также предлагает рассчитанную
на мощные компьютеры систему артикуляторного
синтеза PrimoVox
для использования в приложениях телефонии. Для разработчиков: Monologue Win32 поддерживает спецификацию MicrosoftSAPI.
Синтезатор русской речи
В качестве примера рассмотрим разработку «Говорящая мышь»
клуба голосовых технологий научного парка МГУ.
В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам.
Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, подающие пока менее естественное озвучивание текста. Это, прежде всего параметрический (формантный'' синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустика-фонетические базы данных
и соответствующая компьютерная технология, которые пока доступны не всем.
Инструментарий синтеза русской речи
Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вспух смешанные русско-английские тексты.
Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.
Что дальше?
А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд пи в ближайшие несколько лет стоит ожидать появления систем распознавания речи по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известие, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...
Думаю не будет секретом то , что любой находящийся в этой аудитории человек если он болен машиной , если он фанатик врятли воспринимает её как неодушевлённый предмет , как мебель . Скорее в кучку железа под таинственным названием компьютер мы вкладываем душу ,вкладываем себя посредством непрерывного общения в прямом смысле этого слова . Лично я не раз замечала за собою безсознательные вещи : набивая текст, составляя программу ,инсталируя приложения я регулярно бросаю компьютеру нелестные отзывы о ней же.Типа: Чего ты еще хочешь Захлопнись , или Ну и кретин же ты. Наивно пологая что когда нибудь она меня всё-таки услышит и на реплику : «Какой же ты балбес» ласково произнесет питание компьютера отключено , потеря всех не сохраненных данных . Именно по-этому темой своего реферата я выбрала близкую мне : Речевые технологии .Хотя я назвала бы ее более лирично : Узнай меня по голосу . В своем выступлении я хотела бы осветить не только проблемы и перспективы развития речевого интерфейса, но по рассуждать о том нужен ли он вообще и ой как не скоро окупят надежды потери времени и денег.
|