Речевые технологии предусматривают автоматическое распознавание речи, говорящего пользователя, а также синтез речи и т.п. Обработка естественного языка (NLP) включает в себя понимание элементов текста и управление диалогом между пользователем и машиной. Современные технологии по большей части основаны на алгоритмах, которые используют обработку цифрового сигнала с помощью процессора цифровых сигналов или (персональной) компьютерной системы. Алгоритмы формируют ответы практически в реальном времени. Производительность зависит от применения. Например, система распознавания речи с небольшим объемом словаря, обученная для работы с речью одного пользователя (например, при управлении личным портативным телефоном), намного удобнее (для этого пользователя), чем система, имеющая большой объем словаря и разработанная для большой группы неизвестных пользователей (например, система информационных услуг общественной телефонной сети).
Для товаров и услуг, использующих речевые технологии, можно выделить четыре главных направления применения:
a) управление и контроль. Взаимодействие между пользователем и системой осуществляется с помощью автоматического распознавания речи (ASR). ASR обычно используют при мультимодальном проектировании, в котором речевое управление системой является одним из возможных способов управления (т.е. клавиатура, мышь, сенсорный экран и т.д. могут быть альтернативными средствами). Управление при помощи системы ASR характерно для ситуаций, когда руки оператора заняты;
b) услуги и телефонные приложения. Услуги, такие как информационный киоск, обычно требуют сочетания управления распознаванием, пониманием, синтезом речи и диалогом для управления неконтролируемым диалогом пользователя с системой. Существующие современные системы охватывают относительно простые структуры диалога, такие как туристические информационные системы (день, время, "откуда - куда") и телефонные центры (выбор требуемой информации);
c) генерация документов. Системы речевого ввода текста, обученные для работы на нескольких языках, уже присутствуют на рынке. Эти системы могут использовать стандартные системы обработки текста. Простые применения предусматривают ввод данных установленного вида (например, медицинские отчеты), более сложные системы позволяют диктовать целые документы и управлять системой обработки текста. Эти более сложные системы обычно обучены для работы со словарем большого объема и зависят от особенностей речи пользователя. Однако для обеспечения приемлемой производительности система должна быть знакома с пользователем и областью использования. Обычно это выполняют в два этапа: с помощью адаптивного акустического сеанса обучения, в котором пользователь должен читать установленный текст, и представлением нескольких документов, написанных для пользователя, которые предназначены для расширения словаря и корректировки языковой модели;
d) поиск документов. Поиск готовых документов (в архиве речевых документов), поиск информации или определенных отрывков документов или высказываний определенного пользователя представляет интерес для архивного документирования и управления, а также для компиляции кратких обзоров. Различные технологии используют для маркировки произношения, например в ASR, определения слова и распознавания говорящего. Определенные алгоритмы поиска используют для восстановления запрошенной информации.