Частота основного тона это

Частота основного тона это

В качестве примера укажем применение автокорреляционной функции для вычисления частоты основного тона речевого сигнала. В настоящее время нет математического определения этой частоты. В предыдущей лекции приведен пример вида сигнала, соответствующего произнесению звука "а". На рисунке просматриваются периодический характер колебаний. Фактическое значение найденной частоты зависит от способа оценки. Простейший — подсчет с помощью преобразования Фурье. Это показано на рисунке. Основному тону соответствует частота, для которой достигается максимум. Этот способ не годится, если вблизи максимума график является пологим. Рассмотрим другие подходы.

Амплитудное ограничение. Выбирается порог, и исходный сигнал заменяется последовательностью нулей и единиц: в точках, где сигнал превышает порог, ставится 1, в остальных точках — 0. Получается сигнал вида приведенного на рисунке. После этого ищут максимумы для автокорреляционной функции сигнала. При этом можно не прибегать к схемам, основанным на БПФ, поскольку в этом случае все сводится лишь к операциям сложения.

Пересечение с нулем. Рассмотрим график функции . Значение можно оценить по формуле , где — длина интервала, а — количество переходов через 0. Этот способ применяют к речевому сигналу. Для того, чтобы исключить из рассмотрения мелкие колебания в окрестности 0, сигнал пропускают через фильтр низких частот.

Дата добавления: 2015-05-13 ; просмотров: 902 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

2.3.1. Восприятие речи

Одним из наиболее эффективных исторически сложившихся средств передачи информации человеку является речь. Человеческая речь представляет собой шумоподобный акустический сигнал с амплитудной и частотной модуляцией.

Речь состоит из звуков, слогов, фраз и т.д. Наименьшим элементом речи является звук, который, как правило, в изолированном виде не существует, за исключением нескольких союзов и междометий. Точного определения понятия звука не существует. Так, в зависимости от произношения (почерка) звук может иметь много оттенков, причем из-за индивидуальности произношения на слух он может не отличаться от другого звука.

Типизированные звуки речи в технике передачи речи называются фонемами. В русском языке насчитывается свыше 40 фонем. Таким образом, фонем несколько больше, чем букв, так как многие из согласных букв соответствуют двум звукам – твердому и мягкому. В то же время почти половина гласных букв представляет из себя двойной звук (й+гласный). Каждая из фонем имеет свои характерные признаки, легко различимые на слух. Однако даже при самом точном произношении ее в связной речи, вследствие влияния соседних звуков, она может приобретать те или иные оттенки. Речевой звук является сложным. Он включает ряд обертонов (гармоник), находящихся в гармоническом отношении к основному тону. Важным условием восприятия речи является различение длительности произнесения отдельных звуков и их комбинаций. Среднее время длительности произнесения гласных равно примерно 0,35 с, а согласных – 0,02…0,3 с. При восприятии потока речи особенно важно различение интервалов между словами или группами слов. Исключение пауз или их неверная расстановка может привести к искажению смысла воспринимаемой речи. Восприятие и понимание речевых сообщений (аудирование) в значительной мере зависит от темпа их передачи. Оптимальным считается темп 120 слов/мин.

При восприятии отдельных слогов и слов существенное влияние оказывают фонетические закономерности. При восприятии словосочетаний в действие вступают синтаксические закономерности, а фонетические отступают на второй план. При переходе к фразам слушатель начинает ориентироваться уже не на отдельные элементы предложения, а на весь их сложный грамматический каркас.

Читайте также:  Почему не открываются загруженные файлы на планшете

Таким образом, аудирование представляет собой многоуровневый процесс, сочетающий фонетический (звуковой), синтаксический (словосочетательный) и семантический (смысловой) уровни. При этом вышележащие уровни играют ведущую роль, определяя ход всего процесса аудирования, что необходимо иметь в виду при организации речевых сообщений [1-4].

2.3.2. Характеристики речевого сигнала

Звуковое давление речи – это сила, с которой звуковая волна, вызываемая звуками речи, давит на единицу площади поверхности, расположенной перпендикулярно к губам говорящего на расстоянии 1 м от него. Уровни звукового давления речи лежат в диапазоне 0…65 дБ (негромкая речь) и 0…80 дБ (громкая речь, усиленная техническими средствами). С увеличением расстояния от говорящего уровень звукового давления речи падает. Так, например, увеличение расстояния в 2 раза приводит к уменьшению уровня на 6 дБ, в 4 раза – на 12 дБ, в 8 раз – на 18 дБ и т.д.

Частота основного тона. Формирование значительной части звуков речи происходит с участием голоса. Голосообразование, или фонация, связано с работой голосовых связок, колебания которых вызывают периодические изменения площади голосовой щели. Так как голосовые связки обладают определенной инерцией, обусловленной их массой, то для их размыкания и смыкания требуется определенное время. Отрезок времени, необходимый для полного цикла колебаний голосовых связок, называется периодом колебаний. Он определяет так называемую частоту основного тона голоса речи, которая в свою очередь обусловливает высоту голоса. Эта частота для всех голосов лежит в пределах 70…450 Гц. При произнесении речи она непрерывно меняется в соответствии с ударением, подчеркиванием звуков и слов, а также при проявлении эмоций. Изменение частоты основного тона называют интонацией. У каждого человека свой диапазон изменения частоты основного тона и своя интонация. Основной тон, интонация, устный «почерк» и тембр (окраска) голоса могут служить для опознания человека. Частота основного тона определяет спектральный состав (гармоники) голоса конкретного человека.

Спектральная плотность. Речевой сигнал представляет собой шумоподобный сигнал. Он состоит из звуковых волн различных частот с различными интенсивностями, которые представляют собой спектр сигнала. Спектральной плотностью интенсивности речевого сигнала называется отношение средней интенсивности сигнала в заданной полосе частот к ширине этой полосы : .Спектральная плотность измеряется в ваттах на метр квадратный на герц и численно равна интенсивности шума в полосе частот шириной 1 Гц.

«Белый шум» представляет собой случайный процесс, спектр которого равномерен по интенсивности шума в полосе частот от нуля до бесконечности, то есть спектральная плотность которого не зависит от частоты (в заданной полосе частот). Практически достаточно, чтобы это требование выдерживалось в полосе слышимых частот, если такой шум используется для исследований в данной области частот.

«Розовый шум» представляет собой случайный процесс, огибающая спектра которого спадает в сторону высоких частот со скоростью 3 дБ на октаву. Спектральный состав такого шума наиболее близок к спектральному составу речевого сигнала.

Высота звука (голоса) – это субъективная оценка восприятия звука по частотному диапазону. За объективную единицу высоты звука, приближенно отражающей субъективное восприятие, принята октава, которая характеризуется двукратным отношением частот – 1, 2, 4, 8, 16 и т.д. На практике октава может делиться на полуоктавы и третьоктавы. Если октавные частоты расположить на равных расстояниях по оси частот, то получится логарифмический масштаб, который соответствует субъективному восприятию звуков по частоте слуховым анализатором.

Читайте также:  Программа паскаль система уравнений

Динамический диапазон. В процессе произношения любого речевого сообщения уровень акустического сигнала непрерывно изменяется. Зависимость уровня сигнала от времени называется уровнеграммой. Динамический диапазон определяется как разность между максимальным и минимальным уровнем сигнала: . Динамический диапазон речи человека составляет 25…35 дБ, а телефонных разговоров – 35…45 дБ.

Пик-фактор определяется как разность между максимальным и средним уровнем сигнала:.

Форманты – это области концентрации энергии в речевом частотном диапазоне, получающиеся при произнесении каких-либо звуков речи. Обычно форманты полностью заполняют весь частотный диапазон речи от 125 до 8000 Гц. Но в зависимости от частоты повторения звука речи частота встречаемости формант в определенной полосе частот различна. Каждая из формант дает свою часть информации о звуке речи, и эти части независимы друг от друга. Это дает возможность арифметически суммировать вероятности появления формант. Спектр гласных определяется двумя-тремя формантами. Первая имеет диапазон 300…1000 Гц, вторая – 900…2300 Гц, третья – 2200. 2500 Гц. Спектр согласных чаще всего имеет один достаточно расплывчатый минимум.

Слитность звучания. Слуховое ощущение звука исчезает не сразу, а постепенно, плавно уменьшаясь до нуля. Длительность задержки слухового ощущения характеризуется постоянной времени слуха, которая в среднем равна 150…200 мс. Вследствие этого свойства наблюдается интегрирование кратковременных звуковых импульсов в слитное восприятие звуков, запаздывающих друг относительно друга. Для слитного восприятия двух звуков необходимо, чтобы последующий звук запаздывал относительно предыдущего на промежуток времени не более 50 мс. Но и при большем запаздывании слитность звучания может не нарушаться, если последующий звук имеет уровень значительно ниже первого. Приближенно считается, что интенсивность звуков, запаздывающих на 60 мс и менее, полностью суммируется с интенсивностью основного звука, а звуки, запаздывающие более чем на 60 мс, полностью являются помехой. При больших интервалах запаздывания ощущение от первого звука уже становится малым и не маскирует второй. Поэтому оба звука воспринимаются раздельно.

Прямое и диффузное звучание. При распространении звуков речи в помещении звук, выходя из источника, распространяется прямолинейно до тех пор, пока не достигнет поверхности, от которой он отражается. Звук, распространяющийся прямолинейно до момента своего отражения, называется прямым звуком, а звуковое поле – свободным звуковым полем. В то же время звук, многократно отражающийся от поверхностей, создает в каждой точке звукового поля помещения звуковую энергию, одинаковую во всех направлениях. Такое звуковое поле и звуки в нем называются диффузными.

Индекс направленности слуха. При перпендикулярном падении звуковой волны на ухо имеет место отражение волны и ее дифракция. Соотношение между интенсивностями отраженной и дифрагирующей волн зависит от отношения длины звуковой волны и размера головы. Так как волна отражается от головы, то звуковое давление у уха повышается. Это повышение может составлять 1…6 дБ в зависимости от частоты. В случае падения звуковой волны спереди явление отражения почти не сказывается. При падении звуковой волны под различными углами, как это свойственно диффузному полю, на низких частотах звуковое давление возле ушей примерно равно звуковому давлению диффузного поля, а на высоких частотах это давление удваивается. Величина повышения звукового давления у уха слушателя, выраженная в децибелах, по сравнению с диффузным звуком в помещении называется индексом направленности слуха [1, 2].

Читайте также:  Как быстро ввести капчу

Частота основного тона является одной из важнейших характеристик речевого сигнала. Существуют различные способы оценки этого параметра, в частности, можно воспользоваться спектральным анализом. Если найдено ДПФ, то можно восстановить исходный сигнал (обратное преобразование Фурье) по дискретным значениям сигнала. Структура системы вычисления частоты основного тона приведена на рис. 3.1.

Рис. 2.3.1. Вычисление частоты основного тона

Поскольку обратное ДПФ линейно, сигнал в точке D (называемый кепстром сигнала в точке А) равен сумме кепстров функции возбуждения и импульсной характеристики голосового тракта. Можно показать, что кепстр в точке D позволяет разделить эффекты возбуждения и характеристики голосового тракта. Действительно, сигнал возбуждения можно рассматривать как квазипериодическую импульсную последовательность с преобразованием Фурье, близким к линейчатому, причем спектральные линии соответствуют гармоникам частоты основного тона. Вычисление логарифма модуля не меняет линейчатого характера спектра функции возбуждения.

Обратное ДПФ дает новую квазипериодическую последовательность импульсов с интервалами между импульсами, равными периоду основной частоты. Таким образом, кепстр сигнала возбуждения должен состоять из импульсов, расположенных вблизи n = 0, Т, 2Т. где Т — период основного тона. Импульсная характеристика голосового тракта обычно представляет собой последовательность, отличную от нуля на интервале 20-30 мс. После вычисления логарифма модуля и обратного ДПФ получается последовательность из небольшого числа ненулевых отсчетов, которое обычно меньше, чем число отсчетов на периоде основного тона.

Результат вычисления кепстра вокализованного сигнала показан на рис. 3.2.

речевой частота фонема фурье

Рис. 3.2. Кепстр вокализованного сигнала

Исследования показали, что для вокализованного сегмента речи в кепстре возникает пик, соответствующий периоду основного тона. Для невокализованного сегмента такие пики в кепстре не возникают. Это свойство кепстра может быть использовано для классификации звуков на вокализованный, невокализованный и для вычисления периода основного тона вокализованной речи.

Кепстр, полученный описанным выше способом, исследуется с целью отыскания пика в области возможных значений основного тона (4-40 мс).

Если максимум кепстра не превышает порога, то сегмент классифицируется как невокализованный. Если пик в кепстре превышает установленный порог, то сегмент классифицируется как вокализованный, а координата пика дает оценку периоду основного тона, и соответственно вычисляется частота основного тона. Таким образом можно построить эффективный алгоритм выделения частоты основного тона. Листинг одного из вариантов алгоритма приведен ниже.

Листинг программы вычисления кепстра и определения частоты основного тона речевого сигнала в среде Matlab

% Открываем wav-файл, содержащий речевой сигнал

% x — отсчеты речевого сигнала

% fs — частота дискретизации

nfft=2048;% количество точек ДПФ

window=’hamming’;% вид окна сглаживания ДПФ

nlap=0.75;% количество точек перекрытия (75%)

% Расчет размеров выходной матрицы

ncol = fix((nx-nlap)/(nwin-nlap));% ncol — количество необходимых ДПФ

colindex = 1 + (0:(ncol-1))*(nwin-nlap);

% Формирование выходной матрицы

y(:)=x( rowindex(:,ones(1,ncol)) + colindex(ones(nwin,1),:) -1 );

y = fft(y,nfft);% ДПФ входного речевого сигнала

% Убираем мнимую часть спектра

[lll,ll]=size(y2);% Размеры матрицы ДПФ

r= ifft ( log(abs(y2)) );% Обратное ДПФ от логарифма ДПФ

r=r(:,ll);% Выделяем кепстр на отрезке сигнала

r1=r;% Сохраняем отсчеты кепстра для построения графика

r(1:0.002*fs)=0;% Устранение из кепстра информации о речевом тракте

r = r(ss,:);% Убираем мнимую часть кепстра

[f0m,T0]=max(r);% Определяем временную координату пика кепстра

f0=1/(T0/fs)% Значение частоты основного тона в Герцах

Ссылка на основную публикацию
Хрипит динамик на телефоне при прослушивании
Одной из самых распространенных поломок мобильных аппаратов является выход из строя динамика. Любой пользователь мобильных телефонов знает, что сейчас производители...
Установить программу для сканирования документов бесплатно
Загрузите бесплатно пробную полнофункциональную версию программы для сканирования Scanitto Pro. Данная версия работает без каких-либо ограничений в течение 30 дней....
Установить протокол mtp media transfer protocol
Описание Компания Microsoft содержит под своим крылом множество драйверов, среди этой коллекции находится и Media Transfer Protocol, тот самый драйвер,...
Хэнкок из какой вселенной комиксов
Хэнкок Общая информацияЖанр Научная фантастика Драма Комедия Страна производстваСШАКиностудия Columbia Pictures РежиссёрПитер БергАвтор сценария Винс Джиллиган Винсент Нго Когда вышел2008...
Adblock detector