Как улучшить четкость речи. Слуховые аппараты и разборчивость речи Как улучшить свою дикцию

Понятность и разборчивость речи

Понятность речи - основная характеристика, определяющая пригодность тракта для передачи речи. Непосредственное определение этой характеристики может быть осуществлено статистическим методом с привлечением большого числа слушателей и дикторов. Количественное определение понятности речи – разборчивость .

Разборчивостью речи называют относительное или процентное число правильно принятых элементов речи из общего числа переданных по тракту. Элементы речи – сложные звуки, слова, фразы, цифры. Соответственно различают слоговую , звуковую , словесную , смысловую и цифровую разборчивости . Между ними существует статистическая взаимосвязь. В практике преимущественно используют слоговую, словесную и смысловую разборчивости.

Для измерений разборчивости разработаны специальные таблицы слогов с учетом встречаемости их в русской речи. Эти таблицы называются артикуляционными . Разборчивость измеряют с помощью тренированной бригады слушателей без нарушений слуха и речи путем проведения субъективно-статистических экспертиз. При этом измерения могут проводиться различными методами, например, методом бальной оценки, методом определения процента правильно принятых слов и т.д.

Зависимость между разборчивостью речи и ее понятностью, приведена в табл. 16.1. В этой таблице понятность речи оценена четырьмя градациями:

1) отличная, если понятность полная, без переспросов;

2) хорошая, если у слушателей возникла необходимость в отдельных переспросах редко встречающихся слов или отдельных названий;

3) удовлетворительная, если слушатели сообщили, что им трудно понимать, имели место частые переспросы;

4) предельно допустимая, если требовались неоднократные переспросы одного и того же материала с передачей отдельных слов по буквам при полном напряжении слуха.

Таблица 16.1

Причинами снижения разборчивости являются акустические шумы в помещении, помехи от реверберации и диффузного звука, недостаточное усиление сигналов первичного источника звука.

Системы озвучения и звукоусиления должны обеспечивать требуемую понятность речи. При передаче информационных программ, проведении митингов и собраний необходима отличная понятность речи, которая обеспечивается при 80 % слоговой и 98 % словесной разборчивостях. Для диспетчерской связи полная разборчивость речи (удовлетворительная понятность) получается при 40...50 % слоговой и 87...93 % словесной разборчивостях. Поэтому при расчете диспетчерской связи ориентируются на меньшие величины разборчивости, чем при расчетах систем широкого применения.

Существует связь между разборчивостью речи, условиями приема и характеристиками трактов передачи, которую удалось установить при помощи формантной теории, разработанной Флетчером и Коллардом.

Области концентрации энергии в том или ином участке частотного диапазона называются формантами . Их расположение зависит как от положения звука в слове или фразе, так и от индивидуальных особенностей артикуляционного аппарата человека. Каждый звук имеет несколько формант. Форманты звуков речи заполняют частотный диапазон от 150 до 7000 Гц.

Этот диапазон частот условились поделить на 20 полос, в каждой из которых вероятность появления формант одинакова. Такие полосы частот назвали полосами равной разборчивости . Они определены для ряда языков, в том числе для русского. Установили, что вероятность появления фомант подчиняется правилу аддитивности. При достаточно большом количестве звукового материала вероятность появления формант в каждой полосе равна 0,05.

Форманты имеют различные уровни интенсивности: у звонких звуков они выше, чем у глухих. При увеличении уровня акустических шумов сначала маскируются форманты с низкими уровнями, а затем с более высокими. В результате маскировки уменьшается вероятность восприятия формант. Коэффициент, определяющий это уменьшение в к - й полосе, называют коэффициентом восприятия или разборчивости к ф . Иначе говоря, в к -ой полосе вероятность приема формант

где коэффициент восприятия формант к ф зависит от уровня ощущения, который в свою очередь определяется разностью между средним спектральным уровнем речи В р в полосе равной разборчивости и спектральным уровнем шумов и помех в той же полосе В ш :

Е ф = В р - В ш . (16.2)

Коэффициент восприятия (разбогрчивости) может быть определен по графику, представленному на рис. 16.1. На этом графике приведены уровни ощущения Е ф и соответствующие им коэффициенты восприятия к ф .

Для уровней ощущения 0-18 дБ к ф может быть определен приближенно по формуле k ф =(Е+ 6)/30.

Рисунок 16.1.Интегральное распределе­ние уровней речи.

В общем случае для каждой полосы равной разборчивости коэффициент восприятия будет разным. Общая формантная разборчивость в речевом диапазоне частот определяется из

(16.3)

Рисунок 16.2.Зависимость слоговой разборчивости от формантной.

Зависимость между формантной и другими видами разборчивости была найдена экспериментально. Такая зависимость для слоговой разборчивости показана на рис. 16.2. Из этого рисунка видно, что почти полная понятность речи (слоговая разборчивость равна 80 %) получается при приеме лишь половины всех формант (формантная разборчивость равна 0,5), что свидетельствует об избыточности речи и комбинационной способности мозга.

Определение разборчивости речи для озвучиваемых помещений прежде всего осуществляют для точек озвучиваемой поверхности с минимальным уровнем прямого звука и максимальным уровнем акустичеких шумов. Спектральный уровень прямого звука у слушателя, находящегося в такой точке,

, (16.4)

где В рм -спектральный уровень речи у микрофона (определяется из таблиц);

,

где r м - удаление микрофона от оратора; - спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц);
- индекс усиления (индекс тракта - разность между уровнями звука, создаваемыми громкоговорителем системы звукоусиления у уха слушателя и первичным источником звука на входе микрофона).

Эти данные определяют для каждой полосы равной разборчивости. Для этих же полос спектральные уровни шумов и помех в месте слушания

где В аш - спектральный уровень акустических шумов (определяется из справочных таблиц); В п - спектральный уровень помех от речи (самомаскировка речи),

где
- поправка на помехи от диффузного звука (R - акустическое отношение в расчетной точке); N д - дифракционная поправка, поправка на отражение от головы слушателя (определяется из справочных таблиц);
- поправка на реверберационные помехи (Т р - время реверберации).

Уровень акустических шумов не зависит от индекса тракта, в то время как уровень помех от речи растет с увеличением индекса тракта (16.4), (16.6). Поэтому для повышения уровня ощущения целесообразно увеличивать индекс тракта. После достижения условия

В п = В аш + 6 (16.7)

дальнейшее увеличение индекса тракта не рационально, так как уровень ощущения в пределе может повыситься лишь на 1 дБ. Это условие с учетом (16.4), (16.6), (16.7) определяет индекс тракта

Такой индекс тракта называют рациональным . Он в основном определяется максимальным значением акустического отношения
в расчетной точке и временем реверберации.

При рациональном усилении из (16.5) следует, что

В ш = В п + 1, (16.9)

т.е. вклад акустических шумов В аш в общий уровень шумов и помех незначителен.

Полученные выражения позволяют определить разборчивость и понятность речи. Для этого по формулам (16.4), (16.6), (16.9) находят уровни речи, шумов и помех и далее по формуле (16.2) определяют уровень ощущения формант Е ф для каждой полосы равной разборчивости. Графическая зависимость, представленная на рис. 16.1, позволяет найти коэффициенты разборчивости к ф , соответствующие полученным значениям Е ф . Общая формантная разборчивость А в речевом диапазоне частот находится из выражения (16.3), а соответствующая ей слоговая разборчивость определяется по рис. 16.2. Понятность речи определяется по табл. 16.1.

Методы повышения разборчивости речи

    Снижение уровней помех. (На практике этого достигнуть удается не всегда). Стараются увеличивать L p у слушателя(приближение микрофона, увеличение уровня голоса говорящего).

    Повышение уровня звукового давления у слушателя по прямому звуку, приближением микрофона к источнику звука, повышением уровня голоса говорящего, увеличением индекса тракта.

    Сжатие D речевого сигнала - повышение уровней звукового давления слабых звуков при сохранении максимальных уровней звукового давления.

Предельным случаем сжатия D является амплитудное ограничение - клиппирование . При этом речевой сигнал превращается в последовательность импульсов постоянной амплитуды, но с меняющимися интервалами между нулевыми переходами (телеграфный режим работы). В результате все звуки речи будут иметь одинаковый (максимальный) уровень при приеме. Качество звучания в этом случае ухудшается, но разборчивость резко повышается, так как слабые звуки не клиппированной речи, маскирующиеся помехами, при таком способе передачи окажутся выше уровней помех.

    Применение вокодеров.

Вокодер представляет собой устройство, в передающей части которого из речевого сигнала выделяются параметры, определяющие информативность речи: спектральные огибающие звуков речи и параметры основного тона речи, т.е. медленно меняющиеся во времени признаки звуков речи.

В приемной части вокодера имеется сложный фильтр, имитирующий акустическую систему речевого тракта для звонких звуков речи и глухих. Уровнем синтезируемых звуков и параметрами фильтров управляют сигналы, выделенные на передающем конце вокодера, в результате чего восстанавливается спектральная огибающая речевого сигнала. Качество и разборчивость восстановленного сигнала получаются достаточно высокими.

    Увеличение средней мощности сигнала, а следовательно разборчивости, за счет разделения сигнала на огибающую и мгновенную фазы и их особая обработка.

Расчет разборчивости речи

    Вычисляем спектральные уровни речи с поправкой на расстояние от микрофона

, (16.10)

где В’ p – спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц).

2. По заданному спектру и уровню акустических шумов находим его спектральные уровни В а (определяется из справочных таблиц).

3. Определяем суммарную поправку ΣΔ L .

4. Определяем фактический индекс тракта Q мс .

5. Все данные заносятся в таблицу.

6. Вычисляем спектральные уровни речи у слушателя

(16.11)

7. Вычисляем спектральные уровни помех

. (16.12)

8. Суммируем спектральные уровни помех со спектральными уровнями акустических шумов

9. Вычитаем из спектрального уровня речи спектральный уровень суммарных помех и шумов и получаем уровень ощущения формант

. (16.14)

10. По найденному уровню ощущения находим коэффициент разборчивости k ф;

для 0. (16.15)

или находим его точные значения по таблице. Все вычисленные значения заносим в сводную таблицу.

11. Суммируем полученные величины коэффициентов разборчивости и находим формантную разбочивость

. (16.16)

По формантной разборчивости определяем слоговую S и словестную W разборчивсти и понятность речи.

Из анализа данных коэффициента разборчивости следует, что нижние частоты передаются намного хуже верхних. Так как есть запас по предельному индексу тракта на этих частотах, то можно спроектировать их примерно на 4 дБ. Разборчивость от этого практически не изменится, но повысится качество звучания.

Для ориентировочного определения разборчивости речи можно воспользоваться сокращенной методикой расчета. Если спектры речи и шумов изменяются по частоте не очень резко,то нет смысла вычислять их для всехполос равной разборчивости, а достаточно расчитать из на октавных частотах.

Октаве 173-350 Гц соотетствует одна полоса равной разборчивости (200-350 Гц).

Октава 350-700 Гц охватывает три полосы (330-465);

Октава 700-1400 Гц включает в себя 4 полосы (750-900);

Октава 1400-2800 Гц → 6 полос (1410-2840).

Октава 2800-5600 Гц → 5 полос (2840-5640).

Участок дапазона 5600-7000 Гц соответствует последней полосе равной разборчивости (5640-7000).

С учетом этого формантная разборчивость определяется по формуле

где k ф1 - k ф6 – коэффициенты разборчивости на октавных частотах.

Снижение слуха и нарушение мозгового кровообращения. Факты и рекомендации

Снижение слуха и нарушения речи являются распространенными осложнениями острых или хронических нарушений мозгового кровообращения , что приводит к большой социальной дезадаптации пациентов. Плохой слух, выраженное ухудшение разборчивости речи, расстройство артикуляции речи, наличие афазии ведут к изоляции пациента не только в обществе, но и в семье.

Нарушение мозгового кровообращения приводит к необратимой деструкции, по сути гибели, нервных структур головного мозга в связи с недостаточностью артериального кровотока и оксигенации (насыщения кислородом) клеток. Нарушения могут носить ишемический или геморрагический характер.

Причиной ишемии является блок кровеносных сосудов, снабжающих артериальной кровью головной мозг.

Геморрагическое нарушение кровообращения связано с разрывом сосудов и кровоизлиянием в ткани головного мозга.

Любое из этих видов сосудистых расстройств может приводить к стойкому ухудшению или утрате функции тех участков мозга, которые кровоснабжаются поврежденными сосудами. В результате мы имеем дело с дефицитом неврологических функций различных органов и систем организма, в том числе органов чувств.

Согласно современным статистическим данным, снижение слуха является одним из самых распространенных последствий нарушения мозгового кровообращения. Однако существует большая недооценка частоты распространения этих нарушений. Главной причиной является относительно скрытая природа тугоухости на фоне других более явных расстройств функций, таких как трудности с глотанием, координацией, походной, или речи. Зачастую пациентов приводят родственники с жалобами на трудности коммуникации, объясняя эти факты сложностями вербального (речевого) общения. И лишь подробное уточнение обстоятельств и симптомов выводит на первый план снижение остроты слуха и разборчивости речи после перенесенного инсульта .

Основной формой тугоухости , с которой сталкиваются специалисты у пациентов после развития нарушения мозгового кровообращения, является сенсоневральная тугоухость . Причиной нарушения звуковосприятия становится повреждение рецепторных клеток внутреннего уха (улитки), слуховой части предверно-улиткового нерва или центральных проводящих путей и коркового отдела слухового анализатора, расположенного в височной области головного мозга. Такие исходы наиболее вероятны у пациентов, имеющих историю атеросклероза, длительно курящих, страдающих сахарным диабетом или с высоким артериальным давлением. Существенный рост случаев сенсоневральной тугоухости наблюдается у людей с сочетанием нескольких предрасполагающих негативных факторов.

Среди всех причин нарушения слуха у людей, перенесших инсульт, самой распространенной является ишемия . В частности, речь идет о случаях инфаркта передне-нижней мозжечковой артерии, составляющих 83% всех наблюдений. Реже встречаются нарушения слуха при инфаркте задне-нижней мозжечковой артерии - 12% случаев. В упомянутых примерах типичными являются наблюдения одностороннего нарушения слуха на стороне расстройства кровообращения. Отсюда вытекает эмпирическое правило: необходима обязательная оценка состояния кровообращения при всех наблюдениях одностороннего расстройства слуха по сенсоневральному типу.

Значительно реже наблюдаются случаи инфаркта верхней мозжечковой артерии, сопровождающихся потерей слуха на противоположной стороне головы. Наименее часто встречается снижение слуха из-за нарушения мозгового кровообращения ствола головного мозга или его срединных структур - менее 1% случаев.

Геморрагические инсульты приводят к снижению слуха у меньшинства пациентов. Они характеризуются своей клинической вариабельностью: одно- или двусторонняя тугоухость, разная степень выраженности процесса от легкой потери слуха до глухоты. Встречаются также случаи частичного спонтанного улучшения остроты слуха в течение нескольких последующих недель.

Исходя из всего вышеизложенного хочется обратиться к пациентам, перенесшим эпизод нарушение кровообращения, и их родственникам с рекомендацией обязательно обратиться на аудиологическое исследование к специалистам (сурдологи, лор-врачи) как только позволит состояние здоровья. Во-время выполненная аудиометрия или объективные методы исследования слуховой функции (КСВП, отоакустическая эмиссия, регистрация акустических рефлексов) не позволят пропустить симптомы сенсоневрального нарушения слуха и позволят своевременно осуществить реабилитационные мероприятия с лучшим прогнозом.
В специализированных учреждениях также ведутся обучающие программы для родственников с целью помочь им приложить правильные усилия, ориентировать на научно обоснованные и доказавшие свою эффективность методы психологической, логопедической, слухопротезной и социальной помощи.

Проблемы проявляются в общении с людьми, при разговоре по телефону, просмотре телевизора, прослушивании радио и т.д. С этим можно или смириться, но тогда проблемы станут только еще неразрешимей, либо принять необходимые шаги для их решения . При нарушениях звуковосприятия мозг человека не получает достаточного звукового стимула, возникает депривация слухового анализатора (частичное или полное лишение одного или более органов чувств внешнего воздействия), что со временем приводит к утрате навыка разборчивости речи, человек забывает как звучат те или иные звуки.

Чем дольше стаж потери слуха, чем далее откладываются меры по его восстановлению, тем быстрее и глубже происходит ухудшение разборчивости речи, тем сложнее и длительней будет процесс реабилитации, который не всегда приведет к 100% компенсации.

Наша задача заключается в оказании помощи слабослышащим, у кого есть нарушение слуха, кто уже столкнулся с проблемами, связанными с нарушением, а так же желает восстановить навык разборчивости речи, вновь ощутить забытые звуки.

Полноценного спуха можно достичь только совместными усилиями.

Шаг первый. Посещение специалиста по слухопротезированию.

Для этого необходимо записаться на прием к специалисту, который имеет профессиональную подготовку, соответствующие дипломы, сертификаты. Он Вам поможет определиться с выбором слухового аппарата , соответствующего нарушению слуха, образу жизни.
В специализированном центре Вам предложат несколько видов аппаратов, подходящих именно Вам по всем критериям. При этом выполнят компьютерную настройку, проведут различные речевые тесты для контроля качества настройки. Ваша задача лишь выбрать соответствующий слуховой аппарат по качеству звука, а так же по цене.

На прием к слухопротезисту рекомендуется придти с родным, близким или знакомым Вам человеком. Работа современных цифровых программируемых слуховых аппаратов направлена не столько на силу звука, сколько на понимание, а так же наразборчивость речи. При этом, услышав речь знакомого человека, Вам будет более понятен эффект.

Шаг второй. Приобретение слухового аппарата.

Приобретение слухового аппарата , рекомендованного нашим специалистом на основании данных слуха и образа жизни, является самым главным шагом на пути к успешному результату восстановления навыка разборчивости речи.

В настоящее время фирмами-производителями уделяется много внимания косметической составляющей. Современные модели стали значительно меньше по размерам за счет того, что регуляторы громкости, кнопки переключения программ вынесены в пульт управления, который напоминает брелок. Пультом легче пользоваться, так как Вы видите кнопки управления, ранее же приходилось «вслепую» на ощупь изменять громкость или программу прослушивания. Слуховые аппараты стали легче и менее заметными . Появилась также возможность выбора цвета корпуса под цвет кожи или волос, в тон косметики или по другим предпочтениям.

Все это сделано для того, что слуховым аппаратом Вам придется пользоваться длительное время, а при изменении слуха должна иметься возможность для перепрограммирования слухового аппарата, введение новых характеристик под измененный слух.

Шаг третий. Привыкание или адаптация.

После того, как Вы приобрели слуховой аппарат, стали им пользоваться, необходимо привыкнуть к его нахождению в ухе, новым звукам, которые раньше не слышали, которые сейчас стали слышать. Для привыкания требуется некоторое время. Слух должен привыкнуть к новым звукам.

Первые ощущения чрезвычайно важны для правильной настройки слухового аппарата . Используйте все возможности, которые предоставляют современные аппараты для решения вопросов коррекции слуха.

Кроме того, следует соблюдать инструкции, прилагающиеся к изделию. При возникновении вопросов или проблем обратитесь к специалисту по месту приобретения.

Необходимо понимать, что СА не может устранить потерю слуха . СА лишь усиливает на тех частотах, где выявлена потеря звуковосприятия.

Примерка слухового аппарата, проверка эффективности коррекции слуха производится в стандартных условиях - в так называемом «свободном звуковом поле» при отсутствии посторонних звуков. При этом невозможно смоделировать те акустические условия, с которыми Вам придется постоянно сталкиваться. Поэтому мы рекомендуем в течении первых 2 месяцев использования записать ощущения с тем, чтобы в дальнейшем, при возникновении необходимости, сообщить эту информацию слухопротезисту, сурдологу для получения дальнейших рекомендаций или настройки.

  • восприятие различных звуков по громкости,
  • разборчивость речи,
  • восприятие своего голоса,
  • разговор по телефону.

При этом все звуки Вам необходимо разделить на «неприятные» и «непривычные» . Если со временем «неприятные» звуки не исчезли, или Вы к ним не привыкли, это требует коррекции настроек.

Длительность привыкания к новому слуховому аппарату является абсолютно индивидуальной и может протекать от нескольких недель до нескольких месяцев.

Заключение.

Начинать всегда трудно.

В первое время от множества звуков может возникать утомление. Основа успеха - положительный настрой, а так же желание научиться лучше понимать и слышать.

  • Каждодневное ношение СА – залог успеха.

С каждым днем Вы будете лучше слышать и больше понимать речь. Вначале пользуйтесь несколько часов ежедневно, при этом постепенно увеличивая время ношения.

  • Улучшение слуха происходит постепенно.

Не стоит сразу после покупки ожидать 100% эффекта. К новым звукам и ощущениям нужно, особенно в сложных звуковых ситуациях.

Как общаться с теми, кто носит слуховой аппарат?

    Говорите ясно и четко.

    Говорите спокойно, четко и медленно. Не нужно кричать. Это не поможет лучше Вас понять.

    Подойдите поближе.

    В шумной обстановке постарайтесь быть ближе к собеседнику.

  1. Старайтесь смотреть на человека.
  2. Люди с нарушением слуха чаще всего обращают внимание на выражение лица и движение губ. Чем отчетливей Ваша речь, тем проще будет Вас понять.

  3. Обратите на себя внимание.
  4. Окликните собеседника по имени. Убедитесь, что с Вами готовы разговаривать.

  5. Избегайте сложных звуковых ситуаций.
  6. Разговор под шум льющейся воды, пылесоса, громкую музыку не принесет должного эффекта. Не стоит кричать и разговаривать на большом расстоянии, например из другой комнаты.

  7. Сохраняйте спокойствие.
  8. Внимание человека, который недавно использует слуховой аппарат, может быстро рассеиваться. Понимание речи требует напряжения. Беседуйте спокойно.

се мы не раз оказывались в ситуации, когда различные шумовые помехи настолько мешали разговору, что слова собеседника становились совершенно неразборчивыми. А если проводить в таких условиях видеосъемку, то речь, звучащая в кадре, станет абсолютно непонятной, поскольку исчезнет и визуальный контакт с собеседником.

К сожалению, оставляет желать лучшего и качество речи при передаче ее через Интернет. В этом может убедиться любой, кто воспользуется одной из существующих коммуникационных программ для передачи голоса через IP на базе, например, протоколов Н.323. При этом принципиального улучшения качества передачи речи при существующих методах маршрутизации в Интернете ждать не приходиться, ведь до сих пор считалось, что круг пользователей такой связи весьма ограничен. Казалось, что это могло заинтересовать лишь индивидуальных владельцев персональных компьютеров, жаждущих доступного по цене общения со своими друзьями на другом конце света, или корпоративных пользователей, пытающихся максимально удешевить связь между офисами в разных городах. Но если делать Интернет-телефонию общедоступной услугой, за которую можно взымать деньги, то, естественно, необходимо повышать качество связи, которое она обеспечивает.

Разборчивость речи

то же такое разборчивость речи? В принципе, разборчивость является некоторой интегральной оценкой речевого сигнала и в соответствии с международным стандартом ISO/TR 4870 определяется как «степень, с которой речь может быть понята (расшифрована) слушателями». Под этим понимается степень, с которой слушатели могут понять смысл фразы, идентифицировать слова, слоги и фонемы. В соответствии с этим различают различные виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, однако, все тесно связаны друг с другом и могут быть пересчитаны одна в другую.

Однако подобное определение субъективно и предполагает организацию некой экспертизы. Для определения разборчивости, в частности при оценке акустических свойств аудиторий, театральных, концертных залов, студий и других помещений, на практике используются различные методы и стандарты: ГОСТ 25902-83, ГОСТ 51061-97, ANSI S3.2 и др. Но все они предлагают довольно сложные, длительные и дорогостоящие процедуры, а объективные методы определения разборчивости, позволяющие получить быстрые и автоматизированные оценки, которые хорошо совпадают с субъективными экспертизами, пока еще разработаны недостаточно, хотя работа ведется уже на протяжении многих лет.

В настоящее время разработано большое количество таких методов: AI (Articulation Index) - индекс артикуляции; %ALcons (Percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (Speech Transmission Index) - индекс передачи речи; RASTI (Rapid Speech Transmission Index) - быстрый индекс передачи речи; SII (Speech Intelligibility Index) - индекс разборчивости речи и многие другие, соответствующие стандартам ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и пр.

Так, например, один из критериев, регламентированный международными нормативными документами, представляет собой безразмерный коэффициент, который может изменяться от 0 до 1. При этом его значения соотносятся с субъективной оценкой разборчивости речи в соответствии со следующей стандартизованной зависимостью:

Для расчетов разборчивости выбирается частотная полоса речевого сигнала в диапазоне от 150 до 7000 Гц (или с запасом - от 125 до 8000 Гц), поскольку внутри этой полосы располагаются практически все гласные и согласные русской речи. Как видите, речевой сигнал в этом случае достаточно широкополосный для того, чтобы различные помехи смогли внести свой негативный вклад в понижение разборчивости. При этом основная энергия согласных звуков сосредоточена вокруг 2000 Гц, из-за чего в результате маскировки шумом примерно на такой частоте значительно уменьшается вероятность восприятия (отметим также, что согласные звуки ниже по уровню и поэтому пропадают быстрее), а следовательно, падает уровень разборчивости речи. Интересно отметить, что при потере почти половины звуковой разборчивости слоговая разборчивость сохраняется на уровне 80%, то есть речь обладает достаточным запасом в плане информационной избыточности.

Как показывает анализ, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал, модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит фразы, то есть скоростью артикуляции. Эксперименты показали, что частоты модуляции обычной речи лежат в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5-7 Гц. Соответственно уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой, а потому приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи, с учетом искажений и шумов, происходит снижение разборчивости сигнала, что может быть оценено по степени уменьшения глубины его модуляции (изменения формы огибающей сигнала).

Как решают эту проблему профессионалы

адо сказать, что профессионалы стараются вообще не связываться с неразборчивой речью и предпочитают сразу записывать чистый звук - либо отдельно, либо при помощи специальных узко направленных микрофонов.

В результате длительных поисков оборудования, хоть как-то подходящего для решения проблемы повышения разборчивости уже записанной речи, автору удалось обнаружить лишь безумно дорогое устройство полосового обесшумливания фирмы Dolby Laboratories, именуемое Cat. No. 43 (просьба не путать с устройствами шумопонижения той же фирмы).

Действительно, из, казалось бы, широкополосного речевого спектра можно выделить частотные полосы, в которых имеются максимумы акустической энергии от речевой составляющей, и обрабатывать их по отдельности, добиваясь тем самым очищения полезного сигнала. Надо ли говорить, что вас ожидает кропотливая ручная работа, если, конечно, вы хотите улучшить разборчивость произносимого - без ущерба для динамического диапазона оригинальной фонограммы. Безусловно, придется поработать над средней плотностью фонограммы в каждом «новом» канале и с соотношением «полезный сигнал/помеха».

Профессионалы предпочитают сразу записывать чистый звук, иначе последующая обработка в системах типа Dolby Laboratories Cat. No. 43 обойдется им очень дорого

Но почему не решать эту проблему программно, с использованием «умных» компьютеров? Производители подобных продуктов вроде бы имеются (например, компании SIA Software, DAC или та же Dolby Laboratories), но успехи в этой области, похоже, находятся на том же уровне, что и в отношении программ автоматического распознавания речи и преобразования ее в текст. Таким образом, в настоящее время таких программ для реальной работы (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, весьма нескоро.

Однако петербуржская компания «Центр речевых технологий» (ЦРТ), которая работает в этой области с 1990 года, кажется, добилась определенных успехов. Компания ЦРТ (www.speechpro.ru) имеет в своем арсенале целый набор программных и аппаратных средств, предназначенных для шумоочистки и повышения качества звуковых, и в первую очередь речевых сигналов, - это компьютерные программы, автономные устройства, платы (DSP), встраиваемые в устройства каналов записи или передачи речевой информации. В частности, компания разработала такие программы, как SIS, SoundCleaner, а также аппаратные устройства серии «Золушка», «Тишина» и др. Данные устройства повышают разборчивость речи в условиях воздействия шумов и искажений, делают ее прослушивание более комфортным, что необходимо экипажам самолетов, авиадиспетчерам, операторам служб экстренной помощи, машинистам локомотивов и пр. При этом подобное устройство может быть встроено практически в любой аналоговый или цифровой телефонный аппарат, радиостанцию, телефонную гарнитуру и т.п.

Так, например, первым покупателем платы «Тишина» стала американская компания, которая использует ее в гонках NASCAR для обеспечения качественной связи между пилотом, командой и болельщиками.

Специалисты фирмы принимали участие в восстановлении аудиоинформации, записанной на борту затонувшей подлодки «Курск» (итогом полугодовой работы стали 23 компакт-диска со 120 часами восстановленной звуковой информации и 340 страниц дословного содержания фонограмм речи), на потерпевших катастрофу воздушных судах, а также при расследовании ряда уголовных дел, для которых требовалось установить содержание фонограмм речи.

SoundCleaner

есомненным лидером в линейке продуктов шумоочистки ЦРТ является программный пакет SoundCleaner. В 2000 году программа SoundCleaner официально зарегистрирована Российским агентством по патентам и товарным знакам.

Комплекс шумоочистки речи SoundCleaner представляет собой профессиональный набор программно-аппаратных средств, предназначенных для восстановления разборчивости речи и очистки звуковых сигналов, записанных в сложных акустических условиях или передаваемых по каналам связи.

Портативная система шумоочистки речи SoundCleaner может помочь в повышении
разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях

Это действительно уникальный программный продукт, предназначенный для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала. И именно он может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях (в том числе архивных).

Естественно, он эффективнее работает в отношении шумов и искажений звука известной природы, таких как типовые шумы и искажения каналов связи и звукозаписи, шумы помещений и улицы, работающих механизмов, транспортных средств и бытовой техники, голосовой «коктейль», медленная музыка, электромагнитные наводки систем питания, как шумы компьютерной и другой техники, эффекты реверберации и эха. В принципе, чем регулярнее и равномернее шум, тем успешнее SoundCleaner с ним справится.

Однако при двухканальном съеме информации он существенно снижает влияние шумов любого типа. Так, например, SoundCleaner имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Эти методы основываются на том, что при выделении полезного сигнала используется дополнительная информация о свойствах помехи, представленная в опорном канале.

Если возникает необходимость решать нестандартные задачи по обработке тех или иных фонограмм, то программа SoundCleaner предоставляет возможность гибкой настройки процедуры обработки сигнала, включая редактирование самой схемы обработки. Таким образом, пользователи любого уровня подготовки могут успешно решать задачи шумоподавления, пользуясь автоматическими или ручными настройками программы. Для менее опытных существует 13 готовых схем обработки наиболее типичных зашумлений и искажений сигналов (электронаводка, шум транспорта, частотные и амплитудные искажения, помехи радиосвязи и др.), которые помогут в борьбе с различными видами известных шумов и помех. При этом каждая схема поддается корректировке, а более опытные пользователи могут разработать собственные схемы, которые потом можно сохранить в качестве типовых для повторного применения.

В комплект поставки включаются звуковые файлы примеров зашумленных речевых сигналов и оптимизированных для их обработки конфигураций и схем фильтрации, так что освоение и работа с программой будут происходить просто и довольно эффективно.

Начиная с версии 5.10 SoundCleaner может работать в качестве DirectX plug-in, сохраняя при этом все возможности для автономной работы. В этом режиме программа может работать в составе таких известных звуковых редакторов, как Adobe Audition (1.0 и выше), Sound Forge (6.0 и выше) или Wave Lab 4.0. В принципе, для работы в автономном режиме в SoundCleaner есть свой звуковой редактор Wave Assistant editor, который включает набор стандартных средств для редактирования сигнала и проведения его подробного электроакустического и спектрального анализа с целью выбора оптимального режима обработки.

Структурно программа представляет собой набор автономных модулей работы со звуком (всего имеется 19 таких модулей), объединенных в основной оболочке. Каждый модуль имеет свою панель управления и обрабатывает звук по собственному алгоритму, после чего передает его на следующий модуль. Общее количество одновременно используемых модулей ограничено только вычислительными возможностями компьютера.

Архитектура программного комплекса позволяет легко наращивать количество используемых типов модулей, обеспечивая тем самым длительный жизненный цикл программы (ибо компания создает все новые и новые модули). В программе предусмотрена возможность создания из таких модулей и использования схем обработки трех различных типов: одноканальной для сигнала моно или двухканальной с независимой обработкой в левом и правом каналах (в ряде случаев чрезвычайно эффективным оказывается использование для выделения полезного сигнала двух разных каналов).

Сигнал (до и после обработки) непрерывно отображается в виде осциллограммы и мгновенного спектра. Управление шумоочисткой осуществляется в масштабе реального времени: изменять настройки каждого модуля можно в любой момент, не прерывая воспроизведения, причем без потери сигнала, что очень важно для оперативного выбора параметров буквально на слух.

Ввод и обработка звукового сигнала могут производиться как от внешнего источника (линейного выхода аудиоаппаратуры, микрофона), так и из звукового wav-файла. Программа может работать с моно- или стереосигналами форматов ИКМ 8 и 16 бит, mu(a)-Law или 24 бит float с частотой дискретизации от 8 до 48 кГц и сохранять их после обработки с исходной частотой дискретизации в формате ИКМ 16 бит.

ClearVoice Denoiser — демонстрационная программа автоматического подавления шумов

SoundCleaner работает под управлением ОС Windows 9х/Ме/NT/2000/XP на стандартном PC (начиная с Pentium II или Celeron с 64 Мбайт оперативной памяти) со стандартной Windows-совместимой полнодуплексной звуковой картой. Для получения гарантированно высокого качества входного и выходного сигналов для старших версий продукта предусмотрена поставка профессиональных устройств ввода/вывода сигнала: 16-разрядного STC-H216 или 24-разрядного STC-H246 «Камертон». У программы есть русскоязычный пользовательский интерфейс. С сайта компании можно скачать ClearVoice Denoiser - демонстрационную программу автоматического подавления шумов. Основные алгоритмы шумоочистки из программы SoundCleaner реализованы также в виде набора встраиваемых программных модулей (SDK), которые могут использоваться другими разработчиками программного обеспечения. Демо-версии SDK доступны на сайте производителя.

Компьютерный транскрайбер, к сожалению, пока еще не является программой автоматического распознавания речи и преобразования ее в текст. В настоящее время таких программ для реальной работы на русском языке не существует, и появятся они, скорее всего, не скоро. Транскрайбер - это, скорее, компьютерный цифровой магнитофон, управляемый из специализированного текстового редактора.

Данные устройства предназначены для повышения скорости и комфортности документирования звукозаписей устной речи при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, при безбумажном делопроизводстве и во многих других случаях. Их отличает простота, удобство использования и доступность для непрофессиональных операторов: скорость работы по набору текста возрастает для профессиональных операторов, печатающих вслепую, в 2-3 раза, а для непрофессионалов - в 5-10 раз! Кроме того, значительно уменьшается механический износ магнитофона и ленты, если речь идет об аналоговом источнике. При этом у компьютерных транскрайберов существует интерактивная возможность сверки набранного текста и соответствующего звукового трека. Связь текста и речи устанавливается автоматически и позволяет в набранном тексте при подведении курсора к исследуемому фрагменту текста мгновенно автоматически находить и прослушивать соответствующие звуковые фрагменты речевого сигнала.

Повышения разборчивости речи можно добиться здесь как путем замедления скорости воспроизведения без искажения тембра голоса, так и путем многократного повторения неразборчивых фрагментов в режиме кольца.

По желанию заказчика компания может продать транскрайбер с ножной педалью, посредством которой осуществляется управление функциями цифрового магнитофона, что тоже повышает производительность и комфортность работы. Возможен и вариант программы под стандартную звуковую карту типа Sound Blaster.

Заключение

Настоящее время созданием международных рекомендаций по оценке разборчивости речи занимается специальная группа Комитета стандартов AES (председатель П.Мапп). Однако специалисты этой группы занимаются преимущественно сравнительным анализом различных методов оценки этой разборчивости.

Но если так сложна проблема оценки разборчивости речи, что уже тогда говорить о методах, автоматически повышающих эту разборчивость! Ведь разборчивость речи зависит не только от факторов, которые поддаются объективным измерениям (уровень шумов и др.), но и от таких субъективных факторов, как уровень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состояние его слуха и др. Как видите, создание любой автоматизированной компьютерной системы, работающей с речью, - задача чрезвычайно сложная, но поскольку она важна для многих областей, особенно для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, то можно надеяться, что когда-нибудь надежные системы будут созданы и для точного распознавания речи.

На нашем CD-ROM вы найдете демонстрационные версии программ SoundCleaner и ClearVoice Denoiser.

По полученным Гессом (Hess) данным, при речевой аудиометрии у части тугоухих дискриминация, или разборчивость речи, значительно более нарушена, чем тональный слух. Это нарушение фонематического слуха названо им «фонемической регрессией». Она чаще встречается в пожилом возрасте, при неврите или старческой тугоухости. Тональная аудиограмма показывает незначительное понижение слуха, плавно возрастающее на высоких частотах, фонематический же слух несоответственно резко понижен.

Часто при этом у больных имеются симптомы сосудистых нарушений. По мнению автора, фонемическая регрессия предшествует более серьезным нарушениям умственной деятельности и обусловливается частичным нарушением кровообращения мозга. По Кархарту, фонемическая регрессия является признаком центральной глухоты.

Ранним признаком коркового поражения слуха является нарушение разборчивого восприятия речи в условиях нагрузки на психику, напряжения , а также при наличии шумовых помех или при небольших дефектах дикции говорящего. Нами установлено, что по времени появления он часто предшествует заметному понижению восприятия чистых тонов. У многих таких больных имелось понижение лишь на С4096 в пределах 10-15 дб.

В дальнейшем нарушение отмечается и в обычной обстановке . При исследовании слуха обнаруживается диссоциация между речевым и тональным слухом и gовышенная утомляемость органа слуха. Наконец, в поздней стадии вследствие распространения торможения по системе звукового анализатора на подкорковые узлы наступает ухудшение и тонального слуха.

Членораздельное, четкое слышание, восприятие и понимание речи представляют собой высшую функцию коркового конца слухового анализатора. Она осуществляется на основе выработанных у человека в процессе овладеваyия речью временных связей путем выделения сигнальных признаков речи и торможения других несущественных признаков. Добавочное, хотя бы и небольшое, искажение при передаче звуков речи радиоаппаратурой и телефоном повышает требования к анализу и синтезу, с которыми при расстройстве функциональной деятельности коры мозга трудно справиться. Именно этим объясняется раннее появление затруднений при слушании радио, при разговоре по телефону и т. д.

Ухудшение разборчивости восприятия речи выявляется в первую очередь в отношении односложных слов; при этом может еще сохраниться хорошая разборчивость двусложных слов. Так, если больной разбирает односложные слова на расстоянии не более 1 м, то двусложные примерно такого же звукового состава он слышит на расстоянии 5-6 м. Больные жалуются врачу, что они плохо слышат речь человека и часто переспрашивают, что подтверждается при исследовании разговорной и шепотной речью; между тем тональная аудиограмма может при этом быть совершенно нормальной. Такую столь резкую диссоциацию между тональным и речевым слухом мы наблюдали у нескольких больных при гипертонической болезни.

Следует подчеркнуть, что при гипертонической болезни обычно не бывает глубокого нарушения анализа и синтеза речи, как это отмечено у больных с поражением коры левой височной доли мозга. Если слова произносятся с достаточной громкостью, анализ происходит нормально. По некоторым данным, при гипертонии отмечается гиперакузия - легкая возбудимость органа слуха на высокие звуки.
В частности, это сказывается в том, что на громкие звуки больные реагируют повышением кровяного давления; при помещении больных в тихую звукоизолированную комнату давление падает.

Читайте также: