на первый
заказ
Курсовая работа на тему: Постановка задачи. Описание существующих методов сжатия речи
Купить за 350 руб.Введение
При передаче речи по цифровым каналам связи, будь то сотовая или Интернет-телефония, самый важный вопрос - это сколько информации (число бит в единицу времени) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на него в каком-то смысле определяет все - стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость и масштабируемость сети передачи данных и многое другое.Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.
Очевидно, что, начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов, операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали более чем конкурентны по сравнению с проводной аналоговой, а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может в ближайшие годы снизиться до нескольких центов за минуту.
Сказав про успехи, нельзя не сказать хотя бы пару слов и о недостатках. Качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии оставляет желать лучшего. Некоторые (из тех, кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. - и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества, помимо кодеков речи, способствует заметное запаздывание сигнала и ошибки при сборке пакетов. Впрочем, понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше. Да и пропускная способность компьютерных сетей возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.
Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.
Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.
Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, кое-что появляется: уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с.
Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) - энергию голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ (возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие.
Оглавление
- Введение- Постановка задачи
- Описание существующих методов сжатия речи
- Описание выбранного метода сжатия
- Разработка программы на MATLab
- Тестирование на MATLab
- Системные требования Заключение
- Библиографический список
- Приложение А. Текст программы на MATLab
- Приложение Б. Текст программы на С
Заключение
В данном курсовом проекте с помощью пакета МАТLАВ был разработан ряд функций, осуществляющих сжатие речи по алгоритму векторного квантования, обеспечивающих сжатие речи до уровня 2400 бит/с и ниже. Предусмотрено несколько ступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом и дикторо-независимом.Список литературы
1. Бондарев В.Н. Цифровая обработка сигналов: методы и средства/ В.Н. Бондарев, Г. Трестер, В.Н. Чернега.- Харьков: Изд-во Конус, 2001.-398 с.2. Бондарев В.Н. Искусственный интеллект/ В.Н. Бондарев, Ф.Г. Аде.- Севастополь: Изд-во СевНТУ, 2002.-616 с.
3. Рабинер Л.Р Цифровая обработка речевых сигналов/ Л.Р. Рабинер, Р.В. Шафер.- М.: Радио и Связь. 1981.-495 с.
4. Ратынский М.В. Основы сотовой связи/ М.В. Ратынский; Под ред. Д.Б. Зимина.- М.: Радио и Связь, 1998.- 248 с.
5. Makhoul J. Vector Qvantization // Speech Coding Proceedings оf the IEEE, 1985.- Vol. 73. - N 11.- Р.1551-1588.
или зарегистрироваться
в сервисе
удобным
способом
вы получите ссылку
на скачивание
к нам за прошлый год