Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

В настоящее время кодирование речевого сигнала играет большую роль в системах передачи и обработки информации. Во-первых, алгоритмы кодирования уменьшают поток данных, передаваемых по каналу связи, что позволяет более эффективно использовать ресурс канала. Во-вторых, требуется меньше места для хранения данных на разного рода носителях информации, например, на компакт-дисках, гибких и жестких… Читать ещё >

Содержание

СПИСОК ОСНОВНЫХ ОБОЗНАЧЕНИЙ
1. СОВРЕМЕННОЕ СОСТОЯНИЕ РАЗРАБОТОК В ОБЛАСТИ, КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА
- 1. 1. Основные понятия
- 1. 2. Алгоритмы кодирования формы речевого сигнала
- 1. 3. Алгоритмы кодирования параметров речевого сигнала
- 1. 4. Смешанные алгоритмы кодирования речевого сигнала
- 1. 5. Критерий слухового восприятия
- 1. 6. Алгоритм «анализ через синтез»
- 1. 7. Постановка задач исследований
2. РАЗРАБОТКА ОКНОНЕЗАВИСИМОГО АЛГОРИТМА КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА
- 2. 1. Общее описание алгоритма кодирования
- 2. 2. Расчет коэффициентов линейного предсказания
- 2. 3. Расчет параметров для инициализации адаптивной кодовой книги
- 2. 4. Расчет параметров для адаптивной и дополнительной кодовых книг
Выводы
3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ ВОКОДЕРОВ В СИСТЕМАХ ДЛЯ ГОЛОСОВОЙ СВЯЗИ ЧЕРЕЗ ИНТЕРНЕТ
- 3. 1. Протокол для образования и поддержания звуковой связи
- 3. 2. Экспериментальное
приложение для голосовой связи через IP-сети
Выводы

Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи (реферат, курсовая, диплом, контрольная)

Актуальность темы

Первое достоинство алгоритмов кодирования успешно используется в системах спутниковой и сотовой связи и в Internet. В системах спутниковой и сотовой связи уменьшение потока передаваемых данных позволяет более эффективно использовать соответствующий частотный диапазон. На базе алгоритмов кодирования речи уже создано большое количество приложений, реализующих голосовое общение через Internet в реальном масштабе времени по относительно узкополосному каналу.

Второе достоинство широко применяется в цифровых диктофонах, для временного хранения речи в сжатом виде в голосовых почтовых ящиках и в Internet при передаче голосовых и музыкальных архивов.

Третье достоинство используется при построении специальных систем, обеспечивающих конфиденциальность при передаче голосовой информации.

К настоящему времени разработано значительное количество алгоритмов кодирования речи и выпущено несколько стандартов. Большинство из них имеет существенный недостаток — окнозависимость — невозможность восстановить закодированный речевой сигнал, после потери хотя бы одного окна анализа. Существующие окнонезависимые алгоритмы не обеспечивают сопоставимого с окнозависимыми качества восстановленной речи для аналогичных скоростей передачи. При этом разница в качестве речи между ними тем больше, чем ниже скорость.

Таким образом, дальнейшее совершенствование алгоритмов кодирования речи и создание новых окнонезависимых алгоритмов кодирования с сопоставимым с окнозависимыми качеством речи для аналогичных скоростей передачи является актуальным.

Цель работы: разработка окнонезависимых алгоритмов кодирования речевого сигнала сопоставимых по качеству восстановленной речи с окнозависимыми алгоритмами для аналогичных скоростей передачи.

Основные задачи исследований:

1. Выявить недостатки существующих алгоритмов кодирования речи и предложить возможные способы их устранения.

2. Разработать алгоритмы кодирования речи на основе предложенных способов.

3. Разработать экспериментальное сетевое приложение голосовой связи для проверки работоспособности предложенных алгоритмов кодирования речи в реальных условиях.

Методы исследований: для решения поставленных задач использовались методы цифровой обработки сигналов и математической статистики. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.

Новые научные результаты:

1. Предложен способ построения окнонезависимых алгоритмов кодирования речевых сигналов, на основе комбинации CELP и MPZP-алгоритмов.

2. На основе предложенного способа реализованы три алгоритма кодирования речевых сигналов в виде ^4СМ-кодека? обеспечивающие сопоставимое с окнозависимыми вокодерами качество восстановленной речи для аналогичных скоростей передачи.

3. На базе полученных алгоритмов разработано экспериментальное приложение для организации голосовой связи через Internet или локальную сеть.

Практическая ценность заключается в разработке:

1. Трех алгоритмов кодирования речевых сигналов, рассчитанных на скорости 4800, 9600 и 19 200 бит/с.

2. Протокола для образования и поддержания виртуального звукового канала связи через Internet или локальную сеть.

3. Оригинального программного продукта, реализующего голосовую связь через Internet или локальную сеть на основе предложенных алгоритмов кодирования речи и протокола.

Научные положения, выносимые на защиту:

1. Предварительный расчет параметров адаптивной кодовой книги для каждого кодируемого окна речевого сигнала позволяет реализовать окнонезависимые алгоритмы кодирования речи.

2. Настройка параметров адаптивной кодовой книги может быть выполнена с помощью MPLP-алгоритма.

3. Использование импульсного сигнала возбуждения, оптимального с точки зрения критерия слухового восприятия, вместо стохастической кодовой книги позволяет уменьшить требуемую память и снизить вычислительные затраты.

Результаты внедрения. Созданные алгоритмы и программы явились основой для разработки приложений, реализующих голосовую связь в масштабе реального времени через Internet или локальную сеть и были использованы в проекте «etalkRadio», что подтверждается актом внедрения.

Апробация работы. Основные результаты работы докладывались на 10 НТК «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ им. А. С. Попова Петродворец, 1999; на Московской конференции по автоматическому распознаванию слуховых образов «АРСО.

99″, Москва, 1999; на IV Санкт-Петербургской Ассамблее молодых ученых и специалистов, Санкт-Петербург, 1999; на Московском международном семинаре Диалог'2001 по компьютерной лингвистике и ее приложениям, Москва, 2001.

Выводы.

1. Предложен протокол для организации звуковой связи через Internet или локальную сеть.

2. Протокол позволяет поддерживать постоянную задержку и информировать пользователя о качестве канала связи.

3. При большой начальной задержке протокол переходит в режим работы с этой задержкой, но если качество канала связи улучшается, то автоматически происходит переключение на режим работы с малой задержкой.

4. Разработано экспериментальное приложение для организации звуковой связи «точка-точка» через Internet и локальную сеть.

ЗАКЛЮЧЕНИЕ

1. Предложен метод для реализации окнонезависимых алгоритмов кодирования речи.

2. Разработаны три окнонезависимых алгоритма кодирования речевых сигналов на скорости 4800, 9600 и 19 200 бит/с, обеспечивающие сопоставимое с окнозависимыми алгоритмами качество восстановленной речи для аналогичных скоростей передачи.

3. Разработан протокол для организации виртуального канала звуковой связи через сеть, обеспечивающий близкое к реальному время доставки пакетов с возможностью оценки качества канала связи.

4. На основе предложенных алгоритмов кодирования речи и протокола разработано экспериментальное приложение, реализующее звуковую связь «точка-точка» через Internet и локальную сеть.

5. Все три разработанных алгоритма кодирования речи на скорости 4800, 9600, 19 200 бит/с и протокол для организации виртуального звукового канала связи были внедрены в проект «etalkRadioпредназначенный для проведения пресс-конференций и дистанционного обучения в локальных сетях и в Internet.

6. Хотя предложенные алгоритмы кодирования были разработаны специально для передачи речи в сжатом виде в IP-сетях, они также могут быть с успехом использованы для архивации больших объемов речевых данных.

Показать весь текст

Список литературы

Dudley Н. Remaking Speech. J. Acoust. Soc. Am. 11, pp. 169−177, 1939
Фант Г. Акустическая теория речеобразования. М.: Наука, 1964
Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968
A. Spanias, «Speech Coding: A Tutorial Review,» http://www.eas.asu.edu/~spanias/index.html, 100 p., 1994
G. Fairbanks, «Test of Phonemic Differentiation: The Rhyme Test,» J. Acoust. Soc. Am., Vol. 30, p.596−600, 1958
W.D. Voiers, «Diagnostic Acceptability Measure for Speech Communications Systems,» Proc. ICASSP-77, p.204, May 1977
R. Kubichek, «Standards and Technology Issues in Objective Voice Quality Assessment,» Digital Signal Processing: A Review Journal, pp.38−44, April 1991
Джанколи Д. Физика в 2-х томах Том 1. М.: Мир, 1989
К. S. Shanmugam, Digital and analog communications, John Wiley, New York, 1979
N. S. Jayant, P. Noll, Digital Coding of Waveforms, Prentice-Hall, INC. Englewood Cliffs. NJ 1984
CCITT Recommendation G.721, «32 kb/s Adaptive Differential Pulse Code Modulation (ADPCM),» Blue Book, Vol. Ill, Fascicle III.3, Oct. 1988
R. W. Schafer, L. R. Rabiner «Цифровое представление речевых сигналов,» ТИИЭРт.4, с. 141−159, 1974
В. Atal, «Predicitve coding of speech at low bit rates,» IEEE Trans. COM-30, No. 4, p. 600, April 1982
R. E. Crochiere, S. A. Webber, J. L. Flanagan, «Digital coding of speech in subbands,» Bell Syst. Tech. J., vol. 55, pp. 1069−1085, Oct. 1976
R. E. Crochiere, «On the design of subband coders for low bitrate speech communications,» Bell Syst. Tech. J., vol. 56, pp. 747−770, May-June 1977
D. Malah, R. E. Crochiere, R. V. Cox, «Performance of transform and subband coding systems combined with harmonic scaling of speech,» IEEE Trans, on ASSP, vol. 29, No. 2, April 1981
R. Zelinski, P. Noll, «Adaptive transform coding of speech signals,» IEEE Trans, on ASSP, vol. 25, pp.299−309, Aug. 1977
J. M. Tribolet and R. E. Crochiere, «Frequency domain coding of speech,» IEEE Trans, on ASSP, vol. 27, pp. 512−530, Oct. 1979
R. J. McAulay and T. F. Quatieri, «Speech analysis/synthesis based on a sinusoidal representation,» IEEE Trans, on ASSP, vol. 34, pp. 744−754, No. 4, August 1986
M. Kohata, «1.2 kbit/s harmonic coder using auditory filters», ICASPP'99 (IC991356.pdf)
S. Yeldener, «A 4 kb/s toll quality harmonic excitation linear predictive speech coder», ICASSP'99 (IC991731.pdf)
B. Gold et. Al. «New applications of channel vocoders,» IEEE Trans, on ASSP, vol. 29, No. 1, p. 13, February 1981
M. Noll, «Cepstrum pitch determination,» J. Acoust. Soc. Am., 41, pp. 293−309, February 1967
L. R. Rabiner et al, «A comparative performance study of several pitch detection algorithms,» IEEE Trans, on ASSP, vol. 24, pp. 399−417, October 1976
Y. Medan, E. Yair, D. Chazan, «Super Resolution Pitch Determination of Speech Signals», IEEE Trans, on ASSP, Vol. 39, No. 1, January 1991, pp. 40−48
J. Cai, Z. Liu, «Robust pitch detection of speech signals using steerable filters», ICASSP'97, Vol. 2, pp. 1427−1430
Li, V. Cuperman, A. Gersho, «Robust closed-loop pitch estimation for harmonic coders by time scale modification», ICASSP'99 (IC991855.pdf)
Маховиков А.Б., Столяров K.B., «Просодический анализ речевого сигнала,» АРСО-99 Материалы конференции Теория и практика речевых исследований, Москва, с. 35, 1999
Tremain Т.Е. «The Goverment Standard Linear Predictive Coding Algorithm: LPC-10,» Speech Technology, April, 1982, pp. 40−49
L. M. Supplee, R. P. Cohn, J. S. Collura, A. V. McCree, «MELP: The new Federal Standard at 2400 bps», ICASSP'97, Vol. 2, pp. 1591−1594
T. Unno, T. Barnwell, K. Truong, «An improved mixed excitation linear prediction (MELP) coder», ICASSP'99 (IC991764.pdf)
D.Griffin and J. Lim, «Multiband excitation vocoder,» IEEE Trans, on ASSP, vol. 36, No. 8, p. 1223, August 1988
K. Un and D. T. Magill, «The residual-excited linear prediction vocoder with transmission rate below 9.6 kbit/s,» IEEE Trans, on COM, vol. 23, No 12, p. 1466, December 1975
B.S. Atal and J.R.Remde, «A new model of LPC excitation for producing natural sounding speech at low bit rates,» in Proc. Int. Conf. Acoust., Speech, Signal Processing (Paris, France), 1982, pp.614−617
P. Kroon, E.F. Deprettere, and R.J. Sluyter, «Regular-pulse excitation A novel approach to effective and efficient multipulse coding of speech, «IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34, no. 5, pp. 1054−1063, 1986
J.P. Campbell, T.E.Tremain and V.C. Welch, «The proposed Federal Standard 1016 4800 bps voice coder: CELP», Speech Technology, pp. 58−64, Apr ./May 1990
W.B. Kleijn, D.J. Krasinski, R.H. Ketchum, «Fast Methods for the CELP Speech Coding Algorithm,» IEEE Trans, on ASSP, vol. 38, no. 8, August 1990, pp. 1330−1341
A.Langi, W. Grieder, W. Kinsner, «Fast CELP Algorithm and Implementation for Speech Compression,» Proc. Digital Communications Conference, 1994
R.C. Rose, T.P. Barnwell, «Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders», IEEE Trans, on ASSP, vol. 38, no. 9, September 1990, pp. 1489−1503
L. Zhang, T. Wang, V. Cuperman, «A CELP variable rate speech codec with low average rate», ICASSP'97, Vol. 2, pp. 735−738
H. K. Kim, Y. D. Cho, M. Y. Kim, S. R. Kim, «A 4 kbit/s renewal code excited linear prediction speech coder», ICASSP'97, Vol. 2, pp. 767−770
Bernard, A. Alwan, «Perceptually based and embedded wideband CELP coding of speech», Eurospeech'97, Vol. 4, pp. 1543−1546
Gerson and M. Jasiuk, «Vector Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s,» Proc. ICASSP-90, pp. 461−464, New Mexico, Apr. 1990
Gerson, «Vector Sum Excited Linear Prediction (VSELP) Speech Coding for Japan Digital Celluar,» Meeting of IEICE, RCS90−26, Nov. 1990
B.S.Atal, M.R.Schroeder, «Predictive coding of speech signals and subjective error criteria,» IEEE Trans, on ASSP, vol. 27, NO 3, June 1979, pp. 247−254
S. Singhal, В. Atal, «Improving the performance of multi-pulse coders at low bit rates,» Proc. ICASSP-84, p. 1.3.1, 1984
Маховиков А.Б., Столяров K.B., «Система речевой связи через Интернет,» Dialogue'2001 Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям (в двух томах) Москва, 2001.-Том 2.-С. 56−62
F.K. Soong and B.W. Juang, «Line spectrum pair (LSP) and speech data compression,» in Proc. Int. Conf. Acoust., Speech, Signal Processing, San Diego, CA, Mar. 1984, pp. 1.10.1−1.10.4
Y.-H Kao, «Low complexity CELP speech coding at 4.8 kbps», Master of Science, The University of Maryland, 1990
Гольдштейн B.C., Пинчук A.B., Суховицкий A.JI. IP-Телефония. M.: Радио и связь, 2001 336 с.
И. Шелухин, Н. Ф. Лукьянцев, «Цифровая обработка и передача речи», М., «Радио и связь», 2000, 454 с.
A. Machovikov and К. Stolyarov, «System for Speech Communication through Internet,» In Proceedings of TSD'2001, Zelezna Ruda, Czech Republic, pp. 229−236, 20 011. Teluminc.
Корпорация «Телум Инк.», Барбадос (Представительство в Санкт-Петербурге) ИНН F7833017178 КПП 783 451 001 199 026, Санкт-Петербург, 20-я линия, д.5−7, к.166 Телефон: (812) 320−5725 e-mail: [email protected]
Т/СЧ № 40 814 810 211 000 000 512 В/СЧ № 40 807 840 011 005 001 728 в Василеостровском ф-ле ОАО «ПСБ» г. СПб БИК 44 030 791 К/СЧ № 301 018 101 999 999 975 424. Исх. № На №от"/1 от"л 200 / г. 200 г.
Дальнейшие исследования планируется проводить с целью разработки окнонезависимых вокодеров для более низких скоростей передачи.1. Ромашев Н.А.

Заполнить форму текущей работой