Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи
В настоящее время кодирование речевого сигнала играет большую роль в системах передачи и обработки информации. Во-первых, алгоритмы кодирования уменьшают поток данных, передаваемых по каналу связи, что позволяет более эффективно использовать ресурс канала. Во-вторых, требуется меньше места для хранения данных на разного рода носителях информации, например, на компакт-дисках, гибких и жестких… Читать ещё >
Содержание
- СПИСОК ОСНОВНЫХ ОБОЗНАЧЕНИЙ
- 1. СОВРЕМЕННОЕ СОСТОЯНИЕ РАЗРАБОТОК В ОБЛАСТИ, КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА
- 1. 1. Основные понятия
- 1. 2. Алгоритмы кодирования формы речевого сигнала
- 1. 3. Алгоритмы кодирования параметров речевого сигнала
- 1. 4. Смешанные алгоритмы кодирования речевого сигнала
- 1. 5. Критерий слухового восприятия
- 1. 6. Алгоритм «анализ через синтез»
- 1. 7. Постановка задач исследований
- 2. РАЗРАБОТКА ОКНОНЕЗАВИСИМОГО АЛГОРИТМА КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА
- 2. 1. Общее описание алгоритма кодирования
- 2. 2. Расчет коэффициентов линейного предсказания
- 2. 3. Расчет параметров для инициализации адаптивной кодовой книги
- 2. 4. Расчет параметров для адаптивной и дополнительной кодовых книг
- Выводы
- 3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ ВОКОДЕРОВ В СИСТЕМАХ ДЛЯ ГОЛОСОВОЙ СВЯЗИ ЧЕРЕЗ ИНТЕРНЕТ
- 3. 1. Протокол для образования и поддержания звуковой связи
- 3. 2. Экспериментальное
- приложение для голосовой связи через IP-сети
- Выводы
Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи (реферат, курсовая, диплом, контрольная)
Актуальность темы
В настоящее время кодирование речевого сигнала играет большую роль в системах передачи и обработки информации. Во-первых, алгоритмы кодирования уменьшают поток данных, передаваемых по каналу связи, что позволяет более эффективно использовать ресурс канала. Во-вторых, требуется меньше места для хранения данных на разного рода носителях информации, например, на компакт-дисках, гибких и жестких дисках. В-третьих, появляется возможность защиты информации от несанкционированного доступа.
Первое достоинство алгоритмов кодирования успешно используется в системах спутниковой и сотовой связи и в Internet. В системах спутниковой и сотовой связи уменьшение потока передаваемых данных позволяет более эффективно использовать соответствующий частотный диапазон. На базе алгоритмов кодирования речи уже создано большое количество приложений, реализующих голосовое общение через Internet в реальном масштабе времени по относительно узкополосному каналу.
Второе достоинство широко применяется в цифровых диктофонах, для временного хранения речи в сжатом виде в голосовых почтовых ящиках и в Internet при передаче голосовых и музыкальных архивов.
Третье достоинство используется при построении специальных систем, обеспечивающих конфиденциальность при передаче голосовой информации.
К настоящему времени разработано значительное количество алгоритмов кодирования речи и выпущено несколько стандартов. Большинство из них имеет существенный недостаток — окнозависимость — невозможность восстановить закодированный речевой сигнал, после потери хотя бы одного окна анализа. Существующие окнонезависимые алгоритмы не обеспечивают сопоставимого с окнозависимыми качества восстановленной речи для аналогичных скоростей передачи. При этом разница в качестве речи между ними тем больше, чем ниже скорость.
Таким образом, дальнейшее совершенствование алгоритмов кодирования речи и создание новых окнонезависимых алгоритмов кодирования с сопоставимым с окнозависимыми качеством речи для аналогичных скоростей передачи является актуальным.
Цель работы: разработка окнонезависимых алгоритмов кодирования речевого сигнала сопоставимых по качеству восстановленной речи с окнозависимыми алгоритмами для аналогичных скоростей передачи.
Основные задачи исследований:
1. Выявить недостатки существующих алгоритмов кодирования речи и предложить возможные способы их устранения.
2. Разработать алгоритмы кодирования речи на основе предложенных способов.
3. Разработать экспериментальное сетевое приложение голосовой связи для проверки работоспособности предложенных алгоритмов кодирования речи в реальных условиях.
Методы исследований: для решения поставленных задач использовались методы цифровой обработки сигналов и математической статистики. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.
Новые научные результаты:
1. Предложен способ построения окнонезависимых алгоритмов кодирования речевых сигналов, на основе комбинации CELP и MPZP-алгоритмов.
2. На основе предложенного способа реализованы три алгоритма кодирования речевых сигналов в виде ^4СМ-кодека? обеспечивающие сопоставимое с окнозависимыми вокодерами качество восстановленной речи для аналогичных скоростей передачи.
3. На базе полученных алгоритмов разработано экспериментальное приложение для организации голосовой связи через Internet или локальную сеть.
Практическая ценность заключается в разработке:
1. Трех алгоритмов кодирования речевых сигналов, рассчитанных на скорости 4800, 9600 и 19 200 бит/с.
2. Протокола для образования и поддержания виртуального звукового канала связи через Internet или локальную сеть.
3. Оригинального программного продукта, реализующего голосовую связь через Internet или локальную сеть на основе предложенных алгоритмов кодирования речи и протокола.
Научные положения, выносимые на защиту:
1. Предварительный расчет параметров адаптивной кодовой книги для каждого кодируемого окна речевого сигнала позволяет реализовать окнонезависимые алгоритмы кодирования речи.
2. Настройка параметров адаптивной кодовой книги может быть выполнена с помощью MPLP-алгоритма.
3. Использование импульсного сигнала возбуждения, оптимального с точки зрения критерия слухового восприятия, вместо стохастической кодовой книги позволяет уменьшить требуемую память и снизить вычислительные затраты.
Результаты внедрения. Созданные алгоритмы и программы явились основой для разработки приложений, реализующих голосовую связь в масштабе реального времени через Internet или локальную сеть и были использованы в проекте «etalkRadio», что подтверждается актом внедрения.
Апробация работы. Основные результаты работы докладывались на 10 НТК «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ им. А. С. Попова Петродворец, 1999; на Московской конференции по автоматическому распознаванию слуховых образов «АРСО.
99″, Москва, 1999; на IV Санкт-Петербургской Ассамблее молодых ученых и специалистов, Санкт-Петербург, 1999; на Московском международном семинаре Диалог'2001 по компьютерной лингвистике и ее приложениям, Москва, 2001.
Выводы.
1. Предложен протокол для организации звуковой связи через Internet или локальную сеть.
2. Протокол позволяет поддерживать постоянную задержку и информировать пользователя о качестве канала связи.
3. При большой начальной задержке протокол переходит в режим работы с этой задержкой, но если качество канала связи улучшается, то автоматически происходит переключение на режим работы с малой задержкой.
4. Разработано экспериментальное приложение для организации звуковой связи «точка-точка» через Internet и локальную сеть.
ЗАКЛЮЧЕНИЕ
.
1. Предложен метод для реализации окнонезависимых алгоритмов кодирования речи.
2. Разработаны три окнонезависимых алгоритма кодирования речевых сигналов на скорости 4800, 9600 и 19 200 бит/с, обеспечивающие сопоставимое с окнозависимыми алгоритмами качество восстановленной речи для аналогичных скоростей передачи.
3. Разработан протокол для организации виртуального канала звуковой связи через сеть, обеспечивающий близкое к реальному время доставки пакетов с возможностью оценки качества канала связи.
4. На основе предложенных алгоритмов кодирования речи и протокола разработано экспериментальное приложение, реализующее звуковую связь «точка-точка» через Internet и локальную сеть.
5. Все три разработанных алгоритма кодирования речи на скорости 4800, 9600, 19 200 бит/с и протокол для организации виртуального звукового канала связи были внедрены в проект «etalkRadioпредназначенный для проведения пресс-конференций и дистанционного обучения в локальных сетях и в Internet.
6. Хотя предложенные алгоритмы кодирования были разработаны специально для передачи речи в сжатом виде в IP-сетях, они также могут быть с успехом использованы для архивации больших объемов речевых данных.
Список литературы
- Dudley Н. Remaking Speech. J. Acoust. Soc. Am. 11, pp. 169−177, 1939
- Фант Г. Акустическая теория речеобразования. М.: Наука, 1964
- Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968
- A. Spanias, «Speech Coding: A Tutorial Review,» http://www.eas.asu.edu/~spanias/index.html, 100 p., 1994
- G. Fairbanks, «Test of Phonemic Differentiation: The Rhyme Test,» J. Acoust. Soc. Am., Vol. 30, p.596−600, 1958
- W.D. Voiers, «Diagnostic Acceptability Measure for Speech Communications Systems,» Proc. ICASSP-77, p.204, May 1977
- R. Kubichek, «Standards and Technology Issues in Objective Voice Quality Assessment,» Digital Signal Processing: A Review Journal, pp.38−44, April 1991
- Джанколи Д. Физика в 2-х томах Том 1. М.: Мир, 1989
- К. S. Shanmugam, Digital and analog communications, John Wiley, New York, 1979
- N. S. Jayant, P. Noll, Digital Coding of Waveforms, Prentice-Hall, INC. Englewood Cliffs. NJ 1984
- CCITT Recommendation G.721, «32 kb/s Adaptive Differential Pulse Code Modulation (ADPCM),» Blue Book, Vol. Ill, Fascicle III.3, Oct. 1988
- R. W. Schafer, L. R. Rabiner «Цифровое представление речевых сигналов,» ТИИЭРт.4, с. 141−159, 1974
- В. Atal, «Predicitve coding of speech at low bit rates,» IEEE Trans. COM-30, No. 4, p. 600, April 1982
- R. E. Crochiere, S. A. Webber, J. L. Flanagan, «Digital coding of speech in subbands,» Bell Syst. Tech. J., vol. 55, pp. 1069−1085, Oct. 1976
- R. E. Crochiere, «On the design of subband coders for low bitrate speech communications,» Bell Syst. Tech. J., vol. 56, pp. 747−770, May-June 1977
- D. Malah, R. E. Crochiere, R. V. Cox, «Performance of transform and subband coding systems combined with harmonic scaling of speech,» IEEE Trans, on ASSP, vol. 29, No. 2, April 1981
- R. Zelinski, P. Noll, «Adaptive transform coding of speech signals,» IEEE Trans, on ASSP, vol. 25, pp.299−309, Aug. 1977
- J. M. Tribolet and R. E. Crochiere, «Frequency domain coding of speech,» IEEE Trans, on ASSP, vol. 27, pp. 512−530, Oct. 1979
- R. J. McAulay and T. F. Quatieri, «Speech analysis/synthesis based on a sinusoidal representation,» IEEE Trans, on ASSP, vol. 34, pp. 744−754, No. 4, August 1986
- M. Kohata, «1.2 kbit/s harmonic coder using auditory filters», ICASPP'99 (IC991356.pdf)
- S. Yeldener, «A 4 kb/s toll quality harmonic excitation linear predictive speech coder», ICASSP'99 (IC991731.pdf)
- B. Gold et. Al. «New applications of channel vocoders,» IEEE Trans, on ASSP, vol. 29, No. 1, p. 13, February 1981
- M. Noll, «Cepstrum pitch determination,» J. Acoust. Soc. Am., 41, pp. 293−309, February 1967
- L. R. Rabiner et al, «A comparative performance study of several pitch detection algorithms,» IEEE Trans, on ASSP, vol. 24, pp. 399−417, October 1976
- Y. Medan, E. Yair, D. Chazan, «Super Resolution Pitch Determination of Speech Signals», IEEE Trans, on ASSP, Vol. 39, No. 1, January 1991, pp. 40−48
- J. Cai, Z. Liu, «Robust pitch detection of speech signals using steerable filters», ICASSP'97, Vol. 2, pp. 1427−1430
- Li, V. Cuperman, A. Gersho, «Robust closed-loop pitch estimation for harmonic coders by time scale modification», ICASSP'99 (IC991855.pdf)
- Маховиков А.Б., Столяров K.B., «Просодический анализ речевого сигнала,» АРСО-99 Материалы конференции Теория и практика речевых исследований, Москва, с. 35, 1999
- Tremain Т.Е. «The Goverment Standard Linear Predictive Coding Algorithm: LPC-10,» Speech Technology, April, 1982, pp. 40−49
- L. M. Supplee, R. P. Cohn, J. S. Collura, A. V. McCree, «MELP: The new Federal Standard at 2400 bps», ICASSP'97, Vol. 2, pp. 1591−1594
- T. Unno, T. Barnwell, K. Truong, «An improved mixed excitation linear prediction (MELP) coder», ICASSP'99 (IC991764.pdf)
- D.Griffin and J. Lim, «Multiband excitation vocoder,» IEEE Trans, on ASSP, vol. 36, No. 8, p. 1223, August 1988
- K. Un and D. T. Magill, «The residual-excited linear prediction vocoder with transmission rate below 9.6 kbit/s,» IEEE Trans, on COM, vol. 23, No 12, p. 1466, December 1975
- B.S. Atal and J.R.Remde, «A new model of LPC excitation for producing natural sounding speech at low bit rates,» in Proc. Int. Conf. Acoust., Speech, Signal Processing (Paris, France), 1982, pp.614−617
- P. Kroon, E.F. Deprettere, and R.J. Sluyter, «Regular-pulse excitation A novel approach to effective and efficient multipulse coding of speech, «IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34, no. 5, pp. 1054−1063, 1986
- J.P. Campbell, T.E.Tremain and V.C. Welch, «The proposed Federal Standard 1016 4800 bps voice coder: CELP», Speech Technology, pp. 58−64, Apr ./May 1990
- W.B. Kleijn, D.J. Krasinski, R.H. Ketchum, «Fast Methods for the CELP Speech Coding Algorithm,» IEEE Trans, on ASSP, vol. 38, no. 8, August 1990, pp. 1330−1341
- A.Langi, W. Grieder, W. Kinsner, «Fast CELP Algorithm and Implementation for Speech Compression,» Proc. Digital Communications Conference, 1994
- R.C. Rose, T.P. Barnwell, «Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders», IEEE Trans, on ASSP, vol. 38, no. 9, September 1990, pp. 1489−1503
- L. Zhang, T. Wang, V. Cuperman, «A CELP variable rate speech codec with low average rate», ICASSP'97, Vol. 2, pp. 735−738
- H. K. Kim, Y. D. Cho, M. Y. Kim, S. R. Kim, «A 4 kbit/s renewal code excited linear prediction speech coder», ICASSP'97, Vol. 2, pp. 767−770
- Bernard, A. Alwan, «Perceptually based and embedded wideband CELP coding of speech», Eurospeech'97, Vol. 4, pp. 1543−1546
- Gerson and M. Jasiuk, «Vector Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s,» Proc. ICASSP-90, pp. 461−464, New Mexico, Apr. 1990
- Gerson, «Vector Sum Excited Linear Prediction (VSELP) Speech Coding for Japan Digital Celluar,» Meeting of IEICE, RCS90−26, Nov. 1990
- B.S.Atal, M.R.Schroeder, «Predictive coding of speech signals and subjective error criteria,» IEEE Trans, on ASSP, vol. 27, NO 3, June 1979, pp. 247−254
- S. Singhal, В. Atal, «Improving the performance of multi-pulse coders at low bit rates,» Proc. ICASSP-84, p. 1.3.1, 1984
- Маховиков А.Б., Столяров K.B., «Система речевой связи через Интернет,» Dialogue'2001 Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям (в двух томах) Москва, 2001.-Том 2.-С. 56−62
- F.K. Soong and B.W. Juang, «Line spectrum pair (LSP) and speech data compression,» in Proc. Int. Conf. Acoust., Speech, Signal Processing, San Diego, CA, Mar. 1984, pp. 1.10.1−1.10.4
- Y.-H Kao, «Low complexity CELP speech coding at 4.8 kbps», Master of Science, The University of Maryland, 1990
- Гольдштейн B.C., Пинчук A.B., Суховицкий A.JI. IP-Телефония. M.: Радио и связь, 2001 336 с.
- И. Шелухин, Н. Ф. Лукьянцев, «Цифровая обработка и передача речи», М., «Радио и связь», 2000, 454 с.
- A. Machovikov and К. Stolyarov, «System for Speech Communication through Internet,» In Proceedings of TSD'2001, Zelezna Ruda, Czech Republic, pp. 229−236, 20 011. Teluminc.
- Корпорация «Телум Инк.», Барбадос (Представительство в Санкт-Петербурге) ИНН F7833017178 КПП 783 451 001 199 026, Санкт-Петербург, 20-я линия, д.5−7, к.166 Телефон: (812) 320−5725 e-mail: [email protected]
- Т/СЧ № 40 814 810 211 000 000 512 В/СЧ № 40 807 840 011 005 001 728 в Василеостровском ф-ле ОАО «ПСБ» г. СПб БИК 44 030 791 К/СЧ № 301 018 101 999 999 975 424. Исх. № На №от"/1 от"л 200 / г. 200 г.
- Дальнейшие исследования планируется проводить с целью разработки окнонезависимых вокодеров для более низких скоростей передачи.1. Ромашев Н.А.