什么是语音芯片？语音芯片定义及发展前景

2020-11-26 16:59:57来源：环芯公司

语音芯片直观的从名称上来看,就是与语音有关的芯片,语音就是存储的电子声音,凡是能发出声音的芯片,就是语音芯片,俗称声音芯片,英文准确些来说应该是Voice IC.

在语音芯片的大家庭中,根据声音的类型不同可分为语音IC(Speech IC)和音乐IC(Music IC)两种.这儿应该算是语音芯片专业的区分方法.

日常生活中,语音芯片应用场合和行业不同,又被大家分为玩具芯片(玩具行业使用的,如AC80E5),门铃芯片(AC8DM32),OTP语音芯片(AC8040),儿歌IC(AC8DE12), 童车IC等等.当然这种分类里面她也同时存在着语音IC(Speech ic)和音乐IC(Music IC).

语音芯片有根据IC本身的物理结构的多个通道(同时发出多个通道的声音)可分为多种类型:

一, 单通道的:

1, 单通道的语音IC(Speech IC)(这种语音芯片不支持音乐IC音乐存储方式); 常见的语音IC是单通道的语音芯片,AC8020-OTP20秒和AC83E12动物叫声是最典型的单通道语音芯片了,

2, 单通道的音乐IC(Music IC),同一单位时间内只能发出一种音乐的音乐IC, 电子声音文件是只有一个通道的.Mid后缀文件.

常说的单音片,是一种最基本的音乐IC,由一定时间内音符输出的多少,决定了单音片的效果,有64音符多,128音符等等. 单音片应用场合广,价格极其低廉,最常见的有单音片有生日快乐贺卡单音片.典型的有AC8SE07等

严格的说,单通道的音乐IC和单音片的两者结构是不相同的

二, 2通道:

1, 2通道的语音IC, 2通道和多通道的语音芯片,实际应用中语音播放时一般会按规定固定在某一通道内进行声音的播放(等同于单通道),但是这类产品比单通道的语音IC(Speech ic)成本要高,价格会高些,语音芯片厂家在设计时为了平衡产品价格和应用,一般来说,功能支持和声音效果方面都会做得更完美一些.

这种结构也许是因为产品和方案实际应用领域和价格所决定的, 语音芯片输出一般都是单通道的声音输出,支持立体声的产品很少, 要高端一些的产品就要选MP3主控芯片之类的方案了

2, 2通道的音乐芯片, 通俗叫法是双音片(Music With Dual Tone IC), 故名思义,同一单位时间内二个通道都可以发出音乐的音乐IC. 电子声音源文件一般为.Mid的二通道文件.常见的圣诞系列音乐IC如:AC8DC12.

这里得多补充两句,市面上还有一个叫melody的音乐芯片,她是个什么定义呢?简单的来说,比单音片的效果要好比和弦音乐芯片的效果要差的一种音乐芯片,所以双音片也有被叫成是melody音乐芯片,melody结构应该来说是一种更高级的单音片,或者可以说是二倍效果的单音片.

三, 4通道,8通道或以上:

三通道以上的声音.又称为和弦音乐.常说的4和弦音乐IC就是指4通道的音乐IC...

一般多通道的语音芯片都是同时支持音乐IC(Music IC)和语音IC(Speech IC)功能的.

怎样区分有没集成MCU的语音芯片

先看MCU(Micro Controller Unit)的定义，又称单片微型计算机(Single Chip Microcomputer)，是指随着大规模集成电路的出现及其发展，将计算机的CPU、RAM、ROM、定时数器和多种I/O接口集成在一片芯片上，形成芯片级的计算机。

语音芯片有两种,一种是集成MCU的,如AC4060,AC5080可编程OTP系列,功能比较强大,从物理结构上简单的说,它集成了RAM(随机存储器和定时计数器等)和ROM两种存储器。而另一种是不集成MCU的,它内部只有一个ROM(不具体运算和随机存储计时器等一些功能),如AC9020,AC8040,AC3030系列芯片,但是价格会相当便宜一些.

简单一些的说吧,有RAM的OTP语音芯片是集成MCU的,由于RAM随机存储器的特性,让芯片能完成更多复杂的功能。

根据语音芯片专业的物理特性的定义:

语音芯片是将语音信号通过声音采样转化为数字信号，存储在芯片的ROM中，再通过电路将ROM中的数字信号还原成语音信号的集成电路。

常规语音芯片的语音信号输出方式有两种：脉冲宽度调制(PWM)输出和数模转换输出(DAC)。

脉冲宽度调制(PWM)输出，是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术。其相对于DAC输出，其特点是应用广、成本低。是玩具行业主要的声音输出应用方式。

数模转换输出(DAC)：普通语音芯片是指单独具有放音功能的集成电路，实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。

ADC=Analog Digital Change 模数转换

DAC= Digital Analog Change 数模转换

音质的优劣取决于ADC和DAC位数的多少。有的ADC和DAC均为32bit,接近真人音质。而有的ADC和DAC为16bit，接近CD音质。而一些普通的DAC为8bit，为普通音质。

录音芯片包括ADC和DAC两个过程，都是由芯片本身完成的，包括语音数据的采集、分析、压缩、存储、播放等步骤。

“语音

(a)介绍：

(1)语音信号的量化

采样率(f)、位数(n)、波特率(T)

采样：将语音模拟信号转化成数字信号。

采样率：每秒采样的个数(byte)。

波特率：每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second

采样位数指在二进制条件下的位数。一般在没有特别说明的情况下，声音的采样位数指8位，由00H--FFH，静音定为80H。深圳市环芯半导体有限公司

(2)采样率

耐奎斯特抽样定理：要从抽样信号中无失真地恢复原信号，抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时，信号的频谱有混叠。抽样频率大于2倍频谱最高频率时，信号的频谱无混叠。

嗓音的频带宽度为20～20K HZ左右，普通的声音大概在3KHZ以下。所以，一般CD取的音质为44.1K和16bit，如果碰到某些特别的声音，如乐器，音质也有用48K和24bit的情况，但不是主流。

一般在我们处理针对普通语音IC的时候，采样率最高达到16K就够了、说话声一般取8K(如电话音质)、6K左右。低于6K效果比较差。

在应用单片机的过程中，采样越高，定时器中断速度越快，会影响到其他信号的监控和检测，所以要综合考虑。

(3)语音压缩技术。

由于语音数据量庞大，对语音数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式：

语音分段：将语音中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。

语音采样：一般我们使用的喇叭频响曲线在中频部分，较少用到高频，所以，在喇叭音质可以接受的情况下，适当降低采样频率，达到压缩效果，这种过程是不可逆的，无法恢复原貌，叫有损压缩。

数学压缩：主要是针对采样位数进行压缩，这种方式也是有损压缩。例如，我们经常采用的ADPCM压缩格式，是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3是对数据流进行压缩，涉及到数据预测问题，它的波特率压缩倍率为10倍左右。

通常，以上几种压缩方式都是综合起来使用的。

(4)常用语音格式

PCM格式： Pulse Code Modulation 脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。

WAV格式：Wave Audio Files 是微软公司开发的一种声音文件格式，也叫波形声音文件，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据，这些数据包括采样频率和位数，单声道(mono)还是立体声(stero)等。环芯语音芯片IC

ADPCM格式：是利用对过去的几个抽样值来预测当前输入的样值，并使其具有自适应的预测功能与实际检测值进行比较，随时对测得的差值自动进行量化级差的处理，使之始终保持与信号同步变化。它适用于语音变化率适中的情况，而且声音回放过程简短。它的优点是对于人声的处理比较逼真，一般达到90%以上，已广泛地应用于电话通信领域。

MP3格式： Moving Picture Experts Group Audio Layer III，简称为MP3。它是利用 MPEG Audio Layer 3 的技术，采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的mp3文件，并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率，因此编码的结果是在保证了音质的同时又照顾了文件的大小。

mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。

Linear Scale格式：根据声音的变化率大小，把声音分成若干段，对每段用线性比例进行压缩，但是它的比例是可变的。SUNLINK公司和ALPHA公司的Linear Scale格式为5bit。

Logpcm格式：基本上对整个声音进行线性压缩，将最后若干位去掉。这种压缩方式在硬件上很容易实现，但音质比Linear Scale差一些，特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。

“音乐

(b)：

(1)音乐的通道与音色：

包络(envelope)方波(patch) 通道(channel)

包络：合成音色的一部分，单位时间内音符输出的变化，常见有“ADSR”

方波：合成音色的一部分，单位时间内音符方波电流的变化。(另见三角波等)

通道：在同一时间内，IC输出的最多音符个数，即“单音乐器”的个数。

PCT：模拟音色的一种，通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和，占空间小，但不够真实)

FULL WAVE：通过采集一种乐器声音来模拟各个音符音高。(乐器声真实，但占用空间大，且采集音色音质要求高)