文章目录:
单位 二进制单位(1024间隔) 十进制单位(1000间隔) 二进制 vs 十进制(近似值)
位(bit,b)
位(bit,b)
字节(Byte,B)
字节(Byte, B) 1 B = 8 bit
千字节(Kibibyte,KiB)
千字节(Kilobyte, KB) 1 KiB = 1024 B 1 KB = 1000 B = 10^3 1 KiB ≈ 1.024 KB
兆字节(Mebibyte,MiB)
兆字节(Megabyte, MB) 1 MiB = 1024 KiB = 1024^2 = 1,048,576 B 1 MB = 1000 KB = 10^6 = 1,000,000 B 1 MiB ≈ 1.0486 MB
吉字节(Gibibyte,GiB)
吉字节(Gigabyte, GB) 1 GiB = 1024 MiB = 1024^3 = 1,073,741,824 B 1 GB = 1000 MB = 10^9 = 1,000,000,000 B 1 GiB ≈ 1.0737 GB
太字节(Tebibyte,TiB)
太字节(Terabyte, TB) 1 TiB = 1024 GiB = 1024^4 = 1,099,511,627,776 B 1 TB = 1000 GB = 10^12 = 1,000,000,000,000 B 1 TiB ≈ 1.0995 TB
拍字节(Pebibyte,PiB)
拍字节(Petabyte, PB) 1 PiB = 1024 TiB = 1024^5 = 1,125,899,906,842,624 B 1 PB = 1000 TB = 10^15 = 1,000,000,000,000,000 B 1 PiB ≈ 1.1259 PB
艾字节(Exbibyte,EiB)
艾字节(Exabyte,EB) 1 EiB = 1024 PiB = 1024^6 = 1,152,921,504,606,846,976 B 1 EB = 1000 PB = 10^18 = 1,000,000,000,000,000,000 B 1 EiB ≈ 1.1529 EB
泽字节(Zebibyte,ZiB)
泽字节(Zettabyte,ZB) 1 ZiB = 1024 EiB = 1024^7 = 1,180,591,620,717,411,303,424 B 1 ZB = 1000 EB = 10^21 = 1,000,000,000,000,000,000,000 B 1 ZiB ≈ 1.1806 ZB
一:多媒体计算基础
1.媒体
概念 存储信息的实体、承载信息的载体 多媒体技术所涉及的媒体对象主要是计算机技术的产物,其它领域的单纯事物不属于多媒体范畴,例如电影、电视、⾳响等 多媒体技术的主要处理对象包括⽂字、图形图像、⾳频、视频、动画 分类 感觉媒体:直接作⽤于⼈的感觉器官,使⼈产⽣直接感觉的媒体,包含⽂字、图形图像、语⾳、声⾳、⾳乐等 表⽰媒体:传输感觉媒体的中介媒体,即数据交换的编码,包含ASCII编码、图像编码、⾳视频编码等 存储媒体:存储表⽰媒体的物理介质,⽤于存储信息,包含硬盘、光盘、优盘等 传输媒体:传输表⽰媒体的物理介质,⽤于传输信息,包含双绞线、光纤、⽆线电波等 显⽰媒体:⽤于信息输⼊和信息输出的媒体,⼜称为“表现媒体”,包括键盘、⿏标、显⽰器、打印机等
2.多媒体技术
概念 多媒体技术是计算机技术和社会需求的综合产物,社会需求是促进多媒体技术产⽣和发展的重要因素 多媒体技术是利⽤计算机对⽂字、图形图像、动画、⾳频、视频等多种信息进⾏综合处理、建⽴逻辑关系和⼈机交互作⽤的产物 多媒体技术的核⼼是利⽤计算机技术对多种媒体进⾏处理,并可通过⼈机对话⽅式对处理的过程和⽅式进⾏控制 特征 指信息载体的多样性、交互性和集成性,除此之外,还包括数字化、实时性等 三⼤特性 多样性:多媒体技术所涉及的是多样化的信息,而信息载体也随之多样化 交互性:交互性是指⽤⼾与计算机之间进⾏数据交换、媒体交换和控制权交换的⼀种特性 集成性:集成性是指处理多种信息载体集合的能⼒,即处理设备的集成和多种信息的集成处理
3.多媒体计算机
概念 Multimedia Personal Computer,MPC 多媒体个⼈计算机,即符合MPC标准的、具有多媒体功能的个⼈计算机 组成 硬件 多媒体处理设备 包括显⽰适配器(显卡)、⾳频适配器(声卡),详⻅“3.2 硬件系统” 多媒体存储设备 包括固态硬盘(SSD)、机械硬盘(HD)、U盘、闪存卡等,详⻅“3.2 硬件系统” 多媒体输⼊设备 包括键盘、⿏标、触摸屏、麦克⻛、摄像头、扫描仪、⼿写板、数码相机等 多媒体输出设备 显⽰器、打印机、绘图仪、投影仪 绘图仪:⼯程制图⽤的打印机,可以打印A3、A2、A1等⼤小的⼯程图纸 投影仪:⽤于计算机信息的投影显⽰,有⾼清投影仪、交互式投影仪等 软件 多媒体操作系统 ⽀持多媒体信息的表⽰、存储和处理的操作系统,⼀般都具备图形⽤⼾界⾯(GUI) 多媒体应⽤软件 多媒体编辑软件 ⼜称为多媒体素材制作软件,⽤于加⼯和编辑各种媒体素材 常⻅的有Photoshop、Audition、Goldwave、Premiere等 多媒体平台软件 多媒体平台设计是制作多媒体产品的最后⼀个环节,也是最重要的环节 多媒体平台软件是⼀个把各种对象素材进⾏逻辑组合,并赋予控制功能的软件系统 常⻅的有Authorware、PowerPoint、Visual Basic等 其中,Authorware的特⾊是把复杂的开发多媒体产品的过程简化为流程图的形式 多媒体播放软件:Windows Media Player、RealPlayer等
4.其它考点
数字媒体的基本特质:信息载体的 多样性、交互性、集成性 多媒体技术集成性:多种媒体综合使用的特性 复杂的声波:由许多不同振幅和频率的“正弦波”组成 音频和视频信息在计算机内是以“数值信息”表示的 在计算机内,多媒体数据最终是以“二进制代码”形式存在的 流媒体是:指网络空间的视频、音频和相关媒体数据流,从数据源(发送端)同时向目的地(接收端)传输的方式,具有连续实时的特性
二:多媒体信息编码
1.概念
不同的多媒体信息的编码不同,但编码的过程却相似,将多媒体信息转化为⼆进制代码存储的过程叫数字化
2.音频
2.1 定义
概念 声⾳是振动的波,复杂的声波由许多具有不同振幅和频率的正弦波组成 声波在时间和幅度上都是连续变化的模拟信号,可⽤模拟波形来表⽰,是⼀种能借助介质传播的波 在原声1次波上叠加2次波,且2次波⽐1次波时间上有所延迟,⾳量小,叠加后的听觉效果就是回声 指标 振幅 波形相对基线的最⼤位移,即波的⾼低幅度,表⽰声⾳的强弱 周期 两个相邻的波峰(或波⾕)之间的距离,即两个相邻波之间的时间⻓度 频率 频率的倒数即为周期,即声⾳每秒钟振动的次数,以Hz为单位 要素:声⾳的三要素是⾳调、⾳⾊和⾳强 声⾳的质量简称⾳质,⾳质的好坏与⾳⾊和频率范围有关 ⾳调:代表了声⾳的⾼低,⾳调与频率有关,频率越⾼,⾳调越⾼,反之亦然 ⾳⾊ 各种声⾳都有⾃⼰独特的⾳⾊,如各种乐器、不同的⼈、各种⽣物等,⼈们根据⾳⾊辨别声源种类 纯⾳:振幅和周期均为常数的声⾳ 复⾳ 具有不同频率和振幅的混合⾳,⼤⾃然中的声⾳⼤部分是复⾳ 复⾳中的低频⾳是“基⾳”,它是声⾳的基调,其它频率⾳称为谐⾳,也叫泛⾳ ⾳强:声⾳的强度,也称响度,⾳量就是指⾳强,⾳强与声波的振幅成正⽐,振幅越⼤,强度越⼤
2.2 流程转换AD
A/D转换 概念:⾳频处理的输⼊阶段,模拟信号(Analog) → 数字信号(Digital) 要把⾳频输⼊到计算机中,就需要把模拟⾳频信号转换为计算机能识别的数字信号 数字化过程涉及声⾳的采样、量化和编码,称为A/D转换,可由A/D(模/数)转换器实现 数字化后的数字⾳频信号,以数字声波⽂件形式保存在计算机的存储介质中 流程:采样 → 量化 → 编码 → 压缩 采样 采样是每隔⼀定时间间隔在声⾳波形上取⼀个幅度值,把时间上的连续信号变成离散信号 每秒钟采样的样本数量称为采样率,单位是Hz 量化 量化是将每个采样点得到的幅度值以数字存储 每个样本点使⽤的⼆进制位数称为量化位数,⼜称采样精度,单位是bit 编码 ⼀般采⽤PCM(Pulse Coding Modulation,脉冲编码调制)编码 压缩 概念 将得到的⾳频信息进⾏压缩以节约存储空间 分类 有损压缩 压缩的过程导致信息丢失的压缩算法,属不可逆压缩 ⽆损压缩 压缩的过程信息没有丢失,属可逆压缩 D/A转换:⾳频处理的输出阶段,数字⾳频的模拟化,从数字信号(Digital) → 模拟信号(Analog) 转换原则 采样定理 ⼜叫奈奎斯特(Nyquist)采样定理或⾹农-奈奎斯特采样定理 如果采样的频率是源信号中最⾼频率的2倍及以上,则可以不失真地获取所有信息 ⼈耳的听阈范围在20~20KHZ之间,因此当采样率达到40KHZ时,即可⽆损失地保留⼈耳听阈范围内的所有信息 采样定理也可以表⽰为:声⾳的采样频率 = 2 * 声⾳的还原频率 技术指标 概念 数字⾳频的质量由3项指标组成:采样频率、量化位数(采样精度)和声道数 采样率越⾼,量化位数越多,则声⾳的还原质量就越好,同时所需要的存储空间也就越多 在声⾳质量要求不⾼时,降低采样频率、降低采样精度的位数或利⽤单声道来录制声⾳,可减小声⾳⽂件的容量 指标 声道数 单声道 声道数 = 1 ⽴体声 stereo,两个声道,声道数 = 2 X.1声道 声道数 = X个主声道 + 1个重低⾳声道 例如,杜⽐环绕⽴体声,5.1声道,声道数 = 5+1 = 6 采样频率 11025Hz,电话 22050Hz,⼴播 44100Hz,CD⾳质,HiFi⼊⻔级 48000Hz,⾮专业级声卡的最⾼采样频率 96000Hz或更⾼,专业级声卡 量化位数 量化位数决定信噪⽐,1bit约等于6db 硬件 16bit,CD⾳质,HiFi⼊⻔级,⾮专业级声卡 24bit,⺟带级,专业声卡 软件:32 bit、64bit、128bit ...
采样频率{计算题}
奈奎斯特(Nyquist)采样定理 或 ⾹农-奈奎斯特采样定理
声⾳的采样频率 = 2 * 输入声音信号的最高频率
例子:已知人耳的听力范围是20Hz-20KHz,根据采样原理,获得高质量数字音频的采样频率不低于? >20KHz * 2 = 40KHz
声道数{计算题}
单声道 声道数 = 1 ⽴体声 stereo,两个声道,声道数 = 2 X.1声道 声道数 = X个主声道 + 1个重低⾳声道 例如,杜⽐环绕⽴体声,5.1声道,声道数 = 5+1 = 6
2.3 计算{计算题}
未压缩 码率:频⽂件每秒钟的数据量 当采⽤流媒体的形式在⽹络上播放时,所需要的最小⽹络带宽 公式:码率 = 声道数*采样频率*量化位数(采样精度) 单位:其中频率单位是Hz、量化单位bit、码率的单位是bps 数据量 直接计算 公式:数据量 = 声道数*采样频率*量化位数*⾳频⻓度/8 单位:其中频率单位是Hz、量化单位bit、⻓度单位秒,数据量单位是字节B 已知码率 公式:数据量 = 码率*⾳频⻓度/8 单位:⾳频⻓度单位是“秒”,数据量单位是“字节(B)” 压缩后 压缩后的数据量 = 未压缩的数据量/压缩⽐ 压缩⽐⼀般表⽰为?k:1?的形式,例如10:1,即是说压缩后的数据量是压缩前的1/10
举例
例子1:一段单声道录音,采用22.05KHz频率采样,8位精度进行存储,则录制3分钟,需要的存储空间? (1 * 22.05KHz * 8 * 3*60) = 结果 / 8 = 3969KB K/s b s k/b K/B 例子2:一段5分钟的立体声音音乐,需要在网络上实时传播,其采样频率为44.1KHz,最小精度为16位 压缩比为10:1,则需要的最小网络带宽是? 注意:实时传播的时候,只要带宽大于等于我们音频或者视频的码率,就可以实时播放 采样频率:44.1 kHz(每秒44100次采样) 采样精度:16位(2字节byte) 立体声:2个声道 时间:5分钟 = 300秒 原始数据量(字节) = 采样频率 × 采样精度 × 声道数 × 时间 = (44.1KHz * 2 * 300)/1024≈ 52.92 MB 压缩后数据量 = 52.92 MB / 10 = 5.292 MB 压缩后数据量(比特) = 5.292 × 8 = 42.336 Mb(兆比特) 所需带宽 = 总数据量(比特) / 时间(秒) = 42.336 Mb / 300 s ≈ 141.12 kbps 例子3:一首CD光盘音质的立体声歌曲,以172KB/S的速率,播放了3分钟,其数据量是多少MB? (172KB/S * 3 * 60) / 1024 = 30MB min s M
2.4 格式
WAV⽂件 WAV是微软公司采⽤的波形声⾳⽂件存储格式,即“.wav”⽂件 WAV⽂件直接记录真实声⾳的⼆进制采样数据,通常⽂件较⼤,多⽤于存储简短的声⾳⽚段 WAV中⼀般直接保存⾳频数字化后未压缩的原始PCM编码,适⽤于需要对⽂件进⾏多次编辑时使⽤ WAV格式⽀持平台多,具有通⽤性,编辑容易,⾳质能满⾜各种需求,因此多媒体产品中也经常使⽤ MIDI⽂件 Musical Instrument Digital Interface,乐器数字接口,对应“.mid”或“.midi”⽂件 MIDI是为了把电⼦乐器与计算机相连而制定的⼀个规范,是数字⾳乐的国际标准 MIDI所描述的信息是⼀串时序命令,⽤于记录⾳乐的⾏为模式,如乐器的特征⾳⾊、乐器的属性等 MIDI⽂件不太适合⽤来表现⼈声和⾃然界中的声⾳ 相对于WAV⽂件 MIDI中存放的不是声⾳采样信息,而是将乐器弹奏的每个⾳符记录为⼀连串的数字 MIDI的⽂件尺⼨通常⽐WAV这种保存真是采样数据的⽂件小得多 ⼀般WAV存放解说词,MIDI⽂件存放背景⾳乐 MP3⽂件 MPEG-1 Layer 3,对应“.mp3”⽂件 MP3格式是采⽤MPEG⾳频压缩标准进⾏有损压缩的⽂件,其⾳质接近于CD,是⽬前使⽤最多的⾳频格式⽂件 WAV和MIDI格式⽂件均可以压缩成MPEG格式⽂件 WMA⽂件 WMA(Windows Media Audio)是微软公司新⼀代的Windows平台⾳频标准,对应“.wma”⽂件 ⽀持有损/⽆损压缩,压缩⽐⾼,⾳质强于MP3和RA格式,适合⽹络实时播放 RA⽂件 RA(Real Audio)是Real Network公司制定的⾳频压缩规范,对应“.ra”⽂件 有较⾼的压缩⽐,采⽤流媒体的⽅式在⽹上实时播放,因此很多⾳乐⽹站的在线试听采⽤了这种格式 ⽀持使⽤特殊协议隐匿⽂件真实⽹络地址,实现只在线播放而不提供下载的欣赏⽅式 FLAC⽂件 最常⻅的基于⽆损压缩的⾼品质⾳频编码压缩格式,对应“.flac”⽂件
2.5 其它考点
数字音频信息获取与处理过程:采样——>量化——>压缩——>存储——>解压缩——>D/A变换(输出) 声音通过声卡麦克风将外部的声音进行采样并存储到内存中:A/D转换 5.1环绕立体声系统支持的最大声道数为:6声道 在声音的数字化处理中,根据Harry Nyquist采样定律采样原理,为了恢复原始声音的波形,采样频率不低于输入声音信号的最高频率的:2倍 采样频率越高:声音的保真度越高 音符进行编码,文件格式是:MID / MIDI(乐谱) 波形声音文件格式:WAV(多次编辑而不降低声音质量) 声卡:A/D、D/A转换 复杂的声波由许多不同振幅和频率的(正弦波)组成 计算机声卡处理数字音频时普遍采用的采样标准是:采用频率 44.1kHz,量化精度 16 位
3.图像
3.1 定义
概念 图像(Image) = 位图(Bitmap) 现实中的图像是⼀种模拟信号,图像数字化是指将⼀幅真实的图像转变成为计算机能够接受的数字形式 图像由扫描仪、数字照相机、摄像机等输⼊设备通过捕捉真实场景画⾯而产⽣映像,数字化后以位图形式存储 位图⽂件中存储的是构成图像的每个像素点的亮度、颜⾊,⼤小与分辨率和⾊彩的颜⾊数量有关 位图⽂件放⼤、缩小要失真,占⽤的空间⽐⽮量⽂件⼤ 分类 单⾊图像 概念 单⾊图像是指颜⾊单⼀的图像,不是指只有⼀种颜⾊的图像 ⼤多数图像处理软件可以很⽅便地把彩⾊图像转换成单⾊图像 分类 简单:只有⿊⽩两种颜⾊,因此⼜称为⼆值图像,常⽤于⽂本的显⽰ 复杂:同⼀种颜⾊的灰度发⽣变化,形成不同的灰度层次,⼀般灰度等级为8bit,即256级 彩⾊图像 概念 数字化彩⾊图像有两种颜⾊模式,RGB彩⾊模式和CMYK彩⾊模式 其中,RGB彩⾊模式⽤于显⽰,CMYK彩⾊模式主要⽤于印刷和打印输出 专业图像处理软件可以直接处理CMYK彩⾊图像,也可进⾏RGB图像与CMYK图像的相互转换 要素 ⾊彩的三要素即⾊相、明度和纯度,三者相互制约、互相影响 其中⾊相⼜称为⾊调,明度⼜称为亮度,纯度⼜称为饱和度 模式 RGB:红(Red)、绿(Green)、蓝(Blue),⼜称光三原⾊ 24位真彩⾊ R、G和B的每个颜⾊通道的位数为8位 每个通道的强度分成256级,取值范围0~255 可表⽰2^24 = 16777216种不同的颜⾊ 32位真彩⾊ R + G + B + Alpha,每个通道8位,共32位 Alpha通道表⽰⾊彩的透明度 CMYK ⻘(Cyan)、品红(Magenta)、⻩(Yellow)、⿊(blacK) CMYK模式⽤8bit表⽰每个基⾊,4个基⾊共需要32bit数据 动态图像 概念 任何动态图像都是由多幅连续的图像序列构成 由于⼈眼睛的视觉滞留效应,当多幅图像连续放映时,就看到了动态图像 分类 视频:图像是实时获取的⾃然景物时,称为视频信号 动画:⼈⼯绘制或计算机产⽣的图形以图像的形式表现时,称为动画 特点:动态图像具有时间上的连续性、延续性,帧之间的相关性以及强烈的实时性
3.2 流程
流程:采样 → 量化 → 编码 → 压缩 采样 概念 采样就是将⼆维空间上连续的图像转换成离散点的过程 采样的实质就是⽤多少个像素点(Pixels)来描述这⼀幅图像,称为图像的分辨率 分辨率 分辨率的单位是dpi,表⽰每英⼨范围内像素的数量 显⽰分辨率 = 列数(⽔平分辨率)* ⾏数(垂直分辨率) 打印分辨率 = ( ⻓ * dpi ) * ( 宽 * dpi) dpi:Dots Per Inch,每英⼨像点数,图像应⽤于不同场合的分辨率如下 ① 96dpi,凡是计算机显⽰场合,⼀般都使⽤96dpi的分辨率 ② 300dpi,只要是扫描或提供印刷,图像的分辨率⾄少不低于300dpi ③ 600dpi,⾼级彩⾊印刷、激光打印输出 ④ 720~2880dpi,彩⾊喷墨打印输出 ⑤ 1200~4800dpi,照⽚底⽚扫描 量化 概念 量化是在图像离散化后,将表⽰图像⾊彩浓淡的连续变化值离散化为整数值的过程 量化时所确定的整数值取值个数称为量化级数,表⽰量化的⾊彩值 颜⾊深度:可⽤8位、16位、24位、32位等来表⽰图像的颜⾊,⼜称为量化位数 编码:可采⽤PCM编码,BMP⽂件采⽤的就是这种编码⽅式 压缩:数字化后的图像数据量⼗分巨⼤,必须采⽤编码技术在压缩信息,它是图像传输与存储的关键
3.3 计算{计算题}
分辨率 = ( ⻓ * dpi ) * ( 宽 * dpi ) 未压缩 已知dpi 公式:数据量 = ( ⻓ * dpi ) * ( 宽 * dpi ) * 颜⾊深度 / 8 单位:单位是“字节(B)” ⻓和宽的单位都是“英⼨(Inch)”,颜⾊深度的单位是“位(b)” ⻓ * dpi = ⽔平分辨率,宽 * dpi = 垂直分辨率 已知分辨率 公式:数据量 = 分辨率*颜⾊深度/8 单位:其中颜⾊深度的单位是“bit”,数据量的单位是“字节B” 压缩后 压缩后的数据量 = 未压缩的数据量/压缩⽐ 压缩⽐⼀般表⽰为?k:1?的形式,例如10:1,即是说压缩后的数据量是压缩前的1/10
举例
例子1:使用彩色激光打印机,打印一张5英寸(5*3.5英寸)的彩色照片时,要求打印精度为600dpi,该照片的最低像素为? 5 * 600 * 3.5 * 600 = 630万 例子2:在计算机中存储一张分辨率为640*320的,24位真彩色图片,所占的存储空间为? (640 * 320 * 24) / 8 / 1024 = 600 b B K KB 例子3:显示分辨率为 1280*1024,显示颜色为32位,则需要显示缓冲区的大小为? (1280 * 1024 * 32) / 8 / 1024 = 5120KB b B K 例子4:图书馆收藏1000张,分辨率为1280*1024的真彩(24位)的图片,想将图片刻录到光盘上 假设每张CD光盘可存放600MB,最少需要光盘数? 1000 * (1280*1024*24) / 8 / (1024*1024) / 600 = 62.5 b K M 例子5:一幅24位真彩色图像(未压缩BMP位图文件),文件大小1200KB 若将其分别保存为256色、16色、单色位图文件,文件大小约为多少KB? 2^8=256 2^4=16 单色1b 文件大小 = M*N * 24b = 1200KB = M*N * 8b = 1200KB / 3 = 400KB = M*N * 4b = 1200KB / 6 = 200KB = M*N * 1b = 1200KB / 24 = 50KB 例子6:计算机以系统自带的画图工具制作一张真彩色的图片,像素 100*80,以 BMP 格式存储,图 片大小为 字节? 真彩色 颜色深度:3 字节(24位色) 像素数据大小 = 宽度 × 高度 × 颜色深度 = 100 × 80 × 3 = 24,000 字节
3.4 格式
BMP⽂件 Bitmap位图,对应“.bmp ”⽂件 BMP是⼀种与设备⽆关的图像⽂件格式,是Windows环境中经常使⽤的⼀种位图格式 这种格式的特点是⽀持真彩⾊(24bits或32bits),包含的图像信息较为丰富 ⼏乎不进⾏压缩,因此占⽤磁盘空间较⼤ JPEG⽂件 Joint Photographic Experts Group,联合照⽚专家组,对应“.jpg/jpeg”⽂件 JPEG格式压缩⽐⾼,压缩/解压缩算法复杂,重放时需要解压缩,因此存储和显⽰速度慢 同⼀幅图像的BMP格式的⼤小是JPEG格式的5~10倍 JPEG2000 JPEG2000格式是JPEG的升级版,其压缩率⽐JPEG⾼约30%,对应“.jp2或.jpf”⽂件 JPEG2000同时⽀持有损和⽆损压缩,而JPEG只能⽀持有损压缩 JPEG2000采⽤了渐进传输技术,⽤⼾可以先看到图像的⼤致轮廓,然后随着传输过程的继续而逐步看清图像中的细节部分 GIF⽂件 Graphics Interchange Format,图形交换格式,对应“.gif”⽂件 GIF是针对当时⽹络传输带宽的限制开发出的图像格式,是Internet上万维⽹中的重要⽂件格式 GIF格式的特点是压缩⽐⾼、磁盘空间占⽤较少,但不能存储超过256⾊的图像 ⽆损压缩,采⽤改进的LZW压缩算法 类型 GIF87a 只能存储单幅静⽌图像 GIF89a 可以同时存储若⼲静⽌图像进而形成连续的动画,可指定透明区域 PNG⽂件 Portable Network Graphics,移植的⽹络图像,对应“.png”⽂件 PNG是流式图像⽂件,主要有点为压缩⽐⾼,并且是⽆损压缩,适合在⽹络中传播 ⽀持Alpha通道透明图像制作,可以使图像与⽹⻚背景融为⼀体 优点是⽀持真彩⾊,缺点是不⽀持动画功能 TIF⽂件 Tag Image File Format,也叫TIFF格式,对应“.tif/.tiff”⽂件 适⽤于多种机型,在PC和Macintosh计算机之间可互相转换和移植TIFF图像⽂件 ⽆损压缩,⽀持1~32bit彩⾊,多分辨率,⽀持多种操作平台 TGA⽂件 Targa Image Format,对应“.tga”⽂件 ⽀持1~32bit彩⾊,96dpi,颜⾊表达范围宽,适合影视⼴播级的动画制作,对硬件的依赖性强 PSD⽂件 Photoshop软件的默认存档格式,对应“.psd”⽂件 可以保存每个图层的信息,可使⽤Photoshop直接打开编辑,但所需存储空间较⼤
3.5 其它考点
图像:位图 或 点阵图 像素:一副取样图像由M行 x N列个取样点组成,每个取样点是组成或取样图像的基本单位 颜色的三要素:亮度/明度、色调、饱和度/纯度 反光的媒体(打印机):CMYK 彩色打印机生成的各种颜色,用的是:CMYK(青 品红 黄 黑)模型组成 自己发光的媒体(显示器 投影仪):RGB(红 绿 蓝) 真彩色的量化字长,最少需要:24位(24bits或32bits)大于等于24bits 真彩色的文件格式:BMP 静态图像采用非压缩真彩色的文件格式是:BMP 图像的打印精度单位:DPI(Dots Per Inch,每英寸点数) 保留图层:PSD(PhotoShop) 图像压缩的目的是为了:减少数据存储两,便于传输 支持真彩色且具有透明特性的存储格式是:PNG
4.图形
概念:图形(Graphics) ⼀般是指通过绘图软件绘制的由直线、圆、圆弧、任意曲线等图元组成的画⾯,以⽮量图形⽂件形式存储 图形是指经过计算机运算而形成的抽象化结果,由具有⽅向和⻓度的⽮量线段构成 ⽮量图⽂件的最⼤优点是对图形中的各个图元进⾏缩放、移动、旋转而不失真,而且占⽤的存储空间小 格式 .ai Adobe Illustrator的存储格式 .dwg Autodesk AutoCAD的存储格式 .wmf 剪贴画 Windows Media Format,Windows图元⽂件 ⽂件短小,图案造型化,整个图形常由各个独⽴的组成部分拼接而成,但其图形往往⽐较粗造 Windows中许多剪贴画图像是以该格式存储的,⼴泛应⽤于桌⾯出版印刷领域 总结 概念:计算机中表⽰“图”的⼿段有两种,⼀种是图像,⼀种是图形 图像 图像是直接量化的原始信号形式,构成图像的最基本元素是像点 ⼀个像点由若⼲个⼆进制位描述,且对应⼀个可⻅的显⽰像素,即“像点-⼆进制位-像素”的对应关系 换⾔之,⼆进制位描述了图像,因此图像⼜被称为“位图” 图形 图形是指经过计算机运算而形成的抽象化结果,由具有⽅向和⻓度的⽮量线段构成 图形的描述不使⽤像点,而是使⽤坐标数据、运算关系以及颜⾊描述数据 因此,⼈们通常把图形称为“⽮量图” ⽐较 ① 图像的数据量相对较⼤,图形的数据量相对较小 ② 图像的像点之间没有内在联系,在放⼤与缩小时会导致图像的清晰度受影响(失真) 图形由运算关系⽀配,放⼤与缩小不会影响图形的各种特征(不失真) ③ 图像的表现⼒较强,层次和⾊彩较丰富,适合表现⾃然的、细节的事物 图形则适⽤于表现变化的曲线、简单的图案、运算的结果等(⼏何图形或物体轮廓) 转换 ⽮量图形与位图图像可以转换 要将⽮量图形转换成位图图像,只要在保存图形时,将其保存格式设置为位图图像格式即可 要将位图图像转换成⽮量图形,则较困难,通常需要借助其它软件来实现
其它考点
图形:是用计算机绘制的画面,也称矢量图 特性 位图(Bitmap) 矢量图(Vector Graphics) 组成 像素 数学公式(点、线、曲线等) 分辨率依赖 是(放大后失真) 否(可无限放大) 文件大小 较大(尤其是高分辨率图像) 较小 适合场景 复杂图像、照片、截图、图标 简单图形、标志、图标、图表 常见格式 JPEG、PNG、GIF、BMP SVG、AI、EPS 图形和图像可以相互转换 图形(点与点之间是有逻辑关联的)->图像(没有逻辑关联) 比较简单 矢量图放大不会产生失真(位图会) 矢量图以指令的形式保存图像(位图保存每个像素的颜色值)
5.视频
5.1 定义
概念 视频由⼀系列静态图像按⼀定的顺序排列组成,每⼀幅图像称为⼀帧(Frame) 视频的数字化过程同⾳频、图像相似,是在⼀定的时间内,以⼀定的速度对单帧视频信号进⾏采样、量化、编码等处理 实现数/模转换、⾊彩空间变换和编码压缩等,则需要通过视频捕捉卡和相应的软件来实现 指标 帧速率 Frame Per Second,FPS,即每秒播放的静态图像的张数 NTSC制式的帧速率为30帧/秒,PAL制式的帧速率为25帧/秒 其它:视频的分辨率和颜⾊深度取决于其每⼀帧静态图像的分辨率和颜⾊深度 图像分辨率越⾼,图像越清晰,存储量也越⼤ 分辨率达到1920*1080的视频被称为“全⾼清视频”,即1080P 垂直分辨率在2000以上的被称为2K,4000以上的被称为4K,以此类推 处理 概念 常⻅的视频处理功能包括视频剪辑、视频叠加、⾳视频同步以及后期特效制作等 由于数字化视频编辑可在时间轴上随意修改,⾃由度⼤,具有⾮线性,因此叫做“⾮线性编辑” ⼯具 Adobe Premiere,属于⾮线性视频编辑软件,有“电影制作⼤师”之称 视频处理需要占⽤⼤量的存储空间,应尽可能配备多个⼤容量硬盘,内存储器的容量也应尽可能加⼤
5.2 计算{计算题}
未压缩 码率 公式:码率 = 帧速率*分辨率*颜⾊深度 单位:其中颜⾊深度的单位是“bit”,视频⻓度的单位是“秒”,码率的单位是“bps” 容量 直接计算 公式:容量=帧速率*分辨率*颜⾊深度*视频⻓度/8 单位:其中颜⾊深度的单位是“bit”,视频⻓度的单位是“秒”,容量的单位是“字节B” 已知码率 公式:容量=码率*视频⻓度/8 单位:视频⻓度的单位是“秒”,容量的单位是“字节B” 压缩后 压缩后的数据量 = 未压缩的数据量/压缩⽐ 压缩⽐⼀般表⽰为?k:1?的形式,例如10:1,即是说压缩后的数据量是压缩前的1/10 视频数据⼏乎都采⽤有损数据压缩⽅法
举例
例题1:一个视频的帧速率为30帧/秒,分辨率为1920x1080,颜色深度为24位(3字节)。求该视频的码率? 码率 = 帧速率 * 分辨率 * 颜色深度 码率 = 30帧/秒 * (1920 * 1080)像素 * 24位 / (1024*1024) = 1423.83Mbps 例题2:一个视频的帧速率为25帧/秒,分辨率为1280x720,颜色深度为16位(2字节),视频长度为2小时。求该视频的未压缩容量? 容量 = 帧速率 * 分辨率 * 颜色深度 * 视频长度 / 8 容量 = 25帧/秒 * (1280 * 720)像素 * 16位 * (2 * 3600秒) / 8 / 1024^3 = ≈308.99 GiB 例题3:一个未压缩的视频数据量为100 GB,压缩比为50:1。求压缩后的数据量? 压缩后的数据量 = 未压缩的数据量 / 压缩比 压缩后的数据量 = 100 GB / 50 = 2 GB 例题4:一个视频的帧速率为60帧/秒,分辨率为3840x2160,颜色深度为32位(4字节),视频长度为1小时,压缩比为100:1。求压缩后的数据量? 首先计算未压缩的容量: 容量 = 帧速率 * 分辨率 * 颜色深度 * 视频长度 / 8 容量 = 60帧/秒 * (3840 * 2160)像素 * 32位 * (3600秒) / 8 / 1024^3 ≈6675.72 GiB 然后计算压缩后的数据量: 压缩后的数据量 = 未压缩的数据量 / 压缩比 压缩后的数据量 = 6675.72 GB / 100 = 66.76 GB 例题5:一个视频的帧速率为24帧/秒,分辨率为1920x1080,颜色深度为24位(3字节),视频长度为90分钟,压缩比为20:1。求压缩后的数据量? 首先计算未压缩的容量: 容量 = 帧速率 * 分辨率 * 颜色深度 * 视频长度 / 8 容量 = 24帧/秒 * (1920 * 1080)像素 * 24位 * (5400秒) / 8 / 1024^3 ≈750.94 GiB 然后计算压缩后的数据量: 压缩后的数据量 = 未压缩的数据量 / 压缩比 压缩后的数据量 = 750.94 GB / 20 = 37.55 GB
5.3 格式
利⽤软件可以把⽂件在各种视频格式之间进⾏转换,这种软件就叫做“视频格式转换软件”
AVI⽂件 Audio Video Interleaved,⾳视频交错编码,对应“.avi”⽂件 AVI是微软公司发布的视频格式,它将视频与⾳频信息交错地保存在⼀个⽂件中 AVI格式调⽤⽅便、图像质量好,压缩标准可任意选择,⽬前已成为应⽤最⼴泛、应⽤时间最⻓的格式之⼀ MOV⽂件 Movie,对应“.mov”⽂件 MOV是苹果公司在Quick Time for Windows视频应⽤程序中使⽤的⾳视频⽂件 MOV⽂件的最⼤特点是跨平台性 MPEG⽂件 Moving Picture Expert Group,运动图像专家组,对应“.mpg”或“.mp4”⽂件 MPEG(运动图像专家组)制定的⼀种压缩编码格式,得到⼤部分机器的⽀持 特点是存储⽅式多样,可以适应不同的应⽤环境 MP4 MPEG-4,MPEG制定的⾼清视频的编码格式,⽀持流媒体传输,对应“.mp4”⽂件 FLV⽂件 对应“.flv”⽂件 ⼀种常⻅的在线传输和在线播放的流媒体视频压缩编码算法,其压缩⽐较⾼ RM⽂件 Real Media,对应“.rm/rmvb ”⽂件 RealPlayer公司的视频编码压缩格式,数据量小但质量较差,随着计算机⽹络速度的提⾼,已经不多⻅了 ASF⽂件 Advanced Streaming Format,⾼级串流格式,对应“.asf”或“.wmv”格式 微软公司为Windows操作系统开发的多媒体⽂件格式,是Windows Media的核⼼ MKV⽂件 对应“.mkv”⽂件 是⼀个多媒体容器和封装格式,理论上可以容纳⽆限量的视频、⾳频、图⽚、字幕轨道等内容
5.4 其它考点
视频信息是相关联的图像序列,基本单位:帧 音频视频交错格式:AVI(Audio Video Interleaved) 数据是信息的载体:信息越大 数据量越大 数据压缩:是指对原始数据进行重新编码,去除原始数据中的“冗余数据”的过程 无损压缩 或 文件压缩:ARJ/ZIP 霍夫曼编码:无损压缩 衡量数据压缩技术性能的重要指标:压缩比、算法复杂度、恢复效果 音视频压缩:MPEG(Moving Picture Experts Group,即运动图像专家组格式)
6.动画
概念 动作的变化是动画的本质(英国动画⼤师约翰·哈拉斯) 动画即连续变化的画⾯,它也是利⽤⼈眼的视觉暂留效应,以连续变化的静态图像⽣成连续变动的画⾯ 通常认为,视频是基于现实的,而动画是⼈为制作的 视觉暂留效应 ⼈在看物体时,物体在⼤脑视觉神经中的停留时间约为1/24S。如果每秒更替24个画⾯或更多的画⾯ 那么,前⼀个画⾯在⼈脑中消失之前,下⼀个画⾯就进⼊⼈脑,从而形成连续的影像 规则 ① 动画由多画⾯组成,并且画⾯必须连续 ② 画⾯之间的内容必须存在差异 ③ 画⾯表现得动作必须连续,即后⼀幅画⾯是前⼀幅画⾯的继续 分类 按性质 帧动画 构成动画的基本单位为帧,由多帧组成⼀个动画,例如CG动画 按帧速率 全动画 每秒24帧 半动画 每秒6~12帧 ⽮量动画 经过计算机计算而⽣成的动画,其画⾯只有⼀帧,主要表现变换的图形、线条、⽂字或图案 ⽮量动画通常采⽤编程⽅式和某些⽮量动画制作软件完成 按形式 2D动画 ⼆维动画,⼜叫平⾯动画,是帧动画的⼀种 常⽤的制作软件由Flash、Magic Morph等 3D动画 三维动画,⼜叫空间动画,可以是帧动画,也可以制作成⽮量动画 常⽤的制作软件有3D Studio Max、Cool 3D、Maya等
三:多媒体关键技术
1.关键技术分类
数据压缩 1948年,Oliver提出PCM编码理论,标志着数据压缩技术的诞⽣ 数据压缩技术既包含硬件技术,⼜包含软件技术,但数据压缩的实现都是数学运算的结果 在多媒体技术的发展过程中⾯临的最⼤难题就是海量数据的问题,需要使⽤数据压缩技术解决 集成电路:集成电路制作技术,例如,DSP、GPU的制作 存储技术:多媒体存储设备,例如CD/VCD/DVD、⼤容量硬盘等 软件技术:多媒体编辑软件、播放软件等
2.数据压缩技术
1.概念 数据压缩的⽬的是在传送和处理信息时,尽量减少数据量 数据压缩的对象是数据,不是信息,真正有⽤的不是数据本⾝,而是数据所携带的信息 数据压缩技术是关键技术,它解决了多媒体信息数据压缩存储和传输的问题 2.条件 数据包含冗余 ⾳频信号和视频信号的原始数据通常存在很多⽤处不⼤的空间 这种空间越多,数据的“冗余度”也越⼤,通过数据压缩,可去掉这些不敏感成分 ⼈类不敏感因素 ⼈类对某些频率的⾳频信号不敏感 ⼈眼存在视觉掩盖效应,即对亮度⽐较敏感,对边缘的强烈变化不敏感 在数据压缩时,可以去掉这些不敏感的成分 信息存储和传输 信息承载在数据上进⾏传输和存储,在传输和存储前,需要对数据进⾏压缩处理 待传输到⽬的地或读出数据时,再进⾏数据还原,进⾏数据的解压缩过程 3.冗余:冗余是指信息所具有的各种性质中多余的⽆⽤空间,其多余的程序叫做“冗余度” 空间冗余 规则物体的表⾯具有物理相关性,将其表⾯数字化后表现为数据冗余 例如在⼀幅图像中,相邻区间各像素点的相关性会引起空间冗余 时间冗余 视频信号和动画等有序排列的图像很容易产⽣数据冗余现象 相邻画⾯的某个位置上的内容有变化而其它内容没有变化,不变的内容构成时间冗余 即各帧图像之间有相同的部分,压缩时原则上可以只存储相邻帧之间的差异部分 统计冗余:统计冗余是空间冗余和时间冗余的总称,因为空间冗余和时间冗余具有统计特性 结构冗余:图像中具有规则纹理的表⾯、⼤⾯积相互重叠的相同图案、规则有序排列的图形等形成的冗余 编码冗余:编码冗余⼜叫信息熵冗余,即数据所携带的平均信息量存在冗余 视觉冗余:⼈类的视觉敏感度有⼀定限度,图像⾊彩、亮度、层次、轮廓的微小变化不易察觉,构成视觉冗余 知识冗余 知识是⼈类独有的,凭借经验就可辨识事物,⽆须进⾏全⾯的⽐较和鉴别 计算机没有经验可循,只能按部就班地扫描和处理数据,这种与⼈类差异造成的冗余就是知识冗余 其它冗余:由于图像空间的⾮定常特性产⽣的冗余,也包括其它种类的冗余 4.算法 概念 数据压缩的核⼼是计算⽅法,不同的计算⽅法,产⽣不同形式的压缩编码 实际上,数据冗余类型和数据压缩的算法是对应的,⼀般根据不同的冗余类型采⽤不同的编码形式 过程 数据压缩处理⼀般分两个过程,编码过程和解码过程 编码过程与解码过程是成对出现的过程,其计算⽅法严格配套 编码:该过程将原始数据进⾏压缩,形成压缩编码,然后将压缩之后的编码数据传送和存储 解码:该过程将压缩编码数据进⾏解压缩,还原成原始数据,提供使⽤ 分类 基本概念 ⽆损压缩 概念 在压缩时不丢失数据,还原后的数据与原始数据完全⼀致 基于信息熵原理,属于可逆编码,可以精确地恢复压缩前的数据(信息) 典型的⽆损压缩编码有霍夫曼编码、算术编码、⾏程编码、LZW编码等 特点 具有可恢复性和可逆性,不存在任何误差 ⼀般压缩⽐不⾼,2:1~5:1,因此不适合实时处理图像、视频和⾳频数据 应⽤ ⼀般⽤于要求严格,不允许丢失数据的场合 常⻅于⽂本数据压缩(如Winzip、WinRAR等)、程序以及重要图⽚和图像的压缩 例如,医疗诊断中的成像系统、卫星通信、全球定位系统等领域 有损压缩 概念 在压缩时舍弃部分数据,还原后的数据与原始数据存在差异 典型的有预测编码、PCM编码、量化与⽮量量化编码、频段划分编码、变换编码和知识编码 特点 具有不可恢复性和不可逆性,属于不可逆编码 压缩⽐较⾼,⼀般⼏⼗到⼏百,例如采⽤JPEG压缩位图的压缩⽐可达到20:1 应⽤:常⻅于图像、⾳频、视频等数据量较⼤的多媒体数据的压缩 常⻅算法 ⽆损压缩 霍夫曼编码 Huffman编码,是统计编码的⼀种,属于⽆损压缩编码 码⻓可变,出现频率⾼的信息编码⻓度短,出现频率低的信息编码⻓度⻓ 总码⻓小于实际信息符号⻓度 ⾏程编码 ⼜叫游程编码或运⾏⻓度编码,是⼀种统计编码,属于⽆损压缩编码 可定⻓编码,也可变⻓编码 算术编码 是统计编码的⼀种,属于⽆损压缩编码 某些⽅⾯优于霍夫曼编码,因此被使⽤在JPEG标准中 LZW编码 Lempel Ziv Welch编码,是⼀种先进的数据压缩技术,属于⽆损压缩编码 ⼴泛应⽤于图像压缩领域,常⽤于GIF格式,平均压缩⽐在2:1以上,最⾼可达3:1 有损压缩 混合编码 H.261/262/264、JPEG、MPEG、... ⼦带编码 ⾃适应变换、⽮量编码、标量编码、⼼理学模型、... 全频带编码 PCM编码、DPCM编码、ADPCM编码、... 参数编码 预测编码、... 评价标准:评价压缩算法的好坏有4个重要指标,即压缩⽐、恢复效果、速度和压缩开销 ① 压缩⽐ 即压缩前后所需信息(数据)存储之⽐值要⼤ ② 恢复效果 要尽可能恢复到原始数据 ③ 速度 压缩、解压缩的速度,尤其解压缩速度更为重要,因为解压缩是实时的 ④ 压缩开销 实现压缩算法的软硬件开销要小 5.标准 JPEG 概念 JPEG(Joint Photographic Experts Group),联合图像专家组 该标准由国际标准化组织(ISO)制订,是⾯向静⽌图像的⼀种压缩标准(⼯业标准) 类型 JPG/JPEG⽂件 有损压缩,压缩⽐10:1~100:1,可随意选择期望的压缩⽐,得到不同质量的图像 JP2/JPF⽂件 采⽤JPEG2000标准,属于⽆损压缩,压缩⽐约为4:1 MPEG 概念 MPEG,Moving(Motion) Picture Experts Group,运动图像专家组 该标准由国际标准化组织(ISO)制订,是针对⾳频和视频的⼀种压缩标准(⼯业标准) MPEG的主要任务是减少时间冗余和空间冗余,以此达到减少数据量的⽬的 类型 MPEG-1 MP3⽂件,MPEG-1 Layer 3,“.mp3”⽂件中使⽤的⾳频编码,有损压缩 MPG⽂件,VCD中使⽤的视频编码,有损压缩 MPEG-2 MPG⽂件,DVD中使⽤的视频编码,有损压缩,最⾼压缩⽐200:1 MPEG-4 MP4⽂件,MPEG-4 part 10就是⽬前常⽤的H.264标准,有损压缩 MPEG-7 ⽬前采⽤的标准,被称为“多媒体内容描述接口” MPEG-21 由MPEG-7发展而来,主要规定了数字节⽬的⽹上实时交换协议 6.应⽤ 应⽤领域 图像信号、视频信号和⾳频信号的压缩编码,如JPEG、MPEG等 ⽂件存储系统和分布式系统的数据压缩编码,如ZIP、GZ等,⽂件压缩使⽤⽆损压缩算法 为数据安全保密而开发的数据压缩编码,例如MD5、SHA-1 对数据的实时压缩或解压缩,促进了快速算法的研究 常⽤软件 多媒体编辑软件 多媒体编辑软件在保存⽂件时通常可以选择多种不同的⽂件格式和压缩算法 多媒体⼯具软件 各种多媒体的转码压缩⼯具软件,常⻅的有图像、⾳频和视频的转码压缩⼯具 ⽂件压缩软件 WinRar、WinZip、ARJ、7z等
3.数据传输技术
MIME Multipurpose Internet Mail Extensions,多⽤途互联⽹邮件扩展类型 最开始⽤来在邮件(SMTP协议)中发送多媒体内容,后来也⽤于万维⽹的HTTP协议中 流媒体 概念 数据流从数据源(发送端)向⽬的地(接收端)连续、实时传输的媒体形式 流媒体最重要的特性是实时性,即对时间的⾼度敏感性 ⽅式 点对点传输 Uni-Cast,数据源与⽬的地⼀⼀对应,流媒体从⼀个数据源发出去,只能到达⼀个⽬的地 多址⼴播传输 Multi-Cast,⼜称为组播,即⼀个数据源对应多个⽬的地,但只限于同⼀个组 ⼴播传输 Broad-Cast,⼀个数据源对应多个⽬的地,且不局限于组内 渐进传输 先传输图像的轮廓,然后逐步传输数据,不断提⾼图像质量,让图像由朦胧到清晰显⽰ 是JPEG2000、GIF等图像格式中采⽤的⼀种传输图像信息的技术