您好,欢迎来到汇意旅游网。
搜索
您的当前位置:首页FLV文件格式

FLV文件格式

来源:汇意旅游网
FLV文件格式

本文部分摘自: http://blog.sina.com.cn/s/blog_48f93b530100eyoe.html

参考了Adobe 官方的

FLV是流媒体封装格式,可将其数据看为二进制字节流,其字节编码格式为 BigEndianUnicode 。总体上看,FLV包括文件头(File Header)和文件体(File Body)两部分,其中文件体由一系列的Tag及Tag Size对组成。因此一个FLV文件看上去是下面的结构:

其中,Previous Tag Size紧跟在每个Tag之后,占4个字节表示一个UI32类型的数值,表示前面一个Tag的大小。需要注意的是,Previous Tag Size #0的值总是为0。Tag类型包括视频、音频和Script,且每个Tag只能包含一种类型的数据。下面我们看看File Header和Tag的具体结构,为了方便大家理解,我贴一个实际FLV文件的字节流图片,图片中把不同部分区分了颜色。

一、File Header结构

File Header的长度和结构是固定的,在当前版本中总是由9个字节组成,如图中蓝色区域所示。

第1-3字节为文件标识(Signature),总为“FLV”(0x46 0x4C 0x56),如图中紫色区域。

第4字节为版本,目前为1(0x01)。 第5个字节的前5位保留,必须为0。

第5个字节的第6位表示是否存在音频Tag。 第5个字节的第7位保留,必须为0。

第5个字节的第8位表示是否存在视频Tag。

第6-9个字节为UI32类型的值,表示从File Header开始到File Body开始的字节数,版本1中总为9。

二、Previous Tag Size结构 如图中红色位置所示。 三、Tag结构

Tag包括Tag Header和Tag Data两部分。不同类型的Tag的Header结构是相同的,但是Data结构各不相同。如图中绿色和黄色区域分别表示Tag Header数据和Tag Data数据。

当前版本的Tag Header结构占用11个字节。 第1个字节表示Tag类型,包括音频(0x08)、视频(0x09)和script data(0x12),

其他类型值被保留。

第2-4字节为UI24类型的值,表示该Tag Data部分的大小。 第5-7字节为UI24类型的值,表示该Tag的时间戳(单位为ms),第一个Tag的时间戳总是0。

第8个字节为时间戳的扩展字节,当24位数值不够时,该字节作为最高位将时间戳扩展为32位值。

第9-11字节为UI24类型的值,表示stream id,总是0。

字段名称 TagType UI8 类型 说明 本TAG的类型. 可取值: 8: audio  9: video  18: script data  其他的: 保留  DataSize Timestamp UI24 UI24 Data字段的数据长度 无用? 对上面的字段扩展之用 总是 0 TimestampExtended UI8 StreamID Data UI24  If TagType = 8 TAG 数据字段, 主AUDIODATA 要的数据就在这个 If TagType = 9 里面. 本字段的数VIDEODATA 据类型取决与 If TagType = 18 TagType内的值 SCRIPTDATAOBJECT 后面的字节为Tag Data数据,Data的大小由第2-4字节的数值指示,根据第1个字节指示的Tag类型,按照不同的结构解析Tag Data。下面分别介绍。

四、Audio Tag Data结构

音频Tag开始的第1个字节包含了音频数据的参数信息,从第2个字节开始为音频流数据。

第1个字节的前4位的数值表示了音频数据格式,各值代表的意义大家可以查阅Adobe公司发布的FLV格式说明文档(可以到我的磁盘空间的“资料”目录去下载 http://e.ys168.com/?tinyfun)。

第1个字节的第5-6位的数值表示采样率,0 = 5.5 kHz,1 = 11 kHz,2 = 22 kHz,3 = 44 kHz。

第1个字节的第7位表示采样精度,0 = 8bits,1 = 16bits。 第1个字节的第8位表示音频类型,0 = mono,1 = stereo。 字段称 SoundFormat UB[4] 0 = Linear PCM, platform endian 1 = ADPCM 2 = MP3 3 = Linear PCM, little endian 4 = Nellymoser 16-kHz mono 5 = Nellymoser 8-kHz mono 6 = Nellymoser 7 = G.711 A-law logarithmic PCM 8 = G.711 mu-law logarithmic PCM 9 = reserved 10 = AAC 14 = MP3 8-Khz 15 = Device-specific sound SoundRate UB[2] 0 = 5.5-kHz 1 = 11-kHz 2 = 22-kHz 3 = 44-kHz 类型 说明 SoundData 字段内音频的存储格式 格式7, 8, 14, 15 保留专用 格式10 (AAC) 只有在 Flash Player 9.0.115.0 及以上版本提供. 这里只关心 MP3 格式的, 因为其他编号的还不确定咋样处理. 取样率 对AAC格式: 总为 3 SoundSize UB[1] 每个取样的大小 0 = snd8Bit 8位 对AAC格式: 总为 1 1 = snd16Bit 16位 实际本字段为一个逻辑类型字段 SoundType UB[1] 0 = sndMono 单声道 1 = sndStereo 立体声 UI8[sound data长度] 标示是 立体或单声道的声音 对于Nellymoser格式: 总为 0 对于AAC格式: 总为 1 本字段也可以理解为逻辑类型字段 如果 SoundFormat 字段为 10 本数据为 AACAUDIODATA 类型的音频数据(本文忽略处理) 否则为实际的音频数据 对于MP3格式的音频数据直接将本字段的数据当成MP3数据来处理 SoundData

五、Video Tag Data结构

视频Tag也用开始的第1个字节包含视频数据的参数信息,从第2个字节开始为视频流数据。

第1个字节的前4位的数值表示帧类型。 第1个字节的后4位的数值表示视频编码ID,1 = JPEG(现已不用),2 = Sorenson H.263,3 = Screen video,4 = On2 VP6,5 = On2 VP6 with alpha channel,6 = Screen video version 2。 六、Script Tag Data结构

该类型Tag又通常被称为Metadata Tag,会放一些关于FLV视频和音频的参数信息,如duration、width、height等。通常该类型Tag会跟在File Header后面作为第一个Tag出现,而且只有一个。

一般来说,该Tag Data结构包含两个AMF包。AMF(Action Message Format)是Adobe设计的一种通用数据封装格式,在Adobe的很多产品中应用,简单来说,AMF将不同类型的数据用统一的格式来描述。第一个AMF包封装字符串类型数据,用来装入一个“onMetaData”标志,这个标志与Adobe的一些API调用有,在此不细述。第二个AMF包封装一个数组类型,这个数组中包含了音视频信息项的名称和值。具体说明如下,大家可以参照图片上的数据进行理解。 第一个AMF包:

第1个字节表示AMF包类型,一般总是0x02,表示字符串,其他值表示意义请查阅文档。

第2-3个字节为UI16类型值,表示字符串的长度,一般总是0x000A(“onMetaData”长度)。

后面字节为字符串数据,一般总为“onMetaData”。

第二个AMF包:

第1个字节表示AMF包类型,一般总是0x08,表示数组。 第2-5个字节为UI32类型值,表示数组元素的个数。

后面即为各数组元素的封装,数组元素为元素名称和值组成的对。表示方法如下:

第1-2个字节表示元素名称的长度,假设为L。 后面跟着为长度为L的字符串。 第L+3个字节表示元素值的类型。

后面跟着为对应值,占用字节数取决于值的类型。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- hids.cn 版权所有 赣ICP备2024042780号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务