一乐电子

一乐电子百科

 找回密码
 请使用微信账号登录和注册会员

QQ登录

只需一步,快速开始

快捷登录

手机号码,快捷登录

搜索
查看: 9420|回复: 2
收起左侧

基于FPGA的JPEG解码器设计与实现

[复制链接]
发表于 2009-3-23 22:41 | 显示全部楼层 |阅读模式
基于FPGA的JPEG解码器设计与实现( }: \$ g% _- D* c8 W

( U2 U0 u( G$ ?% y- k, t刘小卫,周剑扬,黄云鹰,刘旻焘 * ?7 y5 R+ Q9 Y1 H, I5 L6 j
厦门大学 电子工程系,福建 厦门361005" D' d7 b. d$ _3 w- P
2008-07-28 7 ~2 _: d8 i0 @$ ]' q
    摘 要: 为满足SoC中JPEG静止图像实时解压缩要求,在完成JPEG解码器C语言建模的基础上,采用自顶向下的设计方法,完成了JPEG Baseline解码器设计,并在FPGA开发板上验证了设计结果。该设计与ACTEL、4I2I等公司的IP核相比具有相近的解压缩速度,能满足实时解码要求。
5 ~5 q9 u. S8 a0 D7 F1 J6 M; v4 Q8 q  }    关键词: JPEG;FPGA;解码器;IDCT

: `; S  O& Z0 Q# t2 Z; ^# i! E% q: H- h. P. D6 v& K
    随着多媒体技术的蓬勃发展,视频编解码技术得到了长足的进步,人们先后制定了多个数字图像视频编解码标准。其中JPEG仍然是目前最流行的静止图像压缩格式,在手持设备和网络中有广泛的应用。
$ b( W/ v( |: _9 E+ ]" [( E4 r    本论文工作是无线投影机控制器设计中的一部分,见图1。该控制器以开放源代码处理器LEON3为核心,具有以太网、VGA、PCI等接口,PCI接口用来连接无线网卡,VGA接口用来连接投影机,这样构成一个无线投影系统。PC机通过有线网络或无线网络向控制器传输JPEG压缩图像数据,经过解码器解码后显示在投影仪上,从而实现多台电脑共享一台投影机,并且避免了连线的麻烦,具有一定的市场前景。考虑到系统的灵活性,本控制器选用Altera FPGA作为实现平台,设计可以无缝地转移到Altera Hardcopy技术,从而实现低成本。
6 ]5 N, M' \$ U* p8 W
                           
% @  {' p2 R  ?1 ^2 @9 o( B4 D. K. i0 |% d; z  |! g( }1 ]5 q, D
    本设计利用硬件描述语言(VHDL)设计了JPEG Baseline的解码系统。2 K$ v, I. `! c9 e2 M& p
1 JPEG解码器原理, G4 |: V& y; ]; ~, J+ O
    JPEG解码器主要由四部分组成:图像头信息的读取、熵解码、反量化、IDCT(反离散余弦变换),其数据流图见图2。& @6 ^% ]% V+ G- H5 |! x$ p: w
: F$ o: l% C6 \# L; H5 c6 o4 z
    从图中可以看出,解码器首先从JPEG图像数据中读取Header信息,得到与解码相关的如哈夫曼表、量化表以及图像大小等信息,并且将这些信息存储在RAM或者寄存器中,供后面的步骤调用。4 d8 J: E3 \% m$ N* x
    在图像头信息读取完成后,解码器进一步读取压缩编码的数据并对其进行熵解码。压缩编码的数据采用哈夫曼(Huffman)编码。哈夫曼编码是一种常用的压缩编码方法,是Huffman于1952年为压缩文本文件建立的。它的基本原理是:将频繁使用的数据用较短的代码代替,而较少使用的数据用较长的代码代替,每个数据的代码各不相同。这些代码都是二进制码,且码的长度可变,因此哈夫曼编码是可变长编码的一种。在JPEG中采用游程编码与范式huffman编码进行数据的压缩存储,并且直流系数(DC)与交流系数(AC)分开编码,提高了压缩效率。因而在熵解码过程中需要分别对直流系数和交流系数分别解码。当前直流系数为上一个直流系数加上当前熵解码数据(即残差)。8 {& I4 X2 i7 \
    当解码完一个MCU(Minimal Coded Unit)后,接下来就是进行反量化的操作,即将解码出来的数据乘以一个量化系数。3 i" P3 x8 x" l' K
    最后是IDCT(反离散余弦变换)操作,即DCT(离散余弦变换)的反变换。离散余弦变换(DCT)是N.Ahmed等人在1974年提出的正交变换方法,它常被认为是对语音和图像信号进行变换的最佳方法。通过DCT变换,将数据从一个域变换到另外一个域,其大多数高频分量的系数变为0。人眼对低频分量比较敏感,对高频分量则不太敏感;因而量化的结果是去掉了不太重要的高频分量,降低了码率。在JPEG解码过程中需要通过IDCT还原图像原始数据。IDCT部分是计算量最大的单元,对此单元设计的好坏将直接影响到解码速度。
* ?, b& |* M, }/ K2 _" H* c  q6 l- s2 JPEG解码器设计与实现7 {6 l7 w5 i7 @7 A2 Q
    针对JPEG解码流程特点,本JPEG解码器硬件总体设计如图3所示。JPEG CONTROLLER负责调度各个模块的执行;Src_ram存储着JPEG原始图像数据;Addr_gen模块产生下一个需要读取字节的地址;Read_markers模块读取JPEG图像的图像头信息,并且将头信息保存在Register files中,相应的量化表信息及huffman表将存储在Dqt rams和Dht rams中;Huff_derived_tbl是由huffman表生成的用于熵解码的表格;Decode MCU 模块从Src_ram读取JPEG图像数据并解码,解码出来的数据将逆zig-zag顺序存储在Block ram中;IDCT模块读取Block ram中的哈夫曼解码数据进行反量化和IDCT变换,之后将数据输出到Ram。下面将对各个模块的设计作详细的介绍。$ O. w, V6 h6 N: a, t
2.1 Addr_gen模块设计- y$ \: r3 q' R9 _8 N. _& _
    此模块用于产生读取Src_ram的地址并生成下一个要读取字节的地址。其硬件实现如图4虚线右边部分所示。在非跳转情况下,当RD信号有效时,Addr_gen计数器每次递增1个单位。
! j& O9 V0 B$ }/ L0 R# R    跳转情况下,即skip有效时,其计数器工作如图4虚线左边部分所示,当读入地址为Addr_n的数据后需要跳转k个单位的字节(Skip_num=k),因为在读取地址为Addr_n的数据Data_n后地址计数已经增加了一个单位,因而在第三个时钟周期能跳转到地址为Addr_n+1+k的数据,而这第三个时钟周期读出来的数据Data_n+1将会被忽略。从第四个时钟起此模块将恢复正常的读取数据功能。+ s: K2 T# d9 C. B
( K- z9 e6 @6 z
2.2 Read_markers模块设计
9 I7 S2 x  n0 R% P9 k* e
    Read_markers读取JPEG文件头信息并且解释,由以下子模块组成,见图5虚线左边部分。/ ^( X+ c( A2 ~+ g
    (1)First_marker:判断文件是否为JPEG文件,即判断开始的2B是否为FF D8;& Z2 O) {- p  e* V
    (2)Next_marker:查找下一个标志;
, P; b# t/ j6 C3 f0 X- e' F1 d  z, }    (3)Get_sos:读取sos(start of scan);, H6 q6 j. m9 v1 t1 O
    (4)Skip_var:跳过一些信息时被调用,给Addr_gen模块传送跳过信息标志;2 W8 g, `( n2 P6 p1 J8 o
    (5)Get_sof:读取sof(start of frame);4 h3 `1 T: G/ ?4 j' j7 l9 E
    (6)Get_dht:读取huffman表信息,存储在Dht rams(见图1);% N$ K# }. d* k$ U* d
    (7)Get_dqt:读取量化表信息,并存储在Dqt rams(见图1);
. y9 p% [" N3 f7 y, L; k    (8)Get_dri:读取重起间隔,以MCU(Minimum Coded Unit)为单位。" o# w3 Z) l3 @. ?
    硬件实现利用FSM(有限状态机)来进行控制。其模块调度示意图见图5虚线右边部分。  v' [, K# q: ?+ U  z4 a

$ g8 I* o* V8 W) }2 G1 t2 q: `: I  p: ~& |
2.3 Decode_MCU模块设计" {5 s# y! M' T1 e  W8 m8 _+ W
    Decode_MCU是jpeg解码器设计中一个非常重要的单元,也是正式解码的开始。本设计中此模块的设计见图6虚线框中设计,主要由四个子模块组成:Fill_buffer、Decode_block&IZZ、Process_restart和Controller。
2 ?* V1 o4 {" i$ q4 I    (1)Fill_buffer:当32BITS_REG中的比特数不够时控制器将启动此模块读取Src_ram中的数据并且加载到32bits_reg中,并且去掉码流中的填充数据。
# \- t/ v  u; k* ?    (2)Decode_block&IZZ:huffman解码,并且将解码数据逆zig_zag顺序输出。) k  D: x, }  ?$ Q) E
    (3)Process_restart:当JPEG图像中有restart interval(Get_dri)标志,在解码完由Get_dri规定的n个MCU后,控制器首先调用此模块来进行同步(在网络传输中非常重要)。
: ^7 C* ?3 p) Q" ^    (4)Controller:控制协调各模块的执行。
) L  e/ x/ y& o, n- C    核心模块Decode_block硬件实现如图6,虚线右边是EXTEND[1]部分,采用查找表实现。Get_buffer即图6中的32BITS_REG, Bits_left记录32BITS_REG中剩余的比特数。Huff_D模块每启动一次解码一个熵编码数据。由于DC编码采用DPCM编码,解码直流(DC)时需要增加一个时钟周期来加上上一个DC的值,从而得出如图6所示的output,解码交流系数(AC)时则在EXTEND后直接输出。Sel_s_input为”00”时,选通huffman解码数据;为”01”时,选通EXTEND后的数据;为”10”时,选通加上了last_dc_val的数据。$ H  Q0 [  s" H' |# k

. t' Z9 W* E8 n2 A9 Z* P2 \; h; s9 a
, O8 ?; R2 m. N5 k" Y! [8 s2.4 IDCT模块设计
; E! K" j3 J% w2 _9 p+ w# U    IDCT(Inverse Discrete Consine Transform)是JPEG解码器中最耗资源和计算量最大的单元。本设计为减少内存读取,提高解码速度,将反量化也放在IDCT模块中实现。
1 U9 _9 L5 A& E" |4 r    离散余弦变换的公式和离散余弦逆变换的公式如下:8 l3 m  B% G" r
   http://www.chinaaet.com/uploadfiles/jishu/jslw/20080728043215890_small.gif
- C$ g1 m9 k; o# S8 n$ `, T* t1 i! O* X" t3 d) K
    经分析公式(1)可以做如下等效变换:* z. _( G! N: C: h8 R
    http://www.chinaaet.com/uploadfiles/jishu/jslw/20080728043253984.gif
( t( j1 n( m& @" x7 M7 r! n% ~* [6 y% Q6 b
    即通过两次一维的IDCT变换即可实现二维的IDCT。考虑到数据的读取,本设计IDCT模块的设计如图7虚线框中所示。' s" z2 e" L1 O$ Z. Y- E  L6 P+ {
    实现过程:首先读取Block ram的一列,相应的反量化数据从Dqt ram中读取,经过IQ(反量化单元,即乘法器)后的8个数据存储在regs中,之后控制器启动一维IDCT变换,并将反变换后的数据存储在REG FILES的一列中。当一个Block ram中的8列数据全部反量化和IDCT变换后,控制器将切换成对REG FILES中一行的数据进行一维IDCT变换,变换后的数据存储在REG FILES中的一行中,之后再进行下一行变换,直到8行数据全部IDCT 变换完。基于参考文献[2]的一维IDCT实现具有资源比较小和实现简单的特点,通过对IDCT反变换矩阵系数分析,一维IDCT奇偶数据变换具有不同的结构化特点,在此可以进行单独的设计,最后将两部分的结果数据进行碟形加减操作,得到一维IDCT的运算结果(见图7)。这样变换完的数据即可进行输出,送到显示单元进行色彩变换和其它后续处理后显示。
( @2 ?% K9 t4 [% x
( L9 e7 L4 Q6 @( K( J" ]3 l$ H2.5 测试与结果
, n. l$ P" ^, J      本设计采用的硬件开发平台为ALTERA DE2,FPGA为EP2C35F672C6,在quartusii 5.0中进行综合,所耗资源和最大时钟频率见表1。2005年ACTEL[3]公司推出的JPEG-D IP的速度针对不同的平台其速度变化从31M~69M,同年4I2I[4]公司推出的JPEG-D的最大速率为40M,从速度可以看出本设计达到了实时解码的要求。
' x, i8 [7 w" s% t8 a0 ]0 g: v* I
# Q' }; }6 t; x& N* Y9 H# v( }% U" e
    将VHDL与C语言实现的JPEG解码器对图像解码产生的结果进行对比,从而可以判断解码正确与错误。通过结果对比,本设计结果完全正确。5 ^! L! ?' ]) C$ H2 y# ~# J6 _) w7 d
    本设计严格按照VLSI自顶向下设计的一般流程,首先进行C语言级建模[5],从而得到测试矢量和JPEG硬件解码器的总体架构;之后完成了各个顶层模块和子模块的接口定义;最后进行各个模块的VHDL实现。从结果可知达到了实时解码要求,并且节约了资源。
  b2 j* l- T  K8 f6 H* e
5 `7 G- ~+ o& Q7 Y8 a4 `6 _% D
参考文献) t/ n5 t4 c. R! p
[1] CCITT Rec.T.81(1992 E)104-105.$ q$ X4 P4 A) k6 @. B5 W7 }9 ]
[2] Chris.tophLoeffler,Adriaan.Ligtenberg.Practical  fast 1-D DCT algorithms with 11 multiplication.[J]IEEE 1989.988-990.9 P7 T" }6 N3 W+ m+ d9 a
[3] http://www.cast-inc.com.
, W8 y, b7 ~/ b4 r[4] http://www.4i42.com.
% m( y0 x: Y8 N- |7 l# D/ `$ m[5] http://www.smalleranimals.com/.
1 g" \- \& V8 u% x& T
 楼主| 发表于 2009-3-23 22:52 | 显示全部楼层
JPEG2000编解码芯片ADV202的原理及应用. ]% n% k; F5 T0 t6 B

9 O6 k* D1 L& K+ l1 D
) d: g1 A2 B4 N7 [' ?) y3 D  ADV202是AD公司最新推出的一款单片JPEG2000(ISO/IEC15444-1图像压缩标准)编解码芯片,是当今市场上少有的具有实时压缩和解压缩标准(SD)视频信号和高清晰度(HDTV)视频信号功能的芯片。该芯片带有一个灵活接口,适用于多种视频和静止图像格式。1 o6 Q/ M) v' ?3 Q
http://img.ddvip.com/2008_08/1218277391_ddvip_1555.gif; y) B( s) d+ d1 y, b( V7 U
  1 主要特点( c+ w/ I& o5 k& o  \
  ·视频和静止图像的完全单片JPEG2000压缩和解压解决方案;0 {0 M6 C2 M$ v
  ·专利的空间超效率回归滤波(SURF)技术使之具有低功耗和低成本的小波压缩;! ^7 }, i9 D. J5 r) F' `7 ~6 C
  ·支持最高6级的9/7和5/3小波变换;" {5 q( P1 y- G+ i( i) j
  ·可编程图块/图像尺寸,在3分量4:2:2隔行扫描中的宽度可达2048像素,单分量模式中的宽度可达4096像素;
. q) _, w% M3 @  J4 ?2 ]  ·最大图块/图像高度:4096像素;
6 P$ S" Z" b. s$ E  ·视频接口可直接支持ITU.R-BT656、SMPTE125M PAL/NTSC、SMPTE274M、SMPTE293M(525p)、ITU.R-BT1358(625p),以及不可逆模式最大输入速度为65Msps、可逆模式最大输入速度为40Msps的任何视频格式;
) S7 g( N' h5 _) G& G  ·两个或多个ADV202能组合满帧SMPTE274M HDTV(1080i)或SMPTE296M(720p);* J: @$ a9 c1 i6 j7 L' I
  ·灵活异步SRAM类型主机接口能无缝连接到大多数16/32位微控制器和ASIC;
4 e& Q% d6 [% l& }2 ~  ·速率为115MHz的产品采用12mm×12mm121引脚CSPBGA封装,速率为150MHz产品采用13mm×13mm 144引脚CSPBGA封装。2 z7 N& {2 g2 c& A0 Z+ a
  根据特殊的应用需求,ADV202可提供JPEG2000压缩所支持的不同标准,可提供原始的编码模块和特征数据输出,而JPEG2000编码流的产生和其它诸如位速率控制等的压缩过程则完全由主机软件来控制。另外,它也可以制作完整的、完全兼容的JPEG2000码流(j2c)以及jp2、jpx和mj2(运动JPEG2000)增强型格式的文件。
: |* P1 i/ s' \0 v' U% [5 hhttp://img.ddvip.com/2008_08/1218277392_ddvip_2119.gif( P! N( |2 a& P& ^% \2 B
  2 工作原理
/ [/ d, I7 G! z) v5 _  ADV202的内部功能框图如图所示,该芯片主要由像素接口、小波变换引擎、熵编解码器、嵌入式处理器、存储器系统和内部DMA引擎等组成。输入图像和像素数据输入像素接口,采样值则经过隔行扫描传输到小波变换引擎中。在小波引擎中,每个图块或帧将通过5/3或9/7滤波器分解成许多子带。生成的小波系数写入内部寄存器中。熵编解码器将图像数据编码为符合JPEG2000标准的数据。内部DMA引擎提供存储器之间的高带宽传输及各模块和存储器之间的高性能传输。
* ?  Z9 f" @0 y0 w' C$ X  2.1 小波变换引擎
' r' o& S" {/ h* l9 ^) B  由于ADV202内含基于AD专利SURF技术的专用小波变换处理器。因此,它可以对一个图块进行高达6级的小波分解。在编码方式中,小波变换处理器将对未压缩的采样值进行小波变换和量化,然后将所有频率子带的小波系数写到内部存储器中。这些子带进一步分解成大小由用户定义的编码块,在将小波系数写入内部存储器时,通常由小波变换处理器来组织小波系数。在解码方式中,小波系数从内部存储器中读出,以用来重新生成未压缩时的采样值。' p: |5 i  @% B# v
  2.2 熵编解码器
6 R) K) p% b% H* W  熵编解码器用来对小波系数的编码块进行背景建模和算术编码,同时可在压缩过程中计算最佳速率和失真性能所必需的失真度。由于熵编码过程在JPEG2000压缩工程中对计算要求最高,因此,ADV202内部提供了三个专用的硬件熵编解码器。" e6 @$ S% w' C) C# A! q. r
  2.3 嵌入式处理器) R0 f. m1 z0 t- w6 S8 `
  ADV202内嵌入了一个32位的RISC处理器,可用来配置、控制和管理其它专用硬件模块以及分解和产生JPEG2000视频流。RISC处理器具有每一个程序和数据存储器、中断控制器、标准总线接口及定时器计数器所对应的ROM和RAM。
& a) M( A/ c# |9 n1 S/ ?9 M' {: V  2.4 存储器系统% y) g6 i: r5 m7 A
  存储器系统的主要功能是管理小波变换的系数数据、暂时存放编码块的特征数据以及给JPEG2000码流提供临时的存储空间。另外还可用作嵌入式处理器的程序和数据存储器。  `& l7 @  Q7 _$ o. t
http://img.ddvip.com/2008_08/1218277393_ddvip_8736.gif
* J2 s# x  r! K) X  ^# d/ L5 h7 o  2.5 内部DMA引擎   内部DMA引擎可提供存储器之间的高带宽传输及各模块和存储器之间的高性能传输。这对于码流的分解和高速率数据的产生万为重要。4 [2 ^; y- j7 U+ A' N( H
  2.6 可配置FIFO模块+ i0 {. e3 o2 ]1 V% Y. s: i+ `
  内部FIFO用来给像素数据、编码流、特征数据或者其他辅助数据提供存储空间。它可以由主机接口在通常地址的读写周期中直接访问,也可以由外部主机DMA利用DREQ/DACK协议或专用硬件的握手机制来访问。每个FIFO都有一个可编程的门限值用来产生中断。
! Y8 f% X# Q7 Z* ~/ X  2.7 视频和主机接口
1 Y  c- x" \$ K  有多种模式可以用来配置ADV202的接口。设计人员可以同时使用VDATA总线和HDATA总线,也可以单独使用HDATA总线。6 t+ s, ~* e6 P5 E( X
  (1)视频接口(VDATA总线)
1 r9 b. _6 f& f8 x; y  G' l6 b  视频接口主要应用于未压缩像素数据和压缩数据分离的场合。例如用VDATA总线输入未压缩的数据,而通过HDATA总线输出压缩后的数据等。! m, F9 @9 S; m
  视频接口支持8、10、12位单一或多元格式,也支持双通道8、10、12位格式的视频和静止图像数据,还支持单通道输入模式下YcrCb格式的数字视频和双通道输入模式下Y和CrCb格式的数字视频信号,但YcrCb数据必须是4:2:2格式。VDATA总线可支持多种格式视频数据的输入输出,表1所列是其可支持的视频输入输出格式。" ]7 ~4 z6 B( R: i
  表1 视频输入输出模式
1 E6 K9 i; j7 p" [+ Q: P' C
视频模式描  述
EAV/SAV模式包含EAV/SAV编码的视频,YCrCb在单总线上隔行扫描
HVF模式H,V,F独立的视频信号,YCrCb在单总线上的隔行扫描
双通道模式包含EAV/SAV编码的视频,Y和YCrCb在独立的总线
原始视频模式用于静止图征和非标准视频
HDTV模式用于高于27MHz时钟信号的视频数据
  (2)主机接口(HDATA总线)
4 w5 X  F2 I  [9 Q) g  ADV202可以通过异步SRAM方式、DMA访问方式或码流方式直接和大多数主机处理器及ASIC相连接。ADV202提供有16位和32位控制总线及8、16和32位数据传输总线。主机接口用于配置、控制制控制功能以及传输压缩后的数据流,在某些格式中还可用作未压缩数据流的传输。主机接口要吧由并发的四个数据流及控制和状态通信所共享。输入主机接口的像素数据支持8、10、12、14和16位原始像素数据。它既可用作静止图像的输入输出,也可用作压缩后视频数据的输出。
' [8 P4 `; ^- Y2 B5 d3 }  3 典型应用
4 n5 t9 t7 k. a; Q: \. t  3.1 多片编码模式
2 `8 Y' Z* g" L0 w0 G3 p" @  由于输入数据速率的限制,一个1080i视频信号的应用系统至少需要两片ADV202,来对完全分辨率为1080i的视频信号进行编码或解码。图2所示为它的编码模式,Y数据和CbCr数据通过不同的总线输入到ADV202,其中AD202_1处理1080i视频信号的亮度数据,而ADV202_2则用于处理1080i视频信号的色度数据。为了对此应用模式下对应的输出数据进行同步,其输入数据必须是EAV/SAV编码格式。此模式通常应用于ADV202的视频输出直接连到需要亮度和色度数据同步的接收设备中。
- E* p) @8 o( u8 J4 ?  多片模式也可以应用于主/从或从/从配置中的解码模式。而在编码模式中,ADV202通常用作从设备。为了使获取的1080i视频信号具有更好的特性(如无损压缩),建议选用三片或三片以上的ADV202来处理信号。8 Y6 `+ y; A4 w: s. U
  3.2 HPII(主机接口-像素接口)解码模式& [5 [4 H* l4 V+ y. X# V( |
  ADV202允许通过HDATA总线来输入输出视频和静止图像,而不用VDATA总线提供的专用视频接口,这种模式称为HIPI模式。% c( |2 j: W& e
  图3所示为ADV202用于HIPI解码模式的电路连接,像素数据由HDATA1[31:1]输出。DMA通道1用来输入压缩数据,而DMA通道0则用于将像素数据写到像素FIFO中。DREQ0/DACK0用来控制通道0的读写过程,而DREQ1/DACK1用来控制通道1的读写过程
 楼主| 发表于 2009-3-23 23:05 | 显示全部楼层
用verilog  写的JPGE的代码

fpga-jpeg.rar

101.38 KB, 下载次数: 465, 下载积分: 一乐金币 -1

本版积分规则

QQ|一淘宝店|手机版|商店|电子DIY套件|一乐电子 ( 粤ICP备09076165号 ) 公安备案粤公网安备 44522102000183号

GMT+8, 2025-4-28 21:40 , Processed in 0.048154 second(s), 27 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表