TMS320C5409實現JPEG圖像壓縮系統設計

2011年11月11日10:37:32 本網站我要評論(2)字號：T | T | T

　　引言

　　隨著多媒體和網絡技術的發展，數字圖像大信息量的特點對圖像壓縮技術的要求越來越高，因此，專用高速數字信息處理技術成為發展的方向。TI推出的C5000系列DSP將數字信號處理器使信號處理系統的研究重點又回到軟件算法上。在壓縮算法研究方面，DCT、小波等多個算法因為其高可靠性和高效性也越來越受到青睞。

　　系統硬件設計

　　TMS320C5409作為主處理器的可行性分析

　　TMS320C5409時鐘頻率為100MHz，性價比極高。采用圍繞1組程序總線、3組數據總線和4組地址總線建立的改進型哈佛結構，取址和讀數可同時進行。有獨立的硬件乘法器，有利于實現優化卷積、數字濾波、FFT、矩陣運算等算法中的大量重復乘法運算。具有循環尋址、位倒序等特殊指令，這些指令使FFT、卷積等運算中的尋址、排序及計算速度大大提高。有一組或多組獨立的DMA總線，與CPU的程序、數據總線并行工作。

　　在本系統中，TMS320C5409作為主處理器，任務是實現JPEG壓縮編碼。

　　通過分析不難得到，當處理一幀大小為640×480的圖像時，作JPEG壓縮編碼所需要的時間為：T=62×10(ns)×640×480=0.19866s，當所處理的圖像分辨率更小時，則壓縮每幀所花的時間更少，這對于應用在對實時性要求不是很高的場合是完全可行的。

　　硬件設計框圖

　　圖1是基于TMS320C5409的圖像處理系統結構圖。C5409為中央處理器，SRAM為DSP片外擴展數據存儲器，EEPROM為脫機工作時的程序存儲器，用于存儲系統的引導程序和其它應用程序，A/D轉換部分負責把轉換為數字信號的圖像存入幀存儲器中。地址譯碼、圖像采集系統控制電路產生本系統各部分的地址譯碼信號，使之映射到不同的地址區域，并控制ADC進行圖像采集，這部分由CPLD控制;圖像采集芯片的寄存器控制由51單片機完成。

　　存儲空間的擴展方案

　　經過A/D轉換的原始圖像數據是非常大的，TMS320C5409的內部僅有32KB的RAM和16KB的ROM，不能滿足需要，因此，必須擴展存儲器來存放原始圖像數據和應用程序。本文考慮外接64KB的RAM和512KB的Flash，RAM使用Cypress公司的CY7C1021V33，Flash采用SST公司的SST39VF512。由于C5409的數據空間僅為64KB，因此采用內存頁擴展技術。C5409的擴展輸出口1Q和2Q作為擴展內存的頁選擇信號。用C5409的A15引腳和XF引腳通過3/8譯碼器來控制擴展存儲器片選信號的產生，當A15=0時，選擇片內RAM;當A15=1，XF=0時選擇片外SRAM;當A15=1，XF=1時選擇片外Flash;存儲器的擴展如圖2所示。將外部擴展RAM的64KB中的48KB用于存放原始圖像數據，16KB用于存放壓縮后的圖像和程序以及暫存的數據。

存儲器的擴展圖 src="http://files.chinaaet.com/images/20110823/fef6a76f-164e-4fe9-adb4-bb454f2ed7ae.jpg" _cke_saved_src="http://files.chinaaet.com/images/20110823/fef6a76f-164e-4fe9-adb4-bb454f2ed7ae.jpg" width=260>

　　DSP芯片電源電路設計

　　電源設計中需要考慮的主要問題是功率和散熱。功率要求：電流的消耗主要取決于器件的激活度，即CPU的激活度，外設功耗主要取決于正在工作的外設及其速度，與CPU相比，外設功耗是比較小的。以TMS320C5409為例，進行FFT運算時，需要的電源電流較大。因此在設計電源時，必須考慮在電源電流和實際需用電流之間留有一定裕量，因為峰值電流會更大，裕量至少是20%。

　　C5409采用了雙電源供電機制，工作電壓為3.3V和1.8V。其中，1.8V主要為DSP的內部邏輯提供電壓，包括CPU和其它所有外設邏輯。外部接口引腳采用3.3V電壓。本系統的電源采用了TI公司的兩路輸出電源芯片TPS73HD318，它是一種雙輸出穩壓器。輸出電壓一路為3.3V、一路為1.8V，每路電源的較大輸出電流為750mA。

　　JPEG圖像壓縮算法

　　JPEG算法的優化

　　盡管JPEG基本系統能夠對圖像進行低壓縮比壓縮，但是DCT和IDCT在軟件實現的過程中，是較耗費時間的運算，而且，由于沒有考慮圖像本身的頻譜特性，JPEG量化表對于所有圖像壓縮并不一定較優。采用快速DCT算法可提高軟件的速度，增強軟件的實時性。同時，根據圖像本身的頻譜特性，自適應改進JPEG推薦的量化表。

　　快速DET算法

　　如果將一幅圖像分成許多8×8的小塊后直接進行2D—DCT變換，運算量將會十分巨大。因此，需要將8×8二維DCT變換轉換成兩次8點的一維DCT復合運算。具體做法是對每一個8×8塊先做列方向上的DCT變換，得到一個中間矩陣，再對該矩陣各行進行DCT變換。可以看到，8×8矩陣的2維DCT可以轉換成16次一維8點DCT。

　　目前，很多針對一維DCT運算的DCT快速算法已經提出。其中，Loeffler算法所需要的計算量較小。Loeffler算法將8點一維DCT運算分為4級，由于各級之間的輸入/輸出存在依存關系，4級操作必須串行進行，而各級內部的運算可并行處理。

　　流程圖中有三種運算因子：蝶形因子、旋轉因子和倍乘因子，分別如圖3中的a，b，c所示。蝶形因子的運算關系為：

　　D0=I0+I1

　　O1=I0-I1

　　需要2次加法完成，倍乘因子的輸入/輸出關系比較簡單：，只需1次乘法，旋轉因子的運算關系為：

　　需4次乘法、2次加法完成。如果對其輸入/輸出關系式做以下變換：

　　只需要3次乘法、3次加法。其中,

　　和差都是已知系數，可通過查表獲得。

　　由此計算可知，一個8點DCT的Loeffler算法共需要11次乘法和29次加法。從DSP匯編語言編程的角度來看，一個代數運算應包括取操作數、運算、存操作數三個步驟。因此，該算法大約需要120條指令。C5409的運算能力很強，支持單周期加/減法和單周期乘法運算，并且能夠在單周期內完成兩個16位數的加/減法運算，再加上DSP中有3組數據總線，因而可以利用長操作數(32位)進行長字運算。在長字指令中，給出的地址存取的總是高16位操作數，因而只需5條長字指令即可計算2個蝶形運算。加上采取其它優化措施，大約需90條指令完成Loeffler算法。

　　雖然Loeffler算法運算量較小，但是運用于本文系統并不是較優。因為該算法是為高級語言設計，沒有利用匯編語言的特點和DSP硬件的特點。本文提出了基于DSP乘法累加單元的DCT快速算法。

　　DSP的乘法累加單元能在單周期內完成一次乘法和一次累加運算。如匯編指令運用于DCT運算，將大大簡化程序的復雜度并減少計算時間。具體算法如下，利用蝶形運算：

　　從上面表達式可以看出，y(0)-y(7)都是乘法累加運算，而s0-s7可由x(0)一x(7)經過蝶形運算得到，因此，DCT算法由原來的4級運算變成兩級，即第一級蝶形運算和第二級乘法累加運算，第一級蝶形運算共要10+4=14(10次計算操作和4次輔助操作)條指令，第二級運算中，每個輸出要4+1+1=6條指令(做4次乘法累加運算、1次讀取操作和1次存儲操作)，一共48條指令，這樣，計算一個8點DCT要62條指令，大大縮減了運算時間，提高了CPU的工作效率，增強系統的實時性。

　　量化運算優化

　　本文提出了基于實際情況的自適應量化方法，即量化階段采用二次計算的方法，其算法主要分為兩步：(1)對變換后的圖像系數進行自適應處理;(2)構造新的量化表。具體方法如下：

　　首先求出亮度分量和兩個色度分量在頻域中所有8×8子塊的63個交流系數絕對值的平均值P(u，v)，其中，u，v=0…7為位置信息。接下來求出163個交流系數平均值中的較大值，Z1(u，v)=MAX[P1(u，v)]，較后將63個交流系數平均值進行歸一化處理，同時加入頻率位置信息，分別得出亮度和色度量化表中63個交流分量的矯正系數，計算過程為：

　　由此可以得到量化表的矯正式Qpl(u，v)=Q1(u，v)/X1(u，v)，對JPEG量化表進行矯正。

　　將上述矯正后的量化表作為較終的量化表，對圖像進行標準JPEG壓縮，形成完全符合JPEG格式的壓縮文件。本算法的解碼過程與標準.JPEG解碼過程完全相同，可以看出它也是標準.IPEG編碼過程的逆過程。

　　實驗結果

　　快速DCT運算

　　將本文提出的算法、Loeffler的DSP優化算法和純Loeffler算法分別進行測試。結果見表1，可以看到本文算法較Loeffler的DSP優化算法大約節省了1/4的時間，較純Loeffler算法大約節省了一半時間，其效果是十分明顯的。

　　自適應量化

　　對自適應量化器進行仿真。本文采用中等復雜度的標準圖像作為測試圖，與基本JPEG系統進行性能比較(基于峰值信噪比(PSNR))。只將JPEG標準方法中的量化表更改為修正的

亚洲精品影院一区二区-亚洲精品永久一区-亚洲精品中文一区不卡-亚洲精品中文字幕久久久久久-国产亚洲精品aaa大片-国产亚洲精品成人a在线

TMS320C5409實現JPEG圖像壓縮系統設計

相關閱讀: