WEKO3
アイテム
LSTMアクセラレータの行列刈り込みによる軽量化
http://hdl.handle.net/10076/0002000665
http://hdl.handle.net/10076/0002000665b5159eaa-2144-4375-a5cf-de321aa337ac
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2024-04-10 | |||||||
タイトル | ||||||||
タイトル | LSTMアクセラレータの行列刈り込みによる軽量化 | |||||||
言語 | ja | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||||
資源タイプ | thesis | |||||||
著者 |
岡, 大智
× 岡, 大智
|
|||||||
抄録 | ||||||||
内容記述タイプ | Abstract | |||||||
内容記述 | 長・短期記憶(Long Short-Term Memory: LSTM) は,回帰型ニューラルネットワーク(Recurrent Neural Network: RNN) アーキテクチャの一種で,時系列データを学習することができる.近年ではFPGA によるLSTM モジュールの設計例もあり,CPU と比較して同等の処理を高速に実行できる.しかし,ハードウェアリソースが少ないFPGA の場合,実装可能なLSTM モジュールのサイズが限られてしまう. 本研究ではFPGAを搭載したより軽量な組み込み機器用のLSTM アクセラレータを設計し,ハードウェアリソースおよび速度を評価する. FPGA 設計に際してハードウェア資源と処理速度の点で最適化手法を取り入れる.LSTM モジュールの計算を考慮した行列積の変形によりメモリの使用量を減らすと同時に処理の高速化を図る.回路規模を小さくするためにLSTM モジュールの計算に必要な各パラメータの量子化と活性化関数の区分線形近似を行う.処理の高速化を目的に演算の一部並列化およびパイプライン化を行う. CPU とFPGA を搭載したTUL 社のPYNQ-Z2 を使用し,隠れ層の次元数100 の1 層LSTM で性能評価を行った.本研究では各最適化手法によるハードウェアリソースや実行時間の使用量の変化を比較した.また,最適化により生じたモデルの精度低下をパープレキシティを用いて評価した.実験により,最適化前と比較してより軽量なLSTM アクセラレータの設計を達成し,最適化前と比較して約122.0 倍,CPU と比較して最大約4.1 倍の高速化が示された.一方,パープレキシティの増加が確認されたため,誤差を低減するための最適化手法の改善が必要となる. |
|||||||
言語 | ja | |||||||
抄録 | ||||||||
内容記述タイプ | Abstract | |||||||
内容記述 | Long Short-Term Memory (LSTM) is one of the Recurrent Neural Network (RNN) architectures, which can learn time-series data. In recent years, some researchers have designed LSTM modules using FPGAs, which can sometimes outperform CPUs in terms of speed. However, in the case of FPGAs with limited hardware resources, the size of the LSTM module is limited. In this paper, we implement an FPGA-based LSTM accelerator and evaluate hardware resources and run time. In Designing for the FPGA, we optimized hardware resources and processing speed. By pruning the weight considering the LSTM algorithm, the computation cost is reduced. To save hardware resources, we implemented quantization of the parameters and piecewise linear approximation of the activation functions. To speed up processing, LSTM operations are parallelized and pipelined. We evaluated the efficiency of the accelerator using a one-layer LSTM with 100 hidden layer dimensions using a Xilinx PYNQ-Z2 board which equips the CPU and the FPGA. We compared the hardware resource and runtime usage of each optimization method. We also evaluated the model accuracy degradation caused by optimization using perplexity. In the experiments, the LSTM accelerator is lightweight, the computation is 122.0x faster compared to non-optimized FPGA, and 4.1x faster compared to the CPU. On the other hand, since an increase in perplexity was observed, the optimization method needs to be improved to reduce the error. |
|||||||
言語 | en | |||||||
内容記述 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | application/pdf | |||||||
内容記述 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 34p | |||||||
書誌情報 |
発行日 2024-03 |
|||||||
フォーマット | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | application/pdf | |||||||
著者版フラグ | ||||||||
出版タイプ | VoR | |||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||
出版者 | ||||||||
出版者 | 三重大学 | |||||||
出版者(ヨミ) | ||||||||
ミエダイガク | ||||||||
修士論文指導教員 | ||||||||
姓名 | 高木, 一義 | |||||||
言語 | ja | |||||||
資源タイプ(三重大) | ||||||||
Master's Thesis / 修士論文 |