SlideShare a Scribd company logo
FPGAのトレンドをなんとなく
まとめてみた
みよしたけふみ
!
2014.05.13
1
勝手な予想の概略
14nm→10nm→7nmの微細化で14nmが安価に
使用可能なロジック数やBRAMは現状のx2+を期待
最高動作周波数は1.15∼1.6倍 (= 1GHz+)
消費電力削減(処理性能/WはCPU比 ∼10,000倍)
高速通信のサポート
オフチップ通信: 28Gbps - 56Gbps
メモリアクセス: HMC(2.5Tbps), DDR4(1.3Tbps)
DSPの増強
単精度10TFLOPS,100GFLOPS/W
プロセッサユニットとの密な連携
ARM 1.5GHz Quadコアとか
2
2014年
4月
次
世
代
デバイ
ス
に
搭
載
予
定
の
14nmテス
ト
チ
ップ
の
デ
モ
*1 だ
そ
う
な
の
で,
あ
と
5, 6年
後
く
ら
い
に
手
が
でる
く
ら
い
の
スペ
ッ
ク
は
こ
ん
な
か
な
あ
?
と
想
像
*1) http://www.altera.co.jp/corporate/news_room/releases/2014/products/nr-14nm-device.html
主な参考資料
数値はAltera/Xilinxの次世代デバイスポートフォリオを参考
Altera Generation 10 FPGA & SoC         
http://www.altera.co.jp/technology/system-tech/next-gen-technologies.html
Xilinx UltraScaleアーキテクチャ            
http://japan.xilinx.com/products/technology/ultrascale.html
!
!
!
FPGA2012 併設ワークショップ FPGA in 2032      
http://tcfpga.org/fpga2012/
3
2014年4月 次世代デバイスに搭載予定の14nmテストチップのデモ*1	

→ あと5, 6年後くらいには,手がでるくらいかなあ?
これらの話に対して,今日までの動きに大きな乖離はない
以降,参考資料からの抜粋
現代FPGAの向いている基本的な方向
4
出典: Ivo Bolsens, "Programming Modern FPGAs", MPSOC, 2006年8月, http://www.mpsoc-forum.org/previous/2006/slides/Bolsens.pdf
MPSOC 2006 slide 10
Xilinx Strategic Directions
APPS
New
Existing
Markets
Glue Logic
• Network Infrastructure
• Computing Infrastructure
• Industrial, medical
• Military
Existing
Time
Algorithmic Logic
• Consumer Electronics
• Automotive
• Portable
New
Embedded Processor
Gb Transceivers
DSP
Integration
Hard IP
System Tools
Cost
Power
Quality
次世代FPGAのターゲットエリア
5
UltraScale :
UltraScale
( 1 )
UltraScale
1 :
OTN
Networking
Massive
Packet Processing
>400 Gb/s Wire-Speed
Massive
Data Flow
>>5 Tb/s
Massive
I/O and Memory Bandwidth
>5 Tb/s
Massive
DSP Performance
>7 TMACs
400 Gb/s
100 Gb/s
1Tb/s
Digital Video
4k/2k
1080P
8K
Wireless
Communications
LTE
3G
LTE-A
Radar
Active
Element
Passive
Array
Digital
Array
UltraScale
Architecture
Requirements
Smarter
Applications
WP435_01_070213
Xilinxの次世代FPGA
出典: Xilinx, "ホワイトペーパー:UltraScale アーキテクチャ WP435(v1.0)" 2013年7月8日
次世代Stratix10と今のFPGAとの比較
6
1 Stratix 10 6 72 DDR4 SDRAM
3.2 Gbps 1.382 Tbps
1 Stratix V FPGA Stratix 10 FPGA
2
FPGA & SoC
Arria® 10 FPGA & SoC Generation 10
FPGA
5 Arria 10 Arria V FPGA
1. Stratix V FPGA Stratix 10
Stratix V
FPGA
Stratix 10
1,000 K LEs 4,000 K LEs 4x
Tera FLOPS 1 10+ 10X+
500 MHz 1 GHz+ 2X
28 Gbps 56 Gbps 2X
DDR 1,866 Mbps 3,200 Mbps 1.7X
2 Stratix 10 FPGA & SoC
出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月
シリコンロードマップ
7
Silicon Roadmap
Courtesy : IMEC
Copyright 2012 Xilinx
出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日	

http://tcfpga.org/fpga2012/IvoBolsens.pdf
ムーア則によると2020年はこの辺り
プロセスとSRAM bit cell size
8
出典 Zvi Or-Bach, "28nm – The Last Node of Moore's Law", 2014年3月19日, http://www.eetimes.com/author.asp?doc_id=1321536
28nmプロセス(現行のFPGAで採用されている)では0.127um2程度なので,	

微細化しても作れるSRAM(≒ロジックセル,メモリ)は2倍∼2.5倍程度と予想
ゲート規模の推移(+予測)
9
出典: 船田悟史,"FPGAの応用領域が拡大,ビッグ・データや金融取引,Webデータ処理のインフラ技術に", 	

TechVillage, 2013年3月22日, http://www.kumikomi.net/archives/2013/03/co16fpga.php
FPGAの使い方
10
CPUs vs. Stream Processing
6
2020年も変わらず,データフローの展開と考えられる
出典 Michael J. Flynn, "Using FPGAs for HPC* acceleration: now and in 20 years", FPGAs in 2032: Challenges and Opportunities in the next 20 years,	

2012年2月22日 http://tcfpga.org/fpga2012/MichaelFlynn.pdf
FPGAがはまる適用事例での性能向上
11
Achieved Computational Speedup for the entire
application (not just kernel) compared to Intel server
RTM with Chevron
VTI 19x and TTI 25x
Sparse Matrix
20-40x
Seismic Trace Processing
24x
Lattice Boltzman
Fluid Flow 30x
Conjugate Gradient Opt 26xCredit 32x and Rates 26x
624
624
9
ビッグデータ処理でも,うまくはまれば10倍以上の性能向上が期待できる
出典 Michael J. Flynn, "Using FPGAs for HPC* acceleration: now and in 20 years", FPGAs in 2032: Challenges and Opportunities in the next 20 years,	

2012年2月22日 http://tcfpga.org/fpga2012/MichaelFlynn.pdf
新しいFPGA開発処理系の進歩に期待!?
高位合成
C言語ベース,関数型言語系(Bluespec)
OpenCL
MaxCompiler(JavaでDFMを作る)
ドメイン特化型
SQLをロジックに変換するなど
12
などなど
アプリケーションの実装が,もう少しは楽になるのでは,と期待
デザインツールの必要性
13
Need for Design Tools
13
Hour Day Week Month
0.25
1
Year
4
16
64
256
Initial Design
Relative
Performance
Design-time
CPU
GPU
FPGA
Gap
Courtesy : David Thomas
Copyright 2012 Xilinx
とりあえずの実装(Initial Design)に時間かかりすぎだし,性能でないし…
出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日	

http://tcfpga.org/fpga2012/IvoBolsens.pdf
FPGAのヘテロジニアスプロセッサ化
14
The Programmable Processing Platform
A heterogeneous multicore
Application processors
– Hard core and soft core
– External and embedded
– Caches and large memory space
– Unified shared memory
– Full OS support
Streaming micro-engines
– Configurable (soft) vector cores
– Tiny memory footprint
– Many, distributed, memories
– Compute kernels, no OS
Fixed function datapaths
– C to Gates generated
– HDL coded
– Library IP component
DDR3
MemCon
Interconnect A
SMP
CPU
X86 CPUDSP
High speed
I/O
FPGAs provide a rich set of mapping options for complex algorithms and
communication patterns
Discrete
GPU
Micro-
Engine
Array
HW
Datapaths
Interconnect B
FPGA
Copyright 2012 Xilinx
出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日	

http://tcfpga.org/fpga2012/IvoBolsens.pdf
XilinxもAlteraもCPU混在にするのが今のトレンド→SW/HW混在アプリも
高速トランシーバは専用HWとして搭載
PCIe
DDR4メモリコントローラ
100Gbps EMAC
光トランシーバ
15
などなど
ASICと 色ない足回りを活用したロジックが実現できる…といいなあ
FPGA内部のメモリバンド幅(対CPU)
16
MPSOC 2006 slide 19
Memory Bandwidth Envelope
Intel; Xilinx
0
200
400
600
800
1000
0 50 100 150 200 250 300
B andwidt h ( Tbps)
Memory(KB)
4VLX200
2V6000
3.5GHz P5
• Bandwidth to Registers: 500x that of a processor registerfile
• Bandwidth to LUTrams: 50x that of L1 cache of processor
• Bandwidth to BRAMS: 5x that of L1 to L2 cache of a processor
REGISTERS
LUT-RAM
BRAM
出典: Ivo Bolsens, "Programming Modern FPGAs", MPSOC, 2006年8月, http://www.mpsoc-forum.org/previous/2006/slides/Bolsens.pdf
少し古い資料ですが
FPGA
電力効率
17
17
Stratix 10 FPGA & SoC
Stratix 10 FPGA & SoC 14nm
FPGA
13 Stratix 10 Stratix V FPGA
Stratix V Stratix
10 55 %
70 %
14 Stratix 10 Arria 10
Stratix 10 Arria 10
Arria 10 Stratix 10 Stratix V
40 50 % Arria 10
13 Stratix V FPGA Stratix 10
Stratix V
標準デバイス
Stratix 10
標準デバイス
Stratix 10
消費電力削減技法を
使用
1.0
0.8
0.6
0.4
0.2
0.0
消費電力
(Stratix V デバイスを
1 に設定)
最大
55 %
削減
最大
70 %
削減
出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月
Waterman FPGA CPU GPU
(15) 6 OpenCL
FPGA
1 OpenCL OpenCL Apple Inc. Khronos
7 FPGA (Stratix V )
GPU 148
7 Arria 10 Stratix 10 FPGA Smith-Waterman
GPU Arria 10 FPGA
18 200 Stratix 10 FPGA
GPU 660
FPGA SoC
OpenCL
C FPGA CPU GPU DSP
6. Smith-Waterman 3
( ) = (256, 15M)
(MCUPS) ( ) (MCUPS )
Intel® Xeon® Quad- 40 140 0.29
NVIDIA GT620 438 50 8.76
Stratix V A7 FPGA 32,596 25 1,303
7. Arria 10 & Stratix 10 Smith-Waterman
( ) = (256, 15M)
(MCUPS) ( ) (MCUPS )
Arria 10 >35,000 18 >1,900
Stratix 10 >70,000 12 >5,800
現状でもCPU,GPUと比較して高い電力効率
次世代ではさらに,電力効率の向上が期待できる
約4000倍
次世代デバイスにおける電力効率の見積もり
18
ICT
FPGA SoC
8 ICT
Generation 10
FPGA SoC ICT
8. ICT FPGA SoC
Generation 10
Arria 10
GPU 148
100G OTN 40 %
60 MHz
(RRH)
20W
500 MHz
Stratix 10
GPU 200
100G OTN 65 %
60 MHz
(RRH)
20W
736 MHz
出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月

More Related Content

PDF
Zynq mp勉強会資料
PDF
Tensor flow usergroup 2016 (公開版)
PPTX
研究者のための Python による FPGA 入門
PDF
Gpu vs fpga
PDF
Rust で RTOS を考える
PDF
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
PDF
ARM Trusted FirmwareのBL31を単体で使う!
PDF
CUDAプログラミング入門
Zynq mp勉強会資料
Tensor flow usergroup 2016 (公開版)
研究者のための Python による FPGA 入門
Gpu vs fpga
Rust で RTOS を考える
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ARM Trusted FirmwareのBL31を単体で使う!
CUDAプログラミング入門

What's hot (20)

PDF
Ethernetの受信処理
PPTX
DockerコンテナでGitを使う
PDF
C/C++プログラマのための開発ツール
PDF
大規模サービスを支えるネットワークインフラの全貌
PDF
10GbE時代のネットワークI/O高速化
PDF
FPGAによる大規模データ処理の高速化
PDF
ChatGPTは思ったほど賢くない
PDF
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
PPTX
Microsemi FPGA はいいぞ,FPGAの紹介とおさそい
PDF
[DL輪読会]Relational inductive biases, deep learning, and graph networks
PPTX
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
PDF
Scapyで作る・解析するパケット
PDF
TensorFlow計算グラフ最適化処理
PPTX
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(基礎編)配布用
PPTX
M5StackをRustで動かす
PDF
いまさら聞けないarmを使ったNEONの基礎と活用事例
PDF
Parser combinatorってなんなのさ
PPTX
C#や.NET Frameworkがやっていること
PDF
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
PDF
100PBを越えるデータプラットフォームの実情
Ethernetの受信処理
DockerコンテナでGitを使う
C/C++プログラマのための開発ツール
大規模サービスを支えるネットワークインフラの全貌
10GbE時代のネットワークI/O高速化
FPGAによる大規模データ処理の高速化
ChatGPTは思ったほど賢くない
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
Microsemi FPGA はいいぞ,FPGAの紹介とおさそい
[DL輪読会]Relational inductive biases, deep learning, and graph networks
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
Scapyで作る・解析するパケット
TensorFlow計算グラフ最適化処理
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(基礎編)配布用
M5StackをRustで動かす
いまさら聞けないarmを使ったNEONの基礎と活用事例
Parser combinatorってなんなのさ
C#や.NET Frameworkがやっていること
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
100PBを越えるデータプラットフォームの実情
Ad

Viewers also liked (20)

PDF
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
PPTX
$30で始めるFPGA
PDF
ソフトウェア技術者はFPGAをどのように使うか
PDF
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
PPTX
FPGAことはじめ
PPTX
Zynq + Vivado HLS入門
PDF
増え続ける情報に対応するためのFPGA基礎知識
PDF
IkaLog20170316pynq_dist
PDF
IkaLog: Data Collector for Splatoon and Machine Learning
PPTX
Cortex-M0プロセッサから自作して Lチカをやってみた
PDF
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
PDF
cocos2d-x で PlugAir を 使えるようにしてみた
PPTX
Polyphony: Python ではじめる FPGA
PDF
Klabの梅雨対策
PDF
Beatroboでのハードウェアプロトタイピング
PPTX
集積回路が真の道具になるために
PPTX
電子回路の民主化とその実践
PDF
Golang, make and robotics #gocon
PDF
2017年のFPGA Community活動について
PDF
ゆるふわコンピュータ (IPSJ-ONE2017)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
$30で始めるFPGA
ソフトウェア技術者はFPGAをどのように使うか
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAことはじめ
Zynq + Vivado HLS入門
増え続ける情報に対応するためのFPGA基礎知識
IkaLog20170316pynq_dist
IkaLog: Data Collector for Splatoon and Machine Learning
Cortex-M0プロセッサから自作して Lチカをやってみた
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
cocos2d-x で PlugAir を 使えるようにしてみた
Polyphony: Python ではじめる FPGA
Klabの梅雨対策
Beatroboでのハードウェアプロトタイピング
集積回路が真の道具になるために
電子回路の民主化とその実践
Golang, make and robotics #gocon
2017年のFPGA Community活動について
ゆるふわコンピュータ (IPSJ-ONE2017)
Ad

Similar to FPGAのトレンドをまとめてみた (20)

PPTX
Abstracts of FPGA2017 papers (Temporary Version)
PDF
FPGA・リコンフィギャラブルシステム研究の最新動向
PDF
ICD/CPSY 201412
PDF
ACRi_webinar_20220118_miyo
PDF
[DL Hacks]FPGA入門
PDF
第11回ACRiウェビナー_インテル/竹村様ご講演資料
PPTX
FPGAって、何?
PDF
ACRi panel_discussion_xilinx_hayashida_rev1.0
PDF
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
PDF
CMD2021 f01 xilinx_20210921_r1.1
PDF
FPGAを用いたEdge AIの現状
PDF
FPGAスタートアップ資料
PPTX
Myoshimi extreme
PPT
20140310 fpgax
PPTX
機械学習 / Deep Learning 大全 (4) GPU編
PDF
Reconf_201409
PDF
20220525_kobayashi.pdf
PDF
Reconf 201506
PDF
インテルが考える次世代ファブリック
PDF
藤枝先生ご講演資料_20210824_de10
Abstracts of FPGA2017 papers (Temporary Version)
FPGA・リコンフィギャラブルシステム研究の最新動向
ICD/CPSY 201412
ACRi_webinar_20220118_miyo
[DL Hacks]FPGA入門
第11回ACRiウェビナー_インテル/竹村様ご講演資料
FPGAって、何?
ACRi panel_discussion_xilinx_hayashida_rev1.0
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
CMD2021 f01 xilinx_20210921_r1.1
FPGAを用いたEdge AIの現状
FPGAスタートアップ資料
Myoshimi extreme
20140310 fpgax
機械学習 / Deep Learning 大全 (4) GPU編
Reconf_201409
20220525_kobayashi.pdf
Reconf 201506
インテルが考える次世代ファブリック
藤枝先生ご講演資料_20210824_de10

More from Takefumi MIYOSHI (20)

PDF
DAS_202109
PDF
ACRiルーム1年間の活動と 新たな取り組み
PDF
RISC-V introduction for SIG SDR in CQ 2019.07.29
PDF
Misc for edge_devices_with_fpga
PDF
Cq off 20190718
PDF
Synthesijer - HLS frineds 20190511
PDF
Reconf 201901
PDF
Hls friends 201803.key
PDF
Hls friends 20161122.key
PDF
Synthesijer and Synthesijer.Scala in HLS-friends 201512
PDF
PDF
Microblaze loader
PDF
Synthesijer jjug 201504_01
PDF
Synthesijer zynq qs_20150316
PDF
Synthesijer fpgax 20150201
PDF
Synthesijer hls 20150116
PDF
Synthesijer.Scala (PROSYM 2015)
PDF
Vyatta 201310
PDF
Fpgax 20130830
DAS_202109
ACRiルーム1年間の活動と 新たな取り組み
RISC-V introduction for SIG SDR in CQ 2019.07.29
Misc for edge_devices_with_fpga
Cq off 20190718
Synthesijer - HLS frineds 20190511
Reconf 201901
Hls friends 201803.key
Hls friends 20161122.key
Synthesijer and Synthesijer.Scala in HLS-friends 201512
Microblaze loader
Synthesijer jjug 201504_01
Synthesijer zynq qs_20150316
Synthesijer fpgax 20150201
Synthesijer hls 20150116
Synthesijer.Scala (PROSYM 2015)
Vyatta 201310
Fpgax 20130830

FPGAのトレンドをまとめてみた

  • 2. 勝手な予想の概略 14nm→10nm→7nmの微細化で14nmが安価に 使用可能なロジック数やBRAMは現状のx2+を期待 最高動作周波数は1.15∼1.6倍 (= 1GHz+) 消費電力削減(処理性能/WはCPU比 ∼10,000倍) 高速通信のサポート オフチップ通信: 28Gbps - 56Gbps メモリアクセス: HMC(2.5Tbps), DDR4(1.3Tbps) DSPの増強 単精度10TFLOPS,100GFLOPS/W プロセッサユニットとの密な連携 ARM 1.5GHz Quadコアとか 2 2014年 4月 次 世 代 デバイ ス に 搭 載 予 定 の 14nmテス ト チ ップ の デ モ *1 だ そ う な の で, あ と 5, 6年 後 く ら い に 手 が でる く ら い の スペ ッ ク は こ ん な か な あ ? と 想 像 *1) http://www.altera.co.jp/corporate/news_room/releases/2014/products/nr-14nm-device.html
  • 3. 主な参考資料 数値はAltera/Xilinxの次世代デバイスポートフォリオを参考 Altera Generation 10 FPGA & SoC          http://www.altera.co.jp/technology/system-tech/next-gen-technologies.html Xilinx UltraScaleアーキテクチャ             http://japan.xilinx.com/products/technology/ultrascale.html ! ! ! FPGA2012 併設ワークショップ FPGA in 2032       http://tcfpga.org/fpga2012/ 3 2014年4月 次世代デバイスに搭載予定の14nmテストチップのデモ*1 → あと5, 6年後くらいには,手がでるくらいかなあ? これらの話に対して,今日までの動きに大きな乖離はない 以降,参考資料からの抜粋
  • 4. 現代FPGAの向いている基本的な方向 4 出典: Ivo Bolsens, "Programming Modern FPGAs", MPSOC, 2006年8月, http://www.mpsoc-forum.org/previous/2006/slides/Bolsens.pdf MPSOC 2006 slide 10 Xilinx Strategic Directions APPS New Existing Markets Glue Logic • Network Infrastructure • Computing Infrastructure • Industrial, medical • Military Existing Time Algorithmic Logic • Consumer Electronics • Automotive • Portable New Embedded Processor Gb Transceivers DSP Integration Hard IP System Tools Cost Power Quality
  • 5. 次世代FPGAのターゲットエリア 5 UltraScale : UltraScale ( 1 ) UltraScale 1 : OTN Networking Massive Packet Processing >400 Gb/s Wire-Speed Massive Data Flow >>5 Tb/s Massive I/O and Memory Bandwidth >5 Tb/s Massive DSP Performance >7 TMACs 400 Gb/s 100 Gb/s 1Tb/s Digital Video 4k/2k 1080P 8K Wireless Communications LTE 3G LTE-A Radar Active Element Passive Array Digital Array UltraScale Architecture Requirements Smarter Applications WP435_01_070213 Xilinxの次世代FPGA 出典: Xilinx, "ホワイトペーパー:UltraScale アーキテクチャ WP435(v1.0)" 2013年7月8日
  • 6. 次世代Stratix10と今のFPGAとの比較 6 1 Stratix 10 6 72 DDR4 SDRAM 3.2 Gbps 1.382 Tbps 1 Stratix V FPGA Stratix 10 FPGA 2 FPGA & SoC Arria® 10 FPGA & SoC Generation 10 FPGA 5 Arria 10 Arria V FPGA 1. Stratix V FPGA Stratix 10 Stratix V FPGA Stratix 10 1,000 K LEs 4,000 K LEs 4x Tera FLOPS 1 10+ 10X+ 500 MHz 1 GHz+ 2X 28 Gbps 56 Gbps 2X DDR 1,866 Mbps 3,200 Mbps 1.7X 2 Stratix 10 FPGA & SoC 出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月
  • 7. シリコンロードマップ 7 Silicon Roadmap Courtesy : IMEC Copyright 2012 Xilinx 出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日 http://tcfpga.org/fpga2012/IvoBolsens.pdf ムーア則によると2020年はこの辺り
  • 8. プロセスとSRAM bit cell size 8 出典 Zvi Or-Bach, "28nm – The Last Node of Moore's Law", 2014年3月19日, http://www.eetimes.com/author.asp?doc_id=1321536 28nmプロセス(現行のFPGAで採用されている)では0.127um2程度なので, 微細化しても作れるSRAM(≒ロジックセル,メモリ)は2倍∼2.5倍程度と予想
  • 10. FPGAの使い方 10 CPUs vs. Stream Processing 6 2020年も変わらず,データフローの展開と考えられる 出典 Michael J. Flynn, "Using FPGAs for HPC* acceleration: now and in 20 years", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日 http://tcfpga.org/fpga2012/MichaelFlynn.pdf
  • 11. FPGAがはまる適用事例での性能向上 11 Achieved Computational Speedup for the entire application (not just kernel) compared to Intel server RTM with Chevron VTI 19x and TTI 25x Sparse Matrix 20-40x Seismic Trace Processing 24x Lattice Boltzman Fluid Flow 30x Conjugate Gradient Opt 26xCredit 32x and Rates 26x 624 624 9 ビッグデータ処理でも,うまくはまれば10倍以上の性能向上が期待できる 出典 Michael J. Flynn, "Using FPGAs for HPC* acceleration: now and in 20 years", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日 http://tcfpga.org/fpga2012/MichaelFlynn.pdf
  • 13. デザインツールの必要性 13 Need for Design Tools 13 Hour Day Week Month 0.25 1 Year 4 16 64 256 Initial Design Relative Performance Design-time CPU GPU FPGA Gap Courtesy : David Thomas Copyright 2012 Xilinx とりあえずの実装(Initial Design)に時間かかりすぎだし,性能でないし… 出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日 http://tcfpga.org/fpga2012/IvoBolsens.pdf
  • 14. FPGAのヘテロジニアスプロセッサ化 14 The Programmable Processing Platform A heterogeneous multicore Application processors – Hard core and soft core – External and embedded – Caches and large memory space – Unified shared memory – Full OS support Streaming micro-engines – Configurable (soft) vector cores – Tiny memory footprint – Many, distributed, memories – Compute kernels, no OS Fixed function datapaths – C to Gates generated – HDL coded – Library IP component DDR3 MemCon Interconnect A SMP CPU X86 CPUDSP High speed I/O FPGAs provide a rich set of mapping options for complex algorithms and communication patterns Discrete GPU Micro- Engine Array HW Datapaths Interconnect B FPGA Copyright 2012 Xilinx 出典: Ivo Bolsens, "FPGA2032 Roadmap:A Personal Perspective", FPGAs in 2032: Challenges and Opportunities in the next 20 years, 2012年2月22日 http://tcfpga.org/fpga2012/IvoBolsens.pdf XilinxもAlteraもCPU混在にするのが今のトレンド→SW/HW混在アプリも
  • 16. FPGA内部のメモリバンド幅(対CPU) 16 MPSOC 2006 slide 19 Memory Bandwidth Envelope Intel; Xilinx 0 200 400 600 800 1000 0 50 100 150 200 250 300 B andwidt h ( Tbps) Memory(KB) 4VLX200 2V6000 3.5GHz P5 • Bandwidth to Registers: 500x that of a processor registerfile • Bandwidth to LUTrams: 50x that of L1 cache of processor • Bandwidth to BRAMS: 5x that of L1 to L2 cache of a processor REGISTERS LUT-RAM BRAM 出典: Ivo Bolsens, "Programming Modern FPGAs", MPSOC, 2006年8月, http://www.mpsoc-forum.org/previous/2006/slides/Bolsens.pdf 少し古い資料ですが FPGA
  • 17. 電力効率 17 17 Stratix 10 FPGA & SoC Stratix 10 FPGA & SoC 14nm FPGA 13 Stratix 10 Stratix V FPGA Stratix V Stratix 10 55 % 70 % 14 Stratix 10 Arria 10 Stratix 10 Arria 10 Arria 10 Stratix 10 Stratix V 40 50 % Arria 10 13 Stratix V FPGA Stratix 10 Stratix V 標準デバイス Stratix 10 標準デバイス Stratix 10 消費電力削減技法を 使用 1.0 0.8 0.6 0.4 0.2 0.0 消費電力 (Stratix V デバイスを 1 に設定) 最大 55 % 削減 最大 70 % 削減 出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月 Waterman FPGA CPU GPU (15) 6 OpenCL FPGA 1 OpenCL OpenCL Apple Inc. Khronos 7 FPGA (Stratix V ) GPU 148 7 Arria 10 Stratix 10 FPGA Smith-Waterman GPU Arria 10 FPGA 18 200 Stratix 10 FPGA GPU 660 FPGA SoC OpenCL C FPGA CPU GPU DSP 6. Smith-Waterman 3 ( ) = (256, 15M) (MCUPS) ( ) (MCUPS ) Intel® Xeon® Quad- 40 140 0.29 NVIDIA GT620 438 50 8.76 Stratix V A7 FPGA 32,596 25 1,303 7. Arria 10 & Stratix 10 Smith-Waterman ( ) = (256, 15M) (MCUPS) ( ) (MCUPS ) Arria 10 >35,000 18 >1,900 Stratix 10 >70,000 12 >5,800 現状でもCPU,GPUと比較して高い電力効率 次世代ではさらに,電力効率の向上が期待できる 約4000倍
  • 18. 次世代デバイスにおける電力効率の見積もり 18 ICT FPGA SoC 8 ICT Generation 10 FPGA SoC ICT 8. ICT FPGA SoC Generation 10 Arria 10 GPU 148 100G OTN 40 % 60 MHz (RRH) 20W 500 MHz Stratix 10 GPU 200 100G OTN 65 % 60 MHz (RRH) 20W 736 MHz 出典:Altera Corporation,"ゼタバイト時代の性能および消費電力要件にミートするアルテラのGeneration10製品",2013年6月