[B! cache line] yassのブックマーク

yass id:yass

cache lineに関するyassのブックマーク (30)

キャッシュラインの意識は大事という話
キャッシュラインを意識したコードにすることで、スマートフォンカメラ画像の90度回転を80%高速化した話です。（さらに、i5で計測し直してみると7倍高速化）また、AVX2 gather I/O での実験コードも追加してみました。付記(2018/2/26) （初版のscatter I/…
yass 2018/02/25
cache line
リンク
Why do CPUs have multiple cache levels?
This is a reader question from “jlforrest” that seems worth answering in more detail than just a single sentence: I understand the need for a cache but I don’t understand why there are multiple levels of cache instead of having just one larger level. In other words, let’s say the L1 cache is 32K, the L2 cache is 256K, and the L3 cache is 2M, why not have a single 32K + 256K + 2M L1 cache? The shor
yass 2016/08/09
cache

cache line

CPU
リンク
ゲームパフォーマンス: データ指向プログラミング
.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads
yass 2015/08/21
cpu

cache

cache line
リンク
Intel Haswell
Intel i7-4770 (Haswell), 3.4 GHz (Turbo Boost off), 22 nm. RAM: 32 GB (PC3-12800 cl11 cr2). L1 Data cache = 32 KB, 64 B/line, 8-WAY. L1 Instruction cache = 32 KB, 64 B/line, 8-WAY. L2 cache = 256 KB, 64 B/line, 8-WAY L3 cache = 8 MB, 64 B/line L1 Data Cache Latency = 4 cycles for simple access via pointer L1 Data Cache Latency = 5 cycles for access with complex address calculation (size_t n, *p; n
yass 2015/03/23
" 64-bytes range cross penalty = 5 cycles / 4096-bytes range cross penalty = 28 cycles "

haswell

intel

cpu

latency

bandwidth

cache line

cache

memory
リンク
キャッシュコヒーレントに囚われない並列カウンタ達
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
yass 2014/10/25
" Main memory 参照...................... 100 ns • QPI経由で隣のメモリ参照.............. 200 ns～ / 隣のCPUのキャッシュは自分のメインメモリよりも遠い！！！ "

CPU

cache

cache line

qpi

lock-free

counter
リンク
CPU Caches
yass 2014/02/16
cpu

cache

memory

cache line
リンク
Enhanced Intel SpeedStep® Technology and Demand-Based Switching on Linux* - Intel® Software Network
Using Intel.com Search You can easily search the entire Intel.com site in several ways. Brand Name: Core i9 Document Number: 123456 Code Name: Emerald Rapids Special Operators: “Ice Lake”, Ice AND Lake, Ice OR Lake, Ice* Quick Links You can also try the quick links below to see results for most popular searches. Product Information Support Drivers & Software
yass 2014/02/15
intel

prefetch

memory

bios

cache line
リンク
プログラミング :: 高速なプログラムを書く為に :: メモリ
3. メモリさて、プログラムの最適化で一番重要になってくるのは、メモリです。はっきり言って、数値計算をするプログラムの一番のボトルネックはメモリアクセスです。下手なプログラムを書くと、計算時間の殆どがメモリアクセスの時間という事になりかねません。昔は、メモリの動作速度は高速でその様な事はなかったのですが、最近では CPU の性能向上が激しく、メモリに追いつき追い越し物凄い差を付けてしまいました。 CPU の動作について行ける様な速さで動作するメインメモリは高価になってしまい作れません。まあ、値段の問題は抜きにしたとしても、CPU の動作は速すぎます。これは、少し計算してみれば直ぐに分かります。今売られている CPU では、コアのクロック周波数が高い物では 4GHz になります。例えば 4GHz の CPU で 1 clock の間に光が進む距離を考えると、 3×1010
yass 2013/06/15
" 例えば 4GHz の CPU で 1 clock の間に光が進む距離を考えると、 3×1010 [cm/s] / 4×109[Hz] = 7.5 cm になります。 "

CPU

memory

cache

cache line
リンク
Robin Hood Hashing should be your default Hash Table implementation
A Random Walk Through Geek-Space Brain dumps and other ramblings from Sebastian Sylvan Robin Hood Hashing should be your default Hash Table implementation 8/May 2013 There’s a neat variation on open-addressing based hash tables called Robin Hood hashing. This technique isn’t very well-known, but it makes a huge practical difference because it both improves performance and space utilization compare
yass 2013/06/10
hash

open addressing hash

hashtable

robin hood hashing

cache line
リンク
Direct Memory Alignment in Java
Summary: First in a quick(hopefully) series of posts on memory alignment in Java. This post introduces memory alignment, shows how to get memory aligned blocks, and offers an experiment and some results concerning unaligned memory performance. Since the first days of Java, one of the things you normally didn't need to worry about was memory. This was a good thing for all involved who cared little
yass 2013/05/26
java

cache line

cache

memory

ByteBuffer

offheap
リンク
cache_coloring
cache coloringとはプログラムの実行速度を上げるためには、CPUが持っているcacheをいかに上手に使うかが重要になってきます。プログラムで工夫する事によって、cacheのmiss率を下げて、実行速度を上げる事ができます。 cacheのcoloringとは、cacheのmiss率を下げるためのプログラムテクニックです。 cacheの仕組み前程話を簡単にするために、 cacheの方式は、direct mapped。 cacheの1ラインのサイズは16bytes。 cacheサイズは1KB。とします。 cacheの構成 <--16bytes--> +-----------+ index0 | | +-----------+ index1 | | +-----------+ index2 | | +-----------+ index3 | | +-----------+
yass 2013/04/27
" 現在のLinuxカーネルでは、task structを置くアドレスを、8の倍数+αにしています。αをプロセスによっていろいろ変えてやる事で、task structが同じcache lineに入る事を防いでいます。"

cpu

cache line

cache
リンク
第１回プログラム高速化の基礎
内容に関する質問は [email protected] まで第１回プログラム高速化の基礎東京大学情報基盤センター片桐孝洋 1 ２０１３年度計算科学技術特論A 本講義の位置づけ 2 ２０１３年度計算科学技術特論A 講義日程と内容について  ２０１３年度計算科学技術特論Ａ（１学期：木曜3限）      第１回：プログラム高速化の基礎、2013年4月11日  イントロダクション、ループアンローリング、キャッシュブロック化、数値計算ライブラリの利用、その他第２回：MPIの基礎、2013年4月18日  並列処理の基礎、MPIインターフェース、MPI通信の種類、その他第３回：OpenMPの基礎、2013年4月25日  OpenMPの基礎、利用方法、その他第４回：Hybrid並列化技法(MPIとOpenMPの応用)
yass 2013/04/26
cpu

cache line

cache

programming

loop

memory
リンク
お探しのページが見つかりません。404 File Not Found : XLsoft エクセルソフト
お探しのページは一時的にアクセスできない状況にあるか、移動もしくは削除された可能性があります。リンクが切れている場合は、こちらのお問い合わせフォームよりご連絡ください。
yass 2013/04/26
cpu

cache line

cache

programming

loop

compiler
リンク
高性能プログラミング技法の基礎（１）
高性能プログラミング技法の基礎（１）東京大学情報基盤センター准教授片桐孝洋２０１２年１０月３０日（火）１０：３０－１２：１０ 1 スパコンプログラミング（１）、（Ⅰ）講義日程（工学部共通科目）  1. レポートおよびコンテスト課題（締切： 2013年2月12日（火）24時）厳守１０月９日：ガイダンス１０月１６日  7. １２月１１日  行列-行列積の並列化（１）行列－行列積の並列化（２）コンテスト課題発表ＬＵ分解法（１）ＬＵ分解法（２）並列数値処理の基本演算（座学） 8. １２月１８日   2.  １０月２３日：スパコン利用開始ログイン作業、テストプログラム実行 3.  １０月３０日高性能演算技法１（ループアンローリング） 9. ２０１３年１月８日  10. １月１５日  4.  １１月６日
yass 2013/04/26
cpu

cache line

memory

programming

loop

cache
リンク
【再録】コンピュータアーキテクチャの話(8) キャッシュの構造(基礎編) - セットアソシアティブキャッシュとLRU
本連載はHisa Ando氏による連載「コンピュータアーキテクチャ」の初掲載(2005年9月20日掲載)から第72回(2007年3月31日掲載)までの原稿を再掲載したものとなります。第73回以降、最新のものにつきましては、コチラにて、ご確認ください。このような欠点を緩和する方式がフルアソシアティブとダイレクトマップの中間であるセットアソシアティブ(Set Associative)方式である。図4 2wayセットアソシアティブキャッシュの構造図4は2wayセットアソシアティブキャッシュの構造を示している。図2のダイレクトマップ方式との大きな違いは、メモリブロックの横方向のグループを格納することが出来るキャッシュのマスが2個に増加している点である。従って、命令が0ブロック、データがnブロックという前述の例でも、対応するキャッシュラインが2つあるので同時に格納でき、スラッシングは発生しない
yass 2013/01/05
cpu

memory

cache

cache line

set associative

lru
リンク
ju11net九州体育(科技)有限公司
ju11net九州体育(科技)有限公司 404 Not Found nginx
yass 2013/01/02
スピンロックから始めるLinuxカーネル入門

spinlock

set associative

kernel

concurrency

lock

cpu

memory

cache line

meci

assembly
リンク
今さら聞けないマルチプロセッサの基礎教えます　――キャッシュの共有，割り込みの共有，OSによる制御
今さら聞けないマルチプロセッサの基礎教えます　――キャッシュの共有，割り込みの共有，OSによる制御木村啓二組み込みシステムやシステムLSIにおいて，対称型や非対称型のマルチプロセッサ・システムを設計，利用する機会が増えてきた．ところで，実際にマルチプロセッサがどのように動作しているかご存じだろうか？本稿では，マルチプロセッサ・システムにおけるCPUやOSの動作，アプリケーションを開発するときの注意点などについて解説する．　　（編集部）組み込み分野では，一つのチップ上に複数のCPUコアやDSPコアを組み込んだシステム（いわゆるマルチコア）を設計する機会が増えてきました．一方，複数のプロセッサで並列処理を行うマルチプロセッサ・システムは1960年代から科学技術計算やサーバ用途の分野で研究されており，広く実用化されています．サーバ用途のマルチプロセッサ・システムは，同じプロセッサを複数
yass 2013/01/02
CPU

cache

concurrency

SMP

cache line

interrupt
リンク
最近のCPUの同期性能を調べてみた - maropuのメモ墓場
この前調べごとをしているときにpthread_spinlockなるものがあることを知った．その時にpthread_mutex_lockとどちらを使えばいいんだろう？と疑問に思ったので少し調べてみた．結果から言えば，たいていの場合はpthread_mutex_lockで良い，という安易な結果になってしまった． /*--- 以下詳細 ---*/ 一般論ではロック期間が短いときにspinlockのほうが良い、といわれるので期間が短いロックにおける簡単な性能評価を行った．使ったプログラムは以下． https://github.com/maropu/lockbench 単一アドレス上に存在する値を同期的にインクリメントするだけの簡単なプログラム．評価指標はthread数（# of threads/x-axis）を変化させた場合の，clock()が返す単体tickあたりの平均インクリメント回数（
yass 2013/01/01
concurrency

thread

CPU

pthread

lock

mutex

spinlock

cache line
リンク
Aligned vs. unaligned memory access - Alex on Linux
yass 2012/12/24
memory

cpu

cache line

cache

toread

alignment
リンク
Why interrupt affinity with multiple cores is not such a good thing - Alex on Linux
Why interrupt affinity with multiple cores is not such a good thing One of the features of x86 architecture is ability to spread interrupts evenly among multiple cores. Benefits of such configuration seems to be obvious. Interrupts consume CPU time and by spreading them on all cores we avoid bottle-necks. I’ve written an article explaining this mechanism in greater detail. Yet let me remind you ho
yass 2012/12/23
cpu

interrupt

cache

nic

cache line

smp

affinity
リンク
1 2 次のページ