Parallel force - パラレル・フォース〜SIMD まだまだ

chiharunpo https://blog.hatena.ne.jp/chiharunpo/ Chiharu の日記 https://chiharunpo.hatenablog.com/ Parallel force - パラレル・フォース C++ 公開中のデモについて、Atom や Core i7 では SSE2 適用でとても高速化するのですが、Core 2 であまり速くならず、何故だろうとインテル最適化マニュアルを紐解いてみると、あらなんと。Core 2 では XMM レジスタを使用した演算が、それ以前のアーキテクチャよりも高速化されているものの、パック、アンパック、シャッフル、シフトはその対象外だったのですね。BGR イメージの描画処理では、アンパックとシフトを使いまくりですので、なかなか速度が上がらなかったと。んー。ためしに SSSE3 の _mm_shuffle_epi8 を使ってみました。4 画素あたり 3 回分のシフトとア… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fchiharunpo.hatenablog.com%2Fentry%2F20101008%2F1295165861" title="Parallel force - パラレル・フォース〜SIMD まだまだ - Chiharu の日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-10-08 17:17:41 Parallel force - パラレル・フォース〜SIMD まだまだ rich https://chiharunpo.hatenablog.com/entry/20101008/1295165861 1.0 100%