[C#] .NET8增加了Arm架构的多寄存器的查表函数（VectorTableLookup/VectorT

爱笑的鹏 · 发表于 2024-3-24 00:19:57

作者： zyl910
发现.NET8增加了Arm架构的多寄存器的查表函数（VectorTableLookup/VectorTableLookupExtension），这给编写SIMD向量化算法带来了方便。
一、指令说明

在学习Arm的AdvSimd（Neon）指令集时，发现它的Lookup（查表）功能，类似X86的Sse系列指令集中的字节Shuffle（换位。如 _mm_shuffle_epi8 ）功能。
而且Arm的Lookup不仅支持单个向量的查表，且支持多个向量的查表。具体来说，是2~4个向量。
单个向量查表（如 vqvtbl1q_u8）时，只能在 16字节（128位）的范围内进行查表。而使用4个向量查表（如 vqtbl4q_u8 ）时，能在 16*4=64字节（512位）的范围内进行查表。
.NET 5.0开始支持Arm的内在函数，但当时仅支持单个向量查表。
现在 .NET 8.0 补上了这个空缺。
二、API文档的变化

对于AdvSimd.Arm64.VectorTableLookup 方法，.NET 5.0 的文档是只有2个重载。

VectorTableLookup(Vector128<SByte>, Vector128<SByte>) // int8x16_t vqvtbl1q_s8(int8x16_t t, uint8x16_t idx)
VectorTableLookup(Vector128<Byte>, Vector128<Byte>) // uint8x16_t vqvtbl1q_u8(uint8x16_t t, uint8x16_t idx)

复制代码

到了.NET 8.0 ，文档多了6个重载。

VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>) // uint8x16_t vqtbl4q_u8 (uint8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>) // uint8x16_t vqtbl3q_u8 (uint8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>) // uint8x16_t vqtbl2q_u8 (uint8x16x2_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>) // int8x16_t vqtbl4q_s8 (int8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>) // int8x16_t vqtbl3q_s8 (int8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>) // int8x16_t vqtbl2q_s8 (int8x16x2_t t、uint8x16_t idx)

复制代码

可见，2、3、4个向量的查表功能都加上了了。随后再区分一下 Byte/SByte 这2种类型，于是共增加了 3*2=6 个重载。
三、官方说明

查了一下，发现在官方博文《Arm64 Performance Improvements in .NET 8》（.NET 8 中的 Arm64 性能改进）里有说明。
这一段内容的机器翻译如下。

VectorTableLookup 和 VectorTableLookupExtension
在 .NET 8 中，我们在System.Runtime.Intrinsics.Arm命名空间下添加了两组新的 API：VectorTableLookup和 VectorTableLookupExtension。
public static Vector64<byte> VectorTableLookup((Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);
public static Vector64<byte> VectorTableLookup(Vector64<byte> defaultValues, (Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);
让我们看一下每个 API 的示例。
// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1
Vector64<byte> ans = VectorTableLookup((a, b), index);
// ans = 4, 160, 5, 0, 30, 40, 150, 2
在上面的示例中，向量 a 和 b 被视为一个表，共有 32 个条目（16 个来自 a，16 个来自 b），索引从 0 开始。如果索引超出范围，例如在我们的示例中试图访问索引 40，API 将返回该超出范围索引的值 0。
// Vector64<byte> d = 100, 200, 300, 400, 500, 600, 700, 800
// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1
Vector64<byte> ans = VectorTableLookupExtension(d, (a, b), index);
// ans = 4, 160, 5, 400, 30, 40, 150, 2
与 VectorTableLookup相反，当使用VectorTableLookupExtension方法时，如果索引超出有效范围，则结果中的相应元素将由参数中提供的defaultValues值确定。值得注意的是，这些 API 还有其他变体，它们也在 3 实体和 4 实体元组上运行，为各种用例提供了灵活性。
在 dotnet/runtime#85189 中，@MihaZupan 利用此 API 优化了 IndexOfAny，显著提高了 30% 的性能。同样，在 dotnet/runtime#87126 中，@SwapnilGaikwad 显著增强了 Guid 格式化器的性能，实现了高达 40% 的性能提升。这些优化表明，利用这一强大的 API 可以大幅提高性能。

复制代码

四、X86平台的对应

X86的Sse、Avx系列指令集，仅支持单个向量查表。
直到Avx512系列指令集的出现，它增加了2个向量查表的指令 VPERMI2B。
.NET8.0也增加了对Avx512系列指令集的支持，便支持了该指令。
对于512位向量，可以使用 Avx512Vbmi 类中的方法。

PermuteVar64x8x2(Vector512<Byte>, Vector512<Byte>, Vector512<Byte>) // __m512i _mm512_permutex2var_epi8 (__m512i a， __m512i idx， __m512i b)
PermuteVar64x8x2(Vector512<SByte>, Vector512<SByte>, Vector512<SByte>) // __m512i _mm512_permutex2var_epi8 (__m512i a， __m512i idx， __m512i b)

复制代码

对于128、256位向量，可以使用 Avx512Vbmi.VL 类中的方法。

PermuteVar16x8x2(Vector128<Byte>, Vector128<Byte>, Vector128<Byte>) // __m128i _mm_permutex2var_epi8 (__m128i a，__m128i idx，__m128i b)
PermuteVar16x8x2(Vector128<SByte>, Vector128<SByte>, Vector128<SByte>) // __m128i _mm_permutex2var_epi8 (__m128i a，__m128i idx，__m128i b)
PermuteVar32x8x2(Vector256<Byte>, Vector256<Byte>, Vector256<Byte>) // __m256i _mm256_permutex2var_epi8 (__m256i a， __m256i idx， __m256i b)
PermuteVar32x8x2(Vector256<SByte>, Vector256<SByte>, Vector256<SByte>) // __m256i _mm256_permutex2var_epi8 (__m256i a， __m256i idx， __m256i b)

复制代码

参考文献

《AdvSimd.Arm64.VectorTableLookup 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.arm.advsimd.arm64.vectortablelookup?view=net-8.0
《Avx512Vbmi.PermuteVar64x8x2 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.permutevar64x8x2?view=net-8.0
《Avx512Vbmi.VL 类》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.vl?view=net-8.0
Kunal Pathak《Arm64 Performance Improvements in .NET 8》. https://devblogs.microsoft.com/dotnet/this-arm64-performance-in-dotnet-8/

出处：http://www.cnblogs.com/zyl910/ 版权声明：自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0.
来源:https://www.cnblogs.com/zyl910/p/18091851/cs_simd_net8_VectorTableLookup
免责声明：由于采集信息均来自互联网，如果侵犯了您的权益，请联系我们【E-Mail:cb@itdo.tech】我们会及时删除侵权内容，谢谢合作！