手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
人工智能
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
网络运维
技术频道
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
avx
avx专题提供avx的最新资讯内容,帮你更好的了解avx。
AVX 和 AVX2 之间的差异
下面是 AVX2 中矩阵乘法的实现。我使用的机器只支持 AVX,所以我试图用 AVX 实现相同的配置。 但是
作者:佚名 时间:2022-04-27
使用AVX指令会禁用exp优化吗?
使用AVX指令会禁用exp()优化吗? - | 我正在使用AVX内部函数在VC ++中编写前馈网络。我正在通过C#中的PInvoke调用此代码。当调用一个计算包括函数exp()的大循环的函数时,对于160M的循环大小,我的性能约为1000ms。一旦我调用了使用AVX内部函数的任何函数,然后又使用e...
作者:佚名 时间:2022-04-26
决策森林的快速评估
我有一些决策树(1000-3000)需要尽快评估。它们都访问同一组双精度值。根本没有分类值(所以所有值
作者:佚名 时间:2022-04-25
内存 32 位对齐约束对 AVX 意味着什么?
<a href="https://software.intel.com/sites/landingpage/IntrinsicsGuide/#text=_mm256_load_ps&expand=3333" rel="nofollow noreferrer">_mm
作者:佚名 时间:2022-04-24
在 SSE 和 AVX 中没有插入和提取浮点数/双精度数? float 到 __m256
我刚刚注意到没有 <code>_mm256_insert_pd()</code>/<code>_mm256_insert_ps()</code>/<code>_mm_insert_pd()</code>,<a href="https://
作者:佚名 时间:2022-04-24
AVX 寄存器和两个 SSE 寄存器的高效拆分/连接
将一个 AVX (AVX2) 寄存器拆分为两个 SSE (SSE2) 寄存器并向后 - 连接(连接)两个 SSE 寄存器以创建一个 AVX
作者:佚名 时间:2022-04-24
在 SSE/AVX 中高效计算 X 的能力
我正在寻找最高效的方法来计算 SSE-128/AVX-256/AVX-512 寄存器(128 位和 256 位和 512 位)中所有浮点 <code>X</c
作者:佚名 时间:2022-04-24
使用最少的指令将 4 个单精度浮点数加载并复制到打包的 __m256 变量中
我有一个包含 A、B、C、D 4 个浮点数的浮点数组,我希望将它们加载到一个 <code>Selector</code> 变量中,例
作者:佚名 时间:2022-04-23
是否有 AVX2 指令和内在指令可以将 16 位值广播 16 次加载到 __m256i 中?
在下面的代码中,我可以使用avx2来计算每个位置1位的数量 一次单独 16 位,但在标记为 loadLow16 的行上
作者:佚名 时间:2022-04-23
_mm256_rem_epu64 未在 GCC 10.3.0 中找到
我尝试使用 <code>uint64_t</code> 指令重写以下 <code>AVX-512</code> 2x2 矩阵乘法,但 <code>GCC 10.3</code> 未找到 <cod
作者:佚名 时间:2022-04-21
如何从 __m256i AVX2 寄存器中提取一个字节到另一个 __m256i 寄存器中?
给定一个 __m256i 寄存器和一个索引 i,我想从存储在寄存器中的每个值中提取一个字节并将其保存在另一
作者:佚名 时间:2022-04-21
创建添加两个 XMM 寄存器的过程时返回什么寄存器
我在 C++ 上调用 ASM 函数,我希望能够返回 YMM2 存储值,我知道在过程中返回的寄存器是 RAX,我怎样才能
作者:佚名 时间:2022-12-05
xmm 和 ymm 寄存器x86-64有关系吗?
我在指令 <code>vmovdqu (%rsi),%xmm2</code> 处有一个程序的核心转储(商业、封闭源代码,不是我写的),我想
作者:佚名 时间:2022-07-22
运行任何英特尔AVX函数后,数学函数需要更多周期
参见英文答案 > Using AVX instructions disables exp() optimization? 1个我注意到运行任何英特尔AVX功能后,数学函数(如ceil,round,...)需要更多的CPU周期.请参阅以下示例:#include <stdio.h&
作者:佚名 时间:2019-05-08
c – 英特尔AVX内在函数:任何兼容性库?
是否有任何英特尔AVX内在库?我正在寻找类似’sse2mmx.h’标题的东西,如果SSE2整数内在函数在编译时不可用,它会回退到MMX内在函数.因此,如果我有类似AVX的库,我可以为新硬件编写优化代码,如果AVX扩展不可用,它将具有几乎最佳速度.谷歌搜索到目前为止没有多大帮助:( 英特尔提供了 AVX emulation header.我没有尝试过,但引用链接的文章“AVX仿真头文件使用内在函数来
作者:佚名 时间:2019-08-18
c – 对于具有所有相同组件的SSE向量,可以动态生成还是预先计算?
当我需要执行一个向量操作,其操作数只是一个广播到每个组件的一个浮点数时,我应该预先计算__m256或__m128,并在需要时加载它,或者每次我使用_mm_set1_ps将浮点数广播到寄存器需要矢量? 我一直在预先计算非常重要和高度使用的向量,并在运行中生成那些不太重要的向量.但我真的通过预先计算获得了任何速度吗?这值得吗? _mm_set1_ps是用单个指令实现的吗?这可能会回答我的问题. 当然,
作者:佚名 时间:2019-08-20
c – 在MSVC中自动生成FMA指令
MSVC多年来支持AVX / AVX2指令,根据 this msdn blog post,它可以自动生成 fused-multiply-add (FMA)指令. 但是以下两个函数都没有编译为FMA指令: float func1(float x, float y, float z) { return x * y + z; } float func2(float x, float y, fl
作者:佚名 时间:2019-10-09
c- AVX中的矩阵向量乘法不是比SSE中的比例快
我使用以下方法在SSE和AVX中编写矩阵向量乘法: for(size_t i=0;i<M;i++) { size_t index = i*N; __m128 a, x, r1; __m128 sum = _mm_setzero_ps(); for(size_t j=0;j<N;j+=4,index+=4) { a = _mm_load_ps(&A[
作者:佚名 时间:2019-10-24
c – SSE/AVX寄存器的非零字节索引
如果SSE / AVX寄存器的值是所有字节都是0或1,有没有办法有效地获得所有非零元素的索引? 例如,如果xmm值是 | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | r4 = 0 | r5 = 1 | r6 = 0 | … | r14 = 0 | r15 = 1 | 结果应该是(1,3,5,…,15).结果应放在另一个_m128i变量或char [16]数组中. 如果有
作者:佚名 时间:2019-11-14
c – AVX中的水平XOR
有没有办法水平异步AVX寄存器 – 具体来说,对256位寄存器的四个64位组件进行异或? 目标是获得AVX寄存器的所有4个64位组件的XOR.它基本上与水平加法(_mm256_hadd_epi32())做同样的事情,除了我想要XOR而不是ADD. 标量代码是: inline uint64_t HorizontalXor(__m256i t) { return t.m256i_u64[0] ^
作者:佚名 时间:2019-12-12
上一页
1
2
3
4
5
6
7
下一页
小编推荐
苹果市值2025年有望达4万亿美元
• Redmi Note 14系列卖爆 女性用户增多 1
• 腾讯:不再公开显示职级!不希望被官僚
• 三只羊“财色录音”是假的!但背后技术
• 视频美颜SDK与直播美颜工具API的架构设
• 淘宝已接入微信支付!官方确认:京东双
• 品控差!iPhone16首批现划痕、掉漆、摄
• DXO公布iPhone 16 Pro Max影像成绩:最
热门标签
更多
python
JavaScript
java
HTML
PHP
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot