如何解决Neon 代码比普通 C 慢一点但是,我期望使用 neon 快 3 到 4 倍任何建议如何提高性能?
C 代码:
a
霓虹灯代码:
for(unsigned int j=0; j<num_boxes; j++)
{
loc_del[0] = prior_boxes[0] + loc_del[0]*variances[0] * prior_boxes[2];
loc_del[1] = prior_boxes[1] + loc_del[1] * variances[0] * prior_boxes[3];
loc_del[2] = prior_boxes[2] * std::exp(loc_del[2] * variances[1]);
loc_del[3] = prior_boxes[3] * std::exp(loc_del[3] * variances[1]);
loc_del[0] = (loc_del[0] - loc_del[2] * 0.5) * width;
loc_del[1] = (loc_del[1] - loc_del[3] * 0.5) * height;
loc_del[2] = (loc_del[2] * width )+ loc_del[0];
loc_del[3] = (loc_del[3] * height)+ loc_del[1];
prior_boxes += 4;
loc_del += 4;
}
我想使用 NEON 来并行化浮点乘法:同时进行四个浮点乘法而不是一个。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。