如何选择并实现高性能纠删码编码引擎(下)(3)
由于使用了SSE与AVX这两种扩展指令集,我们需要避免AVX-SSETransitionPenalties[3].之所以会有这种性能惩罚主要是由于SSE指令对YMM寄存器的高位一无所知,SSE指令与AVX指令的混用会导致机器不断的执行YMM寄存器的高位保存与恢复,这大大影响了性能表现.如果对指令不熟悉,难以避免指令混用,那么可以在RET前使用VZEROUPPER指令来清空YMM寄存器的高位. 3.2指令级并行(ILP)优化程序分支指令的开销并不仅仅为指令执行所需要的周期,因为它们可能影响前端流水线和内部缓存的内容.我们可以通过如下技巧来减少分支指令对性能的影响,并且提高分支预测单元的准确性: 尽量少的使用分支指令 当贯穿(fall-through)更可能被执行时,使用向前条件跳转 当贯穿代码不太可能被执行时,使用向后条件跳转 向前跳转经常用在检查函数参数的代码块中,如果我们避免了传入长度为0的数据切片,这样可以在汇编中去掉相关的分支判断.在我的代码中仅有一条向后条件跳转指令,用在循环代码块的底部.需要注意的是,以上2、3点中的优化方法是为了符合静态分支预测算法的要求,然而在市场上基于硬件动态预测方法等处理器占主导地位,因此这两点优化可能并不会起到提高分支预测准确度的作用,更多的是良好的编程习惯的问题. 对于CPU的执行引擎来说,其往往包含多个执行单元实例,这是执行引擎并发执行多个微操做的基本原理.另外CPU内核的调度器下会挂有多个端口,这意味着每个周期调度器可以给执行引擎分发多个微操作.因此我们可以利用循环展开来提高指令级并行的可能性. 循环展开就是将循环体复制多次,同时调整循环的终止代码.由于它减少了分支判断的次数,因此可以将来自不同迭代的指令放在一起调度. 当然,如果循环展开知识简单地进行指令复制,最后使用的都是同一组寄存器,可能会妨碍对循环的有效调度.因此我们应当合理分配寄存器的使用.另外,如果循环规模较大,会导致指令缓存的缺失率上升.Intel的优化手册中指出,循环体不应当超过500条指令.[4] 四小结以上内容较为完整的还原了纠删码引擎的实现过程,涉及到了较多的数学和硬件层面的知识,对于大部分工程师来说可能相对陌生,我们希望通过本系列文章的介绍能够为大家的工程实践提供些许帮助.但受限于篇幅,很多内容无法全面展开.比如,部分数学工具的理论与证明并没有得到详细的解释,还需要读者通过其他专业资料的来进行更深入的学习. (编辑:ASP站长网) |