06 2022 档案
摘要:#if defined(__CUDACC__)template <typename T>__device__ inline void *memcpy(T *d, const T *s, size_t n) { for (size_t i = 0; i < n / sizeof (T); i++) {
阅读全文
摘要:https://zhuanlan.zhihu.com/p/655850951 https://developer.nvidia.com/cuda-toolkit-archive https://blog.csdn.net/qq_41554005/article/details/119765334 h
阅读全文
摘要:天后王菲有实力,多次登上春晚的舞台。 1998年,王菲首次登陆春晚,与那英合唱《相约1998》,轻盈灵动,风姿曼妙。 2010年的春晚,王菲独唱《传奇》,艳惊四座,芳华绝代。 2012年,王菲再度登上春晚,和陈奕迅搭档演唱《因为爱情》,高音飙到极致,震撼人心。 2018年,王菲又登春晚,与那英时隔2
阅读全文
摘要:package untitled14import ( "fmt" "strconv")type operator struct { symbol string swap bool throughput, latency uint gap uint}type node struct { id stri
阅读全文
摘要:https://blog.csdn.net/nankai0912678/article/details/106219558
阅读全文
摘要:https://wenku.baidu.com/view/4e627e54f142336c1eb91a37f111f18583d00c20.html https://www.agner.org/optimize/optimizing_assembly.pdf
阅读全文
摘要:The main difference between latency and throughput is that latency refers to the delay to produce the outcome from the input while throughput refers t
阅读全文
摘要:https://api.portal.trustedservices.intel.com/EPID-attestation https://www.intel.com/content/www/us/en/developer/tools/software-guard-extensions/reques
阅读全文
摘要:C52 5*4/2*1(m!)/(n!*(m-n)!)=(m*(m-1)*(m-2)*…*(m-n+2)*(m-n+1))/(n!)= ((m-n+1)/1)*((m-n+2)/2)*((m-n+3)/3)*…*((m-n+n)/n)= ∏((m-n+k)/k)【k=1,2,3,…,n】 func
阅读全文
摘要:https://www.agner.org/optimize/instruction_tables.pdf Integer multiply is at least 3c latency on all recent x86 CPUs (and higher on some older CPUs).
阅读全文
摘要:/*08 1.8 2.913 9.418 1813 1021 160 */ 2013核心i7 4960X,制造工艺为22 nm,晶体管计数为18.6亿。 http://wagnercg.com/Portals/0/FunStuff/AHistoryofMicroprocessorTransistor
阅读全文
摘要:2、存储器分级策略 既然我们不能用一块存储器来解决所有的需求,那就必须把需求分级。 一种可行的方案,就是根据数据的使用频率使用不同的存储器:高频使用的数据,读写越快越好,因此用最贵的材料,放到离 CPU 最近的位置;使用频率越低的数据,我们放到离 CPU 越远的位置,用越便宜的材料。 2.1 存储器
阅读全文
摘要:https://blog.csdn.net/weixin_39612228/article/details/111344967 .global _ek _ek: lea msg(%rip), %rax //mov msg(%rip), %rax //lea (%rax), %rax ret.data
阅读全文
摘要:sysctl -a | grep machdep.cpu.features lscpu cpuid
阅读全文
摘要:4.4s* 17.5--mulr 13.1 e 18.62x 4.4 //bmi2s* 17.5 --divr 379 //125e 114 //94ss 48.35sd 57 --vpslld4.4 .global _k_k:movl %edi, %eaxshll $32, %eaxmov %xm
阅读全文
摘要:ea指令变种(按大小分类): leaw #2个字节 leal #4个字节 leaq #8个字节 lea的用法: leaq a(b, c, d), %rax 首先lea指令是mov指令的变种,据说,lea指令是x86体系结构中,是一条最古老但是从某个方面来讲又是最神奇的指令。 表面上看,它做的事情非常
阅读全文
摘要:https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html#techs=AVX https://blog.csdn.net/nbu_dahe/article/details/122157205 https://bl
阅读全文
摘要:SHL、SHR、SAL、SAR: 移位指令 ;SHL(Shift Left): 逻辑左移;SHR(Shift Right): 逻辑右移;SAL(Shift Arithmetic Left): 算术左移;SAR(Shift Arithmetic Right): 算术右移 ;其中的 SHL 和 SAL
阅读全文