摘要:
L0范数:主要被用来度量向量中非零元素的个数。 L1范数:向量x中非零元素的绝对值之和。(曼哈顿距离、最小绝对误差)使用L1范数可以度量两个向量间的差异,如绝对误差和。 L2范数:A的转置共轭矩阵与矩阵A的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离(欧几里德范数,谱范数)。 L无穷范 阅读全文
摘要:
__call__ 参考:https://www.cnblogs.com/superxuezhazha/p/5793536.html在Python中,函数其实是一个对象: >>> f = abs>>> f.__name__'abs'>>> f(-123)由于 f 可以被调用,所以,f 被称为可调用对象 阅读全文
摘要:
1\内容 2、tf_util 阅读全文
摘要:
1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy 2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样) 3、on 阅读全文
摘要:
snip+typora 先打开snip,用截图功能 再copy所得代码 (Copy地第二行,直接到mathtype) 打开typora进入到段落-公式快 复制进去 右击公式插入到word 阅读全文
摘要:
1、sequence to sequence https://zhuanlan.zhihu.com/p/27608348 最基础的Seq2Seq模型包含了三个部分,即Encoder、Decoder以及连接两者的中间状态向量,Encoder通过学习输入,将其编码成一个固定大小的状态向量S,继而将S传给 阅读全文
摘要:
启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计 阅读全文
摘要:
**用法:2××5 2的5次方 阅读全文
摘要:
1、Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果。可是当保留位跟着的即使是5,有可能进位,也有可能舍去,机会各50% 2、python基础 (1)@property 特性 #在cal_add函数前加上@property,使得该函数不可以被赋值,将一个类的函数定义成特性 阅读全文
摘要:
输入函数直接用a=input().split() 自动识别空格 a[0] a[1]如果属于不同的类型,int/string都会自动识别 看数组中是否存在一个数 可以使用in, if a in b 返回false/true 阅读全文