打赏
上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: 确定map任务数时依次优先参考如下几个原则: 1) 每个map任务使用的内存不超过800M,尽量在500M以下 比如处理256MB数据需要的时间为10分钟,内存为800MB,此时如果处理128MB时,内存可以减小为400MB,则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控 阅读全文
posted @ 2020-08-14 10:02 listenviolet 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: start_date=`date -d "20200701" +"%Y%m%d"` last_date=`date -d "20200710" +"%Y%m%d"` cur_date=$start_date date_list="" while [ $cur_date -le $last_date 阅读全文
posted @ 2020-07-16 00:14 listenviolet 阅读(1323) 评论(0) 推荐(0) 编辑
摘要: 转载:https://www.cnblogs.com/yitao326/p/10535899.htmlprint("获取当前文件路径——" + os.path.realpath(__file__)) # 获取当前文件路径 parent = os.path.dirname(os.path.realpa 阅读全文
posted @ 2020-07-12 19:34 listenviolet 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 参考链接: 倒排索引:https://www.cnblogs.com/meibaorui/p/reverse_index.html bool检索:https://www.cnblogs.com/meibaorui/p/boolean_search.html 阅读全文
posted @ 2020-07-11 22:05 listenviolet 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 1.现状 Transformer模型目前被广泛应用,但目前存在以下几个问题: (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析 层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4 阅读全文
posted @ 2020-07-01 23:09 listenviolet 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 1. 问题定义 在保证$n$个元素被抽取的概率是相同的前提下,从总量为$n$的样本空间中随机抽取$k$个元素 2. 应用场景和一般算法 (1) 对于总数$n$值已知的情况 我们可以用最简单的随机数算法,生成范围在 $[1, n]$间的$k$个随机数。 (2) 对于总数$n$值提前未知的情况 一种方法 阅读全文
posted @ 2020-06-28 20:30 listenviolet 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 书籍: 1. Student Solutions Manual for Nonlinear Dynamics and Chaos, 2nd edition http://93.174.95.29/main/B0EFCAD73D8C6552F24DCC7BBE380318 2. Nonlinear D 阅读全文
posted @ 2020-05-29 07:16 listenviolet 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 转载:https://blog.csdn.net/joylnwang/article/details/6801720 1. 算法原理 提到多模式匹配算法,就得说一下Wu-Manber算法,其在多模式匹配领域相较于Aho-Corasick算法,就好象在单模式匹配算法中BM算法相较于KMP算法一样,在绝 阅读全文
posted @ 2020-04-02 23:26 listenviolet 阅读(1891) 评论(0) 推荐(0) 编辑
摘要: 转自:https://www.cnblogs.com/zhangtianq/p/5839909.html 1. 算法 KMP算法和BM算法,这两个算法在最坏情况下均具有线性的查找时间。但实际上,KMP算法并不比最简单的c库函数strstr()快多少,而BM算法虽然通常比KMP算法快,但BM算法也还不 阅读全文
posted @ 2020-03-30 22:43 listenviolet 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 1. 简介 AC自动机是一种多模匹配的文本匹配算法。 如果采用naive的方法,即依次比较文本串s中是否包含模式串p1, p2,...非常耗时。考虑到这些模式串中可能具有相同子串,可以利用已经比较过的那些模式串的一些信息,来优化效率。容易想到的一种方法是为这些模式串构建一个trie树,可以较好的利用 阅读全文
posted @ 2020-03-22 19:18 listenviolet 阅读(1143) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页