摘要:
主要为了测试模型增加Lora模块后,参数量和训练速度的变化情况。结论:正常情况下,增加Lora模块是会增加参数量的,因此前向传播和反向传播的时间也会增加。但是,在大语言模型训练的情况下,因为基础模型本身参数量非常大,Lora模块增加的参数量相对非常小。并且,基础模型不参与梯度更新,可以做模型量化,实 阅读全文
2024年5月8日
2020年2月22日
摘要:
1、查看现有配置 $ echo $PS1 2.显示git分支 打开./.bashrc文件 添加以下几行命令: git_branch() { git branch 2 /dev/null | sed e '/^[^ ]/d' e 's/ \(. \)/(\1)/' } export PS1="\u@\ 阅读全文
2016年11月29日
2016年11月4日
摘要:
打开eclipse的时候回遇到这种情况 解决方案: 进入eclipse.exe所在的目录,在eclipse.ini文件中加入以下两行: vm /bin/javaw.exe 注意 :以上内容必须分别放在两行,并且 vm的位置需在openFile之后, vmargs之前。 阅读全文
2016年8月28日
摘要:
布隆过滤器 布隆过滤器是一种概率空间高效的数据结构。它与hashmap非常相似,用于检索一个元素是否在一个集合中。它在检索元素是否存在时,能很好地取舍空间使用率与误报比例。正是由于这个特性,它被称作概率性数据结构(probabilistic data structure)。 空间效率 我们来仔细地看 阅读全文
2016年7月11日
2016年6月14日
摘要:
scan函数是theano中的循环函数,相当于for loop。在读别人的代码时第一次看到,有点迷糊,不知道输入、输出怎么定义,网上也很少有example,大多数都是相互转载同一篇。所以,还是要看官方文档。 函数定义如下 fn就是被执行循环的函数,它接收。sequences是一个变量或者若干个变量组 阅读全文
2016年5月29日
摘要:
1 #include<iostream> 2 #include<stack> 3 #include<deque> 4 using namespace std; 5 6 7 int main() 8 { 9 stack<int> first;10 cout << "size of first: " & 阅读全文
摘要:
1 #include<iostream> 2 #include<vector> 3 using namespace std; 4 5 void print( vector<int> &vec ) 6 { 7 for ( vector<int>::iterator it = vec.begin(); 阅读全文
2016年3月5日
摘要:
用户在访问网页时,每打开一次网页相当于是浏览器向网站后端的服务器发送一次http请求。借助chrome浏览器,我们能看到每个请求的header,其中包含了Cookie/Referer/User-agent等,还有用户的IP地址。后台的日志收集系统会记录这些请求日志,根据这些日志我们已经能够简单地统计 阅读全文