上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 处理多个文件:1. 可以在代码中指定读取某个文件, 其他的用命令行输入 while ( geline 0 ){ print $1} 2. 如果只有两个文件,可以特殊处理#NR 当前处理行个数#FNR 当前文件处理个数if( NR FNR ) {} 第二个文件3. 可以通过区分每个文件不同列数来搞 #NF 文件列数 if ( NF == 3 ) {} if ( NF == 5 ) {} 阅读全文
posted @ 2013-11-07 20:00 liyuxia713 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 筛选出纯ascii串:awk '{ l = length($0); for (i = l; i > 0; i--) { if (substr($0,i,1) > "\177") break; } if (i == 0) { print $0; }}' $1 > $2 阅读全文
posted @ 2013-11-07 19:59 liyuxia713 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 有的时候需要左右对比环境,而且希望能同时滚动,如下这么拼接就可以了效果如下: 阅读全文
posted @ 2013-11-07 19:51 liyuxia713 阅读(595) 评论(0) 推荐(0) 编辑
摘要: #标准输出 sys.stdout.write() sys.stderr.write()#标准输入 while True : try: line = raw_input().rstrip(); except EOFError: break; pass#读取文件for line in open(fname, "r"): pass;等价于fp = open(fname, "r"):while True: line = fp.readline(); ... 阅读全文
posted @ 2013-11-07 19:41 liyuxia713 阅读(188) 评论(0) 推荐(0) 编辑
摘要: def mylower(str): outstr = ""; strlen = len(str); idx = 0; while idx 0 and ord(str[idx])<= 128: outstr += str[idx].lower(); idx += 1; else: outstr += str[idx:idx+2]; ... 阅读全文
posted @ 2013-11-07 19:40 liyuxia713 阅读(213) 评论(0) 推荐(0) 编辑
摘要: #转码def utf2gbk(string): #return string s=string.decode('utf-8','ignore').encode('gb18030','ignore') if s!=None: return s else: return string 阅读全文
posted @ 2013-11-07 19:39 liyuxia713 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 如何导出超链接:用visual basic处理在excel中:Alt+F11 --> F7 --> 粘贴下面代码 -->F5(运行), 则会在原列接右侧出现超链Sub ExtractHL() Dim HL As Hyperlink For Each HL In ActiveSheet.Hyperlinks HL.Range.Offset(0, 1).Value = HL.Address NextEnd Sub如何取消超链接:方法1:点击一个单元格,右键 取消超链接, 然后格式刷下拉。方法2:选中要取消的列,复制, 选择性粘贴(数值),即可取消。如何加入超链接:1. excel 阅读全文
posted @ 2013-11-07 19:36 liyuxia713 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 之前也有写过从随机N条记录中选取M个随机记录的算法,但当时考虑的是N已知情形。(http://www.cnblogs.com/liyuxia713/archive/2012/05/25/2540709.html)若N未知,该怎么办呢? 有个算法是 蓄水池抽样算法,reservoir sample。什么情况下N未知呢? 比如记录个数特别多,在用集群处理的时候~ 方法介绍参考:http://handspeaker.iteye.com/blog/1167092下面是awk实现:#!/bin/shawk -F '\t' 'BEGIN{ sample_num=100000 idx 阅读全文
posted @ 2013-07-19 16:38 liyuxia713 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是:https://class.coursera.org/ml-2012-002/lecture/index本节内容对应第十周,Lecture17. 回到总目录~~实践证明,数据的重要性并不亚于算法本身,所以也有了这句话:It's not who has the best algorithm that wins, It's who has the most data.机器学习的算法对大数据是很适用的,那么,如何让算法在大数据上高效运行呢?答案其实就是:并行计算。梯度下降法的并行实现算法:前面介绍的机器学习算法中,几乎都用到了梯 阅读全文
posted @ 2012-11-21 22:25 liyuxia713 阅读(865) 评论(0) 推荐(0) 编辑
摘要: 这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是:https://class.coursera.org/ml-2012-002/lecture/index 编程题地址:https://class.coursera.org/ml-2012-002/assignment/index 该课程全部资料 阅读全文
posted @ 2012-11-08 17:21 liyuxia713 阅读(1015) 评论(12) 推荐(2) 编辑
上一页 1 2 3 4 5 6 ··· 14 下一页