摘要: 1. wordvec的概念 2. 语言模型训练的两种模型CBOW+skip gram 3. word2vec 优化的两种方法:层次softmax+负采样 4. gensim word2vec默认用的模型和方法 阅读全文
posted @ 2019-07-14 18:04 liyuxia713 阅读(6678) 评论(0) 推荐(0) 编辑
摘要: 关键字: 用jieba切词 用expand 一列变多列 用stack 列转行 用group by + aggr 相同term的pv求和 上效果: 上代码: 阅读全文
posted @ 2018-09-28 18:33 liyuxia713 阅读(875) 评论(0) 推荐(0) 编辑
摘要: lexsort支持对数组按指定行或列的顺序排序;是间接排序,lexsort不修改原数组,返回索引。 (对应lexsort 一维数组的是argsort a.argsort()这么使用就可以;argsort也不修改原数组, 返回索引) 默认按最后一行元素有小到大排序, 返回最后一行元素排序后索引所在位置 阅读全文
posted @ 2017-06-26 19:29 liyuxia713 阅读(52881) 评论(0) 推荐(2) 编辑
摘要: 背景:个人对挖掘算法不太了解,学习过程中看到有C4.5算法、CART算法等,看起来都是一样的决策树,不知其区别,所以网络上搜索学习,备忘如下:从决策树开始介绍,该博文不错:算法杂货铺——分类算法之决策树(Decision tree)决策树在决策过程中,选择根节点属性的度量方法(分裂规则)有多种,一般使用自顶向下递归分治法,并采用不回溯的贪心算法;我们看到的各种决策树算法,其实主要是因为采用的度量方式的不同而得到的。下面介绍基于不同的度量方法的三种算法; 信息增益越大越好(ID3算法)、信息增益率越大越好(C4.5算法)、Gini增益越大越好(CART算法)首先需要了解下信息熵、信息增益的概念. 阅读全文
posted @ 2014-02-28 17:11 liyuxia713 阅读(1001) 评论(0) 推荐(0) 编辑
摘要: mail: 比较常用,缺点是发送附件要同时安装其他软件;mutt:功能强大,注意发送html需要升级到1.5+版本;用mail发送邮件:echo "邮件正文" | mail -s "邮件标题" -c "抄送人" "收件人"如果需要改默认的发送人信息,可以用 -- -f 参数,如下:echo "邮件正文" | mail -s "邮件标题" -c "抄送人" "收件人" ---faddress@baidu.com发送html格式echo & 阅读全文
posted @ 2014-01-16 17:36 liyuxia713 阅读(1443) 评论(0) 推荐(0) 编辑
摘要: 对于含多字节的字符串,进行截断的时候,要判断截断处是几字节字符,不能将多字节从中分割,避免截断后乱码下面给出utf8和gb18030上的实现, 用任何一种都可以,可以先进行转码,用encode, decode;方法1:对utf8: 参考:http://blog.csdn.net/marising/article/details/3452971def subString(string,length): if length >= len(string): return string result = '' i = 0 p = 0 whil... 阅读全文
posted @ 2014-01-14 11:36 liyuxia713 阅读(2532) 评论(0) 推荐(0) 编辑
摘要: 参考:http://stackoverflow.com/questions/3636928/test-if-a-python-string-is-printableprint all(ord(c)<127and c in string.printable for c in input_str) 阅读全文
posted @ 2014-01-06 10:59 liyuxia713 阅读(734) 评论(0) 推荐(0) 编辑
摘要: http://developer.51cto.com/art/200810/94162.htm 阅读全文
posted @ 2013-12-06 15:36 liyuxia713 阅读(135) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/yd1227/archive/2011/03/18/1988015.html该博文写的很详细,备忘。需要注意的是,写测试脚本的时候,不要将脚本命名成跟module一样的名字,如random.py,否则会出现报错:AttributeError: 'module' object has no attribute 'randint' 阅读全文
posted @ 2013-11-18 20:51 liyuxia713 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 以输入为GB18030编码字符串为例:#把全角字符串转半角def tobanjiao(string): ustring = string.decode('GB18030') rstring = "" for uchar in ustring: inside_code=ord(uchar) if inside_code==0x3000: inside_code=0x0020 else: ... 阅读全文
posted @ 2013-11-14 12:52 liyuxia713 阅读(570) 评论(0) 推荐(0) 编辑