摘要: 应用场景:本人需要对200万条网页html格式数据进行清洗,提取文字后将分词结果写入数据库,之前做了一次,大概花费了80多个小时才跑完。机器配置是4核,内存8G;开完会领导让再改点东西重新跑一遍,然后说用多进程或者多线程跑,速度快。 本人接触python不到两个月,以前也基本不怎么编程,所以这种优化 阅读全文
posted @ 2018-12-03 22:53 zxyza 阅读(5456) 评论(0) 推荐(1) 编辑
摘要: annoy快速查询数百万级别的近似向量 阅读全文
posted @ 2018-12-03 22:12 zxyza 阅读(3310) 评论(1) 推荐(1) 编辑
摘要: 机器学习尤其针对分类器这,有各种指标来评判最终的模型效果,以前总听说混淆矩阵,也不知道到底干啥的,反正听着就让人很混淆,后来看了网上两篇文章,自己又实践一下,基本搞明白了,我给它起了个新名字,叫“分类结果统计矩阵“,非TM拽那么高大上的名字干啥,听着都让人望而却步了,还有一些机器学习必备装B名词,梯 阅读全文
posted @ 2018-12-03 17:43 zxyza 阅读(14135) 评论(1) 推荐(3) 编辑
摘要: 本文着重是重新梳理一下线性回归的概念,至于几行代码实现,那个不重要,概念明确了,代码自然水到渠成。 “机器学习”对于普通大众来说可能会比较陌生,但是“人工智能”这个词简直是太火了,即便是风云变化的股市中,只要是与人工智能、大数据、云计算相关的概念股票都会有很好的表现。机器学习是实现人工智能的基础,今 阅读全文
posted @ 2018-12-01 20:28 zxyza 阅读(1002) 评论(0) 推荐(0) 编辑
摘要: pip选择镜像源安装第三方库 阅读全文
posted @ 2018-12-01 19:20 zxyza 阅读(24940) 评论(6) 推荐(10) 编辑
摘要: python配置pip方法 阅读全文
posted @ 2018-12-01 19:04 zxyza 阅读(1229) 评论(0) 推荐(0) 编辑
摘要: jupyter notebook启动需要密码 阅读全文
posted @ 2018-12-01 14:22 zxyza 阅读(2881) 评论(1) 推荐(0) 编辑
摘要: fasttext是文本分类的一大利器,优点:快,嗷嗷快;缺点:暂未发现。但是我在使用其做文本分类时候还是遇到了挺多坑,今天先总结一个: 网上有人说设置训练参数的时候,ngrams设置大于2可以提高模型的精确度,打算试试,然而设置之后系统直接显示: floating point exception(c 阅读全文
posted @ 2018-11-19 14:59 zxyza 阅读(6237) 评论(0) 推荐(1) 编辑
摘要: linux查找路径 阅读全文
posted @ 2018-11-15 17:12 zxyza 阅读(14174) 评论(2) 推荐(1) 编辑
摘要: fasttext安装失败,升级gcc解决; 阅读全文
posted @ 2018-11-15 16:14 zxyza 阅读(5436) 评论(1) 推荐(0) 编辑