摘要: 应用场景:本人需要对200万条网页html格式数据进行清洗,提取文字后将分词结果写入数据库,之前做了一次,大概花费了80多个小时才跑完。机器配置是4核,内存8G;开完会领导让再改点东西重新跑一遍,然后说用多进程或者多线程跑,速度快。 本人接触python不到两个月,以前也基本不怎么编程,所以这种优化 阅读全文
posted @ 2018-12-03 22:53 zxyza 阅读(5433) 评论(0) 推荐(1) 编辑
摘要: annoy快速查询数百万级别的近似向量 阅读全文
posted @ 2018-12-03 22:12 zxyza 阅读(3295) 评论(1) 推荐(1) 编辑
摘要: 机器学习尤其针对分类器这,有各种指标来评判最终的模型效果,以前总听说混淆矩阵,也不知道到底干啥的,反正听着就让人很混淆,后来看了网上两篇文章,自己又实践一下,基本搞明白了,我给它起了个新名字,叫“分类结果统计矩阵“,非TM拽那么高大上的名字干啥,听着都让人望而却步了,还有一些机器学习必备装B名词,梯 阅读全文
posted @ 2018-12-03 17:43 zxyza 阅读(13963) 评论(1) 推荐(3) 编辑