2018 年 12月 3 日随笔档案 - zxyza

2018年12月3日

摘要：应用场景：本人需要对200万条网页html格式数据进行清洗，提取文字后将分词结果写入数据库，之前做了一次，大概花费了80多个小时才跑完。机器配置是4核，内存8G；开完会领导让再改点东西重新跑一遍，然后说用多进程或者多线程跑，速度快。本人接触python不到两个月，以前也基本不怎么编程，所以这种优化阅读全文

posted @ 2018-12-03 22:53 zxyza 阅读(5456) 评论(0) 推荐(1) 编辑

annoy超平面多维近似向量查找工具

摘要： annoy快速查询数百万级别的近似向量阅读全文

posted @ 2018-12-03 22:12 zxyza 阅读(3310) 评论(1) 推荐(1) 编辑

分类器训练结果之混淆矩阵分析

摘要：机器学习尤其针对分类器这，有各种指标来评判最终的模型效果，以前总听说混淆矩阵，也不知道到底干啥的，反正听着就让人很混淆，后来看了网上两篇文章，自己又实践一下，基本搞明白了，我给它起了个新名字，叫“分类结果统计矩阵“，非TM拽那么高大上的名字干啥，听着都让人望而却步了，还有一些机器学习必备装B名词，梯阅读全文

posted @ 2018-12-03 17:43 zxyza 阅读(14135) 评论(1) 推荐(3) 编辑

zxyza

喜欢未雨绸缪~~~

公告