zxyza

2018年12月3日

摘要：应用场景：本人需要对200万条网页html格式数据进行清洗，提取文字后将分词结果写入数据库，之前做了一次，大概花费了80多个小时才跑完。机器配置是4核，内存8G；开完会领导让再改点东西重新跑一遍，然后说用多进程或者多线程跑，速度快。本人接触python不到两个月，以前也基本不怎么编程，所以这种优化阅读全文

posted @ 2018-12-03 22:53 zxyza 阅读(5456) 评论(0) 推荐(1) 编辑

annoy超平面多维近似向量查找工具

摘要： annoy快速查询数百万级别的近似向量阅读全文

posted @ 2018-12-03 22:12 zxyza 阅读(3310) 评论(1) 推荐(1) 编辑

分类器训练结果之混淆矩阵分析

摘要：机器学习尤其针对分类器这，有各种指标来评判最终的模型效果，以前总听说混淆矩阵，也不知道到底干啥的，反正听着就让人很混淆，后来看了网上两篇文章，自己又实践一下，基本搞明白了，我给它起了个新名字，叫“分类结果统计矩阵“，非TM拽那么高大上的名字干啥，听着都让人望而却步了，还有一些机器学习必备装B名词，梯阅读全文

posted @ 2018-12-03 17:43 zxyza 阅读(14135) 评论(1) 推荐(3) 编辑

2018年12月1日

python入门机器学习，3行代码搞定线性回归

摘要：本文着重是重新梳理一下线性回归的概念，至于几行代码实现，那个不重要，概念明确了，代码自然水到渠成。 “机器学习”对于普通大众来说可能会比较陌生，但是“人工智能”这个词简直是太火了，即便是风云变化的股市中，只要是与人工智能、大数据、云计算相关的概念股票都会有很好的表现。机器学习是实现人工智能的基础，今阅读全文

posted @ 2018-12-01 20:28 zxyza 阅读(1002) 评论(0) 推荐(0) 编辑

python使用pip安装第三方库（工具包）速度慢、超时、失败的解决方案

摘要： pip选择镜像源安装第三方库阅读全文

posted @ 2018-12-01 19:20 zxyza 阅读(24940) 评论(6) 推荐(10) 编辑

python pip配置以及安装工具包的一些方法

摘要： python配置pip方法阅读全文

posted @ 2018-12-01 19:04 zxyza 阅读(1229) 评论(0) 推荐(0) 编辑

数据分析交互工具jupyter notebook需要密码登陆解决办法

摘要： jupyter notebook启动需要密码阅读全文

posted @ 2018-12-01 14:22 zxyza 阅读(2881) 评论(1) 推荐(0) 编辑

2018年11月19日

文本快速分类利器fasttext使用心得（踩坑之路）

摘要： fasttext是文本分类的一大利器，优点：快，嗷嗷快；缺点：暂未发现。但是我在使用其做文本分类时候还是遇到了挺多坑，今天先总结一个：网上有人说设置训练参数的时候，ngrams设置大于2可以提高模型的精确度，打算试试，然而设置之后系统直接显示： floating point exception(c 阅读全文

posted @ 2018-11-19 14:59 zxyza 阅读(6237) 评论(0) 推荐(1) 编辑

2018年11月15日

如何在linux中查找python安装包的路径

摘要： linux查找路径阅读全文

posted @ 2018-11-15 17:12 zxyza 阅读(14174) 评论(2) 推荐(1) 编辑

linux安装fasttext报错，升级gcc后成功解决

摘要： fasttext安装失败，升级gcc解决；阅读全文

posted @ 2018-11-15 16:14 zxyza 阅读(5436) 评论(1) 推荐(0) 编辑

喜欢未雨绸缪~~~

公告