随笔分类 -  python

摘要:使用CNN做文本分类已经有一段时间了,之前在封闭式测试集中模型的表现还是不错的。但是,拿到实际环境汇总测试,问题就来了。模型过拟合严重,泛化能力弱。最终带来的结果是,用户体验不佳。 改进的方面: 1)改变字符向量为词向量。实际发现,以字符为单元的模型,在数据量少的情况下(10W以下),更容易过拟合, 阅读全文
posted @ 2019-05-21 10:47 今夜无风 阅读(882) 评论(0) 推荐(0) 编辑
摘要:1.什么是opencc? Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。 2.我用在了哪里? 之前做文 阅读全文
posted @ 2019-05-18 15:16 今夜无风 阅读(3919) 评论(0) 推荐(0) 编辑
摘要:虽然,虽然,虽然,今天: 百度发布了2019年第一季度未经审计的财务报告。本季度百度营收241亿元人民币(约合35.9亿美元),同比增长15%,移除业务拆分收入影响,同比增长21%。低于市场预期242.7亿元。净亏损为人民币3.27亿元(约合4900万美元),去年同期净利润为人民币66.94亿元。这 阅读全文
posted @ 2019-05-18 14:16 今夜无风 阅读(3722) 评论(0) 推荐(0) 编辑
摘要:pypi 镜像使用帮助 pypi 镜像每 5 分钟同步一次。 临时使用 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 注意,simple 不能少, 是 https 而不是 http 设为默认 升级 pip 到 阅读全文
posted @ 2019-05-05 17:28 今夜无风 阅读(1598) 评论(0) 推荐(0) 编辑
摘要:下载wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1rc2.tgz 解压tar zxvf Python-3.7.1rc2.tgzcd Python-3.7.1rc2 编译./configuremakemake install 先找的p 阅读全文
posted @ 2019-04-26 16:23 今夜无风 阅读(2549) 评论(0) 推荐(0) 编辑
摘要:sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-alternatives --install /usr/bin/python python /usr/bin/pyth 阅读全文
posted @ 2019-04-26 15:14 今夜无风 阅读(1601) 评论(0) 推荐(0) 编辑
摘要:因为python3.5和python3.6之后的版本差异很大,所有需要改变python的版本 简易安装python后得到的3版本的版本号是python3.5。 可以使用下面的命令查看py版本: python3 --version 因为版本内容/接口等的不同,需要将其升级到更高的版本操作如下: 1、安 阅读全文
posted @ 2019-04-25 21:49 今夜无风 阅读(5488) 评论(0) 推荐(0) 编辑
摘要:话不多说,直接上代码 阅读全文
posted @ 2019-03-19 14:02 今夜无风 阅读(5252) 评论(0) 推荐(0) 编辑
摘要:K折交叉验证时使用: KFold(n_split, shuffle, random_state) 参数:n_split:要划分的折数 shuffle: 每次都进行shuffle,测试集中折数的总和就是训练集的个数 random_state:随机状态 阅读全文
posted @ 2019-03-19 13:54 今夜无风 阅读(26431) 评论(2) 推荐(1) 编辑
摘要:很多人认为python中的字典是无序的,因为它是按照hash来存储的,但是python中有个模块collections(英文,收集、集合),里面自带了一个子类 OrderedDict,实现了对字典对象中元素的排序. 阅读全文
posted @ 2019-03-18 20:24 今夜无风 阅读(459) 评论(0) 推荐(0) 编辑
摘要:你在使用python,之后你想给python安装一些第三方库,如tensorflow或者tensorrt,那么这些包存放在哪个路径下呢? 该目录下: /usr/local/lib/python3.5/dist-packages 阅读全文
posted @ 2019-03-18 10:15 今夜无风 阅读(4586) 评论(0) 推荐(0) 编辑
摘要:常操作linux系统的都会用到:ps -ef 命令,是一个非常强大的进程查看命令。 在训练模型中使用python,那么我会要看这个python相关的进程,可以使用如下命令”: ps -ef | grep python 让你对当前应用的进程有详细的了解,你可以经常使用该命令进行查看。 阅读全文
posted @ 2019-03-18 09:51 今夜无风 阅读(8462) 评论(0) 推荐(0) 编辑
摘要:在使用json.dumps时要注意一个问题 >>> import json >>> print json.dumps('中国') "\u4e2d\u56fd" >>> import json >>> print json.dumps('中国') "\u4e2d\u56fd" 输出的会是 '中国' 中 阅读全文
posted @ 2019-03-15 11:19 今夜无风 阅读(1256) 评论(2) 推荐(0) 编辑
摘要:sys.argv[]说白了就是一个从程序外部获取参数的桥梁,这个“外部”很关键,所以那些试图从代码来说明它作用的解释一直没看明白。因为我们从外部取得的参数可以是多个,所以获得的是一个列表(list),也就是说sys.argv其实可以看作是一个列表,所以才能用[]提取其中的元素。其第一个元素是程序本身 阅读全文
posted @ 2019-03-15 11:00 今夜无风 阅读(2110) 评论(0) 推荐(0) 编辑
摘要:我们在文本数据预处理前,要将数据统一整理成需要的格式,其中有回车(\t)或者(\n)符号,会对我们的数据保存有影响,那么就需要将其过滤掉。 比较简单的方法,用replace()将这些符号替换为空,一定要一个一个的替换 这样就删除了你想要删除的符号 阅读全文
posted @ 2018-12-26 11:23 今夜无风 阅读(9109) 评论(0) 推荐(0) 编辑
摘要:输出: {1: 3, 2: 2, 3: 1} 阅读全文
posted @ 2018-12-25 13:53 今夜无风 阅读(1051) 评论(0) 推荐(0) 编辑
摘要:(1)保证以后生成的随机数是一样的 (2)生成N行,M列的随机数 (3)对生成的随机数每个数据都增加数值 (4)按照顺序将元素堆叠起来,可以是元组,列表’ (5)生成网格采样点 start:开始坐标 stop:结束坐标(不包括) step:步长 举例子 res = np.mgrid[-3:3:.1, 阅读全文
posted @ 2018-12-25 12:20 今夜无风 阅读(460) 评论(0) 推荐(0) 编辑
摘要:cross_val_score(model_name, x_samples, y_labels, cv=k) 作用:验证某个模型在某个训练集上的稳定性,输出k个预测精度。 K折交叉验证(k-fold) 把初始训练样本分成k份,其中(k-1)份被用作训练集,剩下一份被用作评估集,这样一共可以对分类器做 阅读全文
posted @ 2018-12-21 10:22 今夜无风 阅读(7628) 评论(0) 推荐(1) 编辑
摘要:原文写的不错,拿来大家都可以看一下 原文地址:https://www.cnblogs.com/lsdb/p/9121903.html https://www.cnblogs.com/tiankong2012/p/7909862.html 阅读全文
posted @ 2018-11-15 13:46 今夜无风 阅读(600) 评论(0) 推荐(0) 编辑
摘要:开发产品的过程必不可少的需要记录日志信息,保存我们需要看到的一些数据,执行过程什么的,总之,不仅能够便于分析数据,也可以显得专业一些。那么,日志需要注意的一些信息总结一下。 1.工程下面需要建立一个log文件夹,存放日志信息。dir_path = './data/log/' 2.日志的格式: (1) 阅读全文
posted @ 2018-10-17 16:27 今夜无风 阅读(172) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示