摘要: 这个问题来自于一个小伙伴,他在处理中文数据时需要先把里面的文本过滤然后分词,因为里面有许多符号,不仅是中文标点符号,还有✳,emoji等奇怪的符号。 正常情况下,中文的str经过encode('utf-8')变成bytes,然后bytes经过decode('utf-8')变回中文。 原始文件是txt 阅读全文
posted @ 2018-10-31 21:00 白鲸123 阅读(14010) 评论(0) 推荐(1) 编辑
摘要: 先来看一个截图,爬虫得到的结果,里面99的字体貌似有点奇怪,刚开始以为是不同的字体,在Excel里选中调整字体时发现没有变化,后来经过大佬指点,才知道是全角数字(原谅我小白无知)。为了统一起见,把所有的全角字符转换为半角字符,然后再做处理。既然是在爬虫里面,那可以直接用代码转换了,但是以前存起来的数 阅读全文
posted @ 2018-10-26 20:51 白鲸123 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 以前使用Caffe的时候没注意这个,现在使用预训练模型来动手做时遇到了。在slim中的自带模型中inception, resnet, mobilenet等都自带BN层,这个坑在《实战Google深度学习框架》第二版这本书P166里只是提了一句,没有做出解答。 书中说训练时和测试时使用的参数is_tr 阅读全文
posted @ 2018-10-24 10:57 白鲸123 阅读(10129) 评论(0) 推荐(1) 编辑
摘要: 导出数据是很常用的功能,但今天在操作时遇到了一点问题,记录下来,方便其他人查阅。 1. 使用MySQL workbench 导出数据 在workbench里连接好数据库之后直接点击左侧的management中的Data Export会让你选择数据表,但是导出的时候会提示报错,workbench的版本 阅读全文
posted @ 2018-10-13 14:47 白鲸123 阅读(7389) 评论(0) 推荐(0) 编辑
摘要: 服务器在阿里云上,和一般的本地配置方案不太一样,所以网上的博客里没有解决办法,本人在这里记录一下,方便大家交流。 由于数据要保存到MySQL数据库中,使用python对数据进行操作,爬到数据直接进行保存。上一篇博客里已经讲过安装python时需要注意的一个小问题,这篇博客主要讲MySQL的安装配置和 阅读全文
posted @ 2018-10-09 22:53 白鲸123 阅读(1504) 评论(0) 推荐(0) 编辑
摘要: 在服务器Ubuntu系统上跑爬虫,爬虫是基于Selenium写的,遇到好几个问题,现在这里记录一下。 1. 安装环境 阿里云,Ubuntu16.04,因为没有界面,所以远程命令行操作。爬虫是基于Selenium写的,需要安装Chrome浏览器和Chromedriver。 1.1 安装Chrome和C 阅读全文
posted @ 2018-10-07 20:52 白鲸123 阅读(2626) 评论(0) 推荐(0) 编辑