白鲸123

2018年10月31日

摘要：这个问题来自于一个小伙伴，他在处理中文数据时需要先把里面的文本过滤然后分词，因为里面有许多符号，不仅是中文标点符号，还有✳，emoji等奇怪的符号。正常情况下，中文的str经过encode('utf-8')变成bytes，然后bytes经过decode('utf-8')变回中文。原始文件是txt 阅读全文

posted @ 2018-10-31 21:00 白鲸123 阅读(14122) 评论(0) 推荐(1)

2018年10月26日

网页和自然语言处理中的字符问题（半角和全角）

摘要：先来看一个截图，爬虫得到的结果，里面99的字体貌似有点奇怪，刚开始以为是不同的字体，在Excel里选中调整字体时发现没有变化，后来经过大佬指点，才知道是全角数字（原谅我小白无知）。为了统一起见，把所有的全角字符转换为半角字符，然后再做处理。既然是在爬虫里面，那可以直接用代码转换了，但是以前存起来的数阅读全文

posted @ 2018-10-26 20:51 白鲸123 阅读(997) 评论(0) 推荐(0)

2018年10月24日

Tensorflow训练和预测中的BN层的坑

摘要：以前使用Caffe的时候没注意这个，现在使用预训练模型来动手做时遇到了。在slim中的自带模型中inception, resnet, mobilenet等都自带BN层，这个坑在《实战Google深度学习框架》第二版这本书P166里只是提了一句，没有做出解答。书中说训练时和测试时使用的参数is_tr 阅读全文

posted @ 2018-10-24 10:57 白鲸123 阅读(10193) 评论(0) 推荐(1)

2018年10月13日

使用MySQL workbench 和Excel表之间的数据互相导出

摘要：导出数据是很常用的功能，但今天在操作时遇到了一点问题，记录下来，方便其他人查阅。 1. 使用MySQL workbench 导出数据在workbench里连接好数据库之后直接点击左侧的management中的Data Export会让你选择数据表，但是导出的时候会提示报错，workbench的版本阅读全文

posted @ 2018-10-13 14:47 白鲸123 阅读(7614) 评论(0) 推荐(0)

2018年10月9日

远程和Ubuntu服务器进行Socket通信，使用python和C#（准备篇）

摘要：服务器在阿里云上，和一般的本地配置方案不太一样，所以网上的博客里没有解决办法，本人在这里记录一下，方便大家交流。由于数据要保存到MySQL数据库中，使用python对数据进行操作，爬到数据直接进行保存。上一篇博客里已经讲过安装python时需要注意的一个小问题，这篇博客主要讲MySQL的安装配置和阅读全文

posted @ 2018-10-09 22:53 白鲸123 阅读(1539) 评论(0) 推荐(0)

2018年10月7日

Ubuntu下的Selenium爬虫的配置

摘要：在服务器Ubuntu系统上跑爬虫，爬虫是基于Selenium写的，遇到好几个问题，现在这里记录一下。 1. 安装环境阿里云，Ubuntu16.04，因为没有界面，所以远程命令行操作。爬虫是基于Selenium写的，需要安装Chrome浏览器和Chromedriver。 1.1 安装Chrome和C 阅读全文

posted @ 2018-10-07 20:52 白鲸123 阅读(2715) 评论(0) 推荐(0)

公告