摘要: 写在前面的话: 折腾爬虫也有一段时间了,从一开始的懵懵懂懂,到现在的有一定基础,对于这一路的跌跌撞撞,个人觉得应该留下一些文字性的东西,毕竟好记性不如烂笔头,而且毕竟这是吃饭的家伙,必须用心对待才可以,从今天起,我将会把关于爬虫的东西进行一个整理,以供后期的查阅,同时也想将自己的一点点经验分享给大家 阅读全文
posted @ 2018-11-08 18:10 宋讼颂 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 首先简要说一下各种字符编码: 1. ASCII 计算机只认识0101,但如何让计算机认识人类语言?将每个字母和符号给予固定的编号,然后将这个编号转换成二进制,计算机就可以正确识别这些字母与符号,同时计算机也可以逆操作,将二进制转换成对应的编号在翻译成相应的字符来显示给人类,所以产生了ASCII编码。 阅读全文
posted @ 2018-11-07 10:31 宋讼颂 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 本文内容借鉴这篇博客:https://blog.csdn.net/agzhchren/article/details/79173491 但是这篇博客也是该博主转载的,文章具体出处我没有找到,如果有人知道文章具体出处,请在评论区告诉我,我好标明出处。 话说国际标准化组织ISO搞了个《OSI七层网络模型 阅读全文
posted @ 2018-10-25 17:07 宋讼颂 阅读(4594) 评论(0) 推荐(0) 编辑
摘要: 因为词云有利于体现文本信息,所以我就将那天无聊时爬取的《悲伤逆流成河》的评论处理了一下,生成了词云。 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): 在获取到文本之后我们就可以开始下面的工作了。 先说一下总体流程: 获取文本-->对文本进行处理,分词(将完整的句子分割成一个一个的词语)-- 阅读全文
posted @ 2018-10-22 18:51 宋讼颂 阅读(4438) 评论(1) 推荐(3) 编辑
摘要: 今天女票让我帮她写一个js中的正则,来提取电话号码,对于正则规则来说,js与python是基本没有区别的,重点的区别是在一些函数与方法中。 python中的正则提取: js中的正则提取: 两者主要区别: 还有疏忽的地方,来日想起来再补充吧。这儿有个别的大佬写的,栗子啥的挺全的: 大佬链接:https 阅读全文
posted @ 2018-10-21 22:25 宋讼颂 阅读(1597) 评论(0) 推荐(0) 编辑
摘要: 想了解更多Python关于爬虫、数据分析的内容,欢迎大家关注我的微信公众号:悟道Python 阅读全文
posted @ 2018-10-17 15:54 宋讼颂 阅读(21153) 评论(0) 推荐(0) 编辑
摘要: 前几天在抓博客园文章,打算每天抓10条最新的,所以就在脚本中加了定时让它在每天凌晨四点中时执行,但是昨天发现,报错了: 显示是远程主机强制关闭了一个链接, 原因是:mysql数据库默认当连续8小时不对数据库进行I/O操作时,数据库就会断开连接,而我的脚本每天执行一次,当然就会报错: MySQL服务器 阅读全文
posted @ 2018-10-16 12:49 宋讼颂 阅读(4736) 评论(0) 推荐(0) 编辑
摘要: 昨晚在爬取猫眼电影评论时在将评论信息插入到数据库中时出现问题,总是在插入一条数据时就会报错: 看着应该时字符编码的问题,比如新建的数据库新建的表,默认字符编码是:Latin1, 这种编码是无法插入中文的。此时将数据库字符集和表的字符集编码改为utf8,然后重启mysql就可以插入中文了。 但是高潮来 阅读全文
posted @ 2018-10-16 11:35 宋讼颂 阅读(10960) 评论(0) 推荐(0) 编辑
摘要: 闲来无事,抓一下博客园的文章玩玩,当然,不会暴力抓取,每天就抓10条就好。 先前抓美团数据时因为抓的太快,ip被ban掉了,所以这次就搞了个selenium来模拟点击,纯属娱乐。 上代码: 上边的代码时跑在windos下的,如果想要跑在linux下,Chrome会比较复杂,配置PhantomJS比较 阅读全文
posted @ 2018-10-11 18:35 宋讼颂 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 腾讯云环境为Centos7.4 mysql版本为5.6 本次安装使用yum安装 检查是否已有mysql: yum list installed | grep mysql 下载yum源文件: wget http://repo.mysql.com/mysql-community-release-el7- 阅读全文
posted @ 2018-10-11 18:03 宋讼颂 阅读(1879) 评论(0) 推荐(0) 编辑