摘要: python操作excel文档的方法和库有多种;今天的笔记意在记录使用xlrd对excel文件读取;持续对python操作excel做笔记; 首先第一步进行库的安装:pip install xlrd; 安装完成之后,新建一个python文件以及在同目录下新建一个test.xlsx文件; test.x 阅读全文
posted @ 2020-03-20 10:56 dluo* 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 写爬虫的过程中不免遇到处理json数据的情况,今天在爬取新华网新闻数据时发现使用json.loads函数时报错: json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) 但是爬取网页时显示的时正常连接,而且打印响 阅读全文
posted @ 2019-03-05 15:54 dluo* 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的; 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式network下很快能找到一个‘?category=new_hot...’字样的文件,查看该文件发现新闻内容的 阅读全文
posted @ 2019-02-14 14:15 dluo* 阅读(14951) 评论(7) 推荐(2) 编辑
摘要: 利用scrapy框架实现matplotlib实例脚本批量下载至本地并进行文件夹分类;话不多说上代码: 首先是爬虫代码: 分析代码: parse函数主要为了获取初始url中的所有实例所在页面的url,通过yield输出scrapy.Request中的callback来调用parse_mat函数,下面继 阅读全文
posted @ 2019-02-11 11:14 dluo* 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 1.环境及版本 python3.7.1+scrapy1.5.1 2.问题及错误代码详情 优先贴上问题代码,如下: 运行代码后报错如下: 出现错误后自检代码并未发现问题,上网查找也未发现相关的问题;于是将代码改成(restrict_css)去抓取数据,发现是能正常获取到数据的,于是改回xpath;但这 阅读全文
posted @ 2019-01-24 16:40 dluo* 阅读(381) 评论(0) 推荐(0) 编辑