上一页 1 2 3 4 5 6 7 ··· 13 下一页
摘要: 完成了数据爬取工作,共33335条数据,全部保存入库。 1 import requests 2 from fake_useragent import UserAgent 3 from lxml import etree 4 import re 5 import pymysql 6 import ti 阅读全文
posted @ 2020-02-16 16:46 一夕思醉 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 今天写了关于首都之窗信件爬取的Python脚本,因为老师给的教程都是java语言,我这两天只学习了一下python爬虫,所以直接就用Python了。 在我开始研究首都之窗网页源代码后发现几个比较麻烦的问题,第一,在信件页面跳转下一页,网址没有发生变化,依旧是http://www.beijing.go 阅读全文
posted @ 2020-02-15 20:44 一夕思醉 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 今天接着昨天,写出了一个crawlspider爬取山西省卫健委官网数据的小例子,当然依旧是json数据存储,并且也没有直接做成数据,只是字符串。 爬取的还算成功,但中间出了一点岔子:在最近两天的官网公布疫情感染人数上不再是写出来了,而是直接放图片!!!你说要是表格也就算了,山西省卫健委直接将一张图片 阅读全文
posted @ 2020-02-14 22:12 一夕思醉 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 今天主要学习依然是scrapy,不过我放慢速度了,scrapy才学到定制模板这一块,而之前的也有很多没有搞懂的。 不过今天学的少的主要原因是我的pycharm崩了,用的激活码过期了,在网上找了好几个小时可用激活码,结果时间就都浪费在这里了,练习代码也没有写多少。 crawlspider,是scrap 阅读全文
posted @ 2020-02-13 16:02 一夕思醉 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 今天从山西卫健委官网上爬取新型冠状病毒疫情有关内容的数据。到发博客为止我只做了一半,只是将相关文字爬取下来,还没有经过处理。那么主要说一说我碰到的问题吧。主要就是爬取网页的文字内容时受到网页标签的影响,难以规范地取得我想要的内容,影响包括但不限于各种稀奇古怪的位置上出现的换行符、空格、制表符。同时爬 阅读全文
posted @ 2020-02-11 17:39 一夕思醉 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 今天首先简单的学习了一下xpath,网上有许多介绍xpath的,我就不细说了,因为xpath又可以引出来诸如节点等一大堆属性,我就用口语描述一下它的用法。它可以通过HTML的标签在HTML中搜索出想要的内容。例子如下,首先看到腾讯新闻的主页,右键检查,出现开发者选项,Ctrl+F调出xpath搜索框 阅读全文
posted @ 2020-02-09 16:39 一夕思醉 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 今天开始学习scrapy,对于scrapy我的理解是这样的:假如把我以前写的Python爬虫比作无门无派的散人,scrapy就是名门正派出来的弟子,它提供了一个爬虫框架,这个框架可以完成大多数的爬虫需求,下面就是演示图(摘自百度): 1、下载scrapy linux:(sudo)pip instal 阅读全文
posted @ 2020-02-08 19:57 一夕思醉 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 今天学习Tkinter,但一上来就碰到了一个坑:tkinter的PhotoImage不支持jpg格式的图片,似乎它只支持gif(放上去gif也是不能动的gif)。如果使用了jpg格式的图片就会出现如下截图: 上网查询,网上的解决方案是使用Pillow的Image和ImageTk,截止到这一步还没有什 阅读全文
posted @ 2020-02-06 19:13 一夕思醉 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 今天由于某些私人原因,学习时间比较少,学习内容为基础的urllib error。 1、异常处理 一般常用的异常有两个:HTTPError和URLError。 URLError一般出现的情况是没有网络连接 、服务器连接失败、找不到指定的服务器。例子如下: 1 try: 2 url = "https:/ 阅读全文
posted @ 2020-02-05 20:39 一夕思醉 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 今天学习了基本的正则表达式,难度的确不小,光这么一天是绝对学不完的,我也只是浅尝辄止。 从网上找了一份关于正则表达式的符号意义:Python3 正则表达式特殊符号及用法(详细列表),很值得参考。其实官方文档上也有,只不过是全英文的: 其实比较常用的正则表达式从网上一搜索就可以得到,但有时候为了某些特 阅读全文
posted @ 2020-02-04 23:32 一夕思醉 阅读(131) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 13 下一页