02 2020 档案
摘要:举例场景:中国铁路12306 1、可用性 刺激源:短时间内涌入的海量用户 刺 激:服务器接收大量请求 制 品:服务器 环 境:正常运行 响 应:响应超时 响应度量:用户退出,稍后登录 举例场景:博客园 2、修改性 刺激源:用户 刺 激:用户修改界面样式 制 品:用户设置界面 环 境:正常运行 响 应
阅读全文
摘要:单纯的安装一个软件的确没什么可说的,但对于我来说,本次安装又确实值得记录,因为它花费了我将近8个小时的时间。从下午2点,到晚上10点。那么我到底遇到什么问题了?接下来我会细细总结一下。 系统:deepin15.10 python版本(已存在):2.7,3.5.3 1、第一个遇到的问题,是安装完成Py
阅读全文
摘要:在阅读王概凯的《架构漫谈》,一共9篇。读之前以为的架构:架构啊,应该就是像想要盖房子一样,用木头搭起来的一个框架吧。听这名字,架构架构,多像“构造的架子”。读之后:我是谁?我在哪?架构能吃吗? 虽然上面的描述方法采用了夸张的修辞手法,但真实情况确实和夸张后的情况相差无几——我是真的没有读懂理解王概凯
阅读全文
摘要:完成了数据爬取工作,共33335条数据,全部保存入库。 1 import requests 2 from fake_useragent import UserAgent 3 from lxml import etree 4 import re 5 import pymysql 6 import ti
阅读全文
摘要:今天写了关于首都之窗信件爬取的Python脚本,因为老师给的教程都是java语言,我这两天只学习了一下python爬虫,所以直接就用Python了。 在我开始研究首都之窗网页源代码后发现几个比较麻烦的问题,第一,在信件页面跳转下一页,网址没有发生变化,依旧是http://www.beijing.go
阅读全文
摘要:今天接着昨天,写出了一个crawlspider爬取山西省卫健委官网数据的小例子,当然依旧是json数据存储,并且也没有直接做成数据,只是字符串。 爬取的还算成功,但中间出了一点岔子:在最近两天的官网公布疫情感染人数上不再是写出来了,而是直接放图片!!!你说要是表格也就算了,山西省卫健委直接将一张图片
阅读全文
摘要:今天主要学习依然是scrapy,不过我放慢速度了,scrapy才学到定制模板这一块,而之前的也有很多没有搞懂的。 不过今天学的少的主要原因是我的pycharm崩了,用的激活码过期了,在网上找了好几个小时可用激活码,结果时间就都浪费在这里了,练习代码也没有写多少。 crawlspider,是scrap
阅读全文
摘要:今天从山西卫健委官网上爬取新型冠状病毒疫情有关内容的数据。到发博客为止我只做了一半,只是将相关文字爬取下来,还没有经过处理。那么主要说一说我碰到的问题吧。主要就是爬取网页的文字内容时受到网页标签的影响,难以规范地取得我想要的内容,影响包括但不限于各种稀奇古怪的位置上出现的换行符、空格、制表符。同时爬
阅读全文
摘要:今天首先简单的学习了一下xpath,网上有许多介绍xpath的,我就不细说了,因为xpath又可以引出来诸如节点等一大堆属性,我就用口语描述一下它的用法。它可以通过HTML的标签在HTML中搜索出想要的内容。例子如下,首先看到腾讯新闻的主页,右键检查,出现开发者选项,Ctrl+F调出xpath搜索框
阅读全文
摘要:今天开始学习scrapy,对于scrapy我的理解是这样的:假如把我以前写的Python爬虫比作无门无派的散人,scrapy就是名门正派出来的弟子,它提供了一个爬虫框架,这个框架可以完成大多数的爬虫需求,下面就是演示图(摘自百度): 1、下载scrapy linux:(sudo)pip instal
阅读全文
摘要:今天学习Tkinter,但一上来就碰到了一个坑:tkinter的PhotoImage不支持jpg格式的图片,似乎它只支持gif(放上去gif也是不能动的gif)。如果使用了jpg格式的图片就会出现如下截图: 上网查询,网上的解决方案是使用Pillow的Image和ImageTk,截止到这一步还没有什
阅读全文
摘要:今天由于某些私人原因,学习时间比较少,学习内容为基础的urllib error。 1、异常处理 一般常用的异常有两个:HTTPError和URLError。 URLError一般出现的情况是没有网络连接 、服务器连接失败、找不到指定的服务器。例子如下: 1 try: 2 url = "https:/
阅读全文
摘要:今天学习了基本的正则表达式,难度的确不小,光这么一天是绝对学不完的,我也只是浅尝辄止。 从网上找了一份关于正则表达式的符号意义:Python3 正则表达式特殊符号及用法(详细列表),很值得参考。其实官方文档上也有,只不过是全英文的: 其实比较常用的正则表达式从网上一搜索就可以得到,但有时候为了某些特
阅读全文
摘要:今天学习内容为正则表达式,这一块我一整天竟然没有学完。 在一开始爬取网页匹配有用的字符串时,我用的是find方法,如下: 1 def find_image(page_url): 2 html = url_open(page_url).decode("utf-8") 3 image_addr = []
阅读全文
摘要:今天的学习内容是利用python对图片进行爬取。 首先找到一个中意的图片网站,打开开发者工具,仔细寻找有关爬取内容的代码 可以很明显的找到.JPG格式的文件,然后直接爬取本网页的源代码,用正则表达式筛选出相应的.JPG文件,读取并保存就可以啦! from urllib import request
阅读全文
摘要:今天进入Python爬虫学习,具体学习内容为下载图片,爬取有道词典的翻译和简单的使用代理。 1、下载图片 非常简单的小脚本,在http://www.placekitten.com网上爬取猫咪的图片 代码如下 1 from urllib import request 2 3 4 def door():
阅读全文

浙公网安备 33010602011771号