摘要:
初学图像处理,做了一个车牌提取项目,本博客仅仅是为了记录一下学习过程,该项目只具备初级功能,还有待改善 第一部分:车牌倾斜矫正 # 导入所需模块 import cv2 import math from matplotlib import pyplot as plt # 显示图片 def cv_sho 阅读全文
摘要:
今天用scrapy框架爬取一下所有知乎用户的信息。道理很简单,找一个知乎大V(就是粉丝和关注量都很多的那种),找到他的粉丝和他关注的人的信息,然后分别再找这些人的粉丝和关注的人的信息,层层递进,这样下来,只要有关注的人或者有粉丝的账号,几乎都能被爬下来。话不多说,进入正题。 1、首先按照上篇博客的介 阅读全文
摘要:
今天来总结一下Scrapy框架的用法。scrapy的架构如下: Engine :引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Items :项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该 Items 对象。 Scheduler :调度器,接受 Engine 发过来的请求,并 阅读全文
摘要:
这是我第一个全程自己动手做的项目,算得上是中小型的吧。 直接进入正题,这个项目要求是:1. 从豆瓣爬取相关图书标签; 2. 将不同种类的图书列为几个不同的列表,将各自种类的图书标签存进去; 3. 没有IP代理池,采用了延时的笨方法。 直接上代码: 项目制作流程:1.先按照以前的经验,爬取了“小说”的 阅读全文
摘要:
今天要对CSS选择器的使用方法做一个全面的总结(几乎全部是从这篇文章摘抄的 https://blog.csdn.net/qq_39241986/article/details/82185697) CSS选择器常用类型 举例练习,爬取 http://python.jobbole.com/89196/ 阅读全文
摘要:
先附上一段 “百度翻译” 的爬虫代码 1. 其中,data = parse.urlencode(data).encode('utf-8') 的作用是,将字典里面所有的键值转化为 query-string 格式(key=value&key=value),并且将中文转码。 2. 然后,req = req 阅读全文
摘要:
这周打算把学过的内容重新总结一下,便于以后翻阅查找资料。 urllib库是python的内置库,不需要单独下载。其主要分为四个模块: 1.urllib.request——请求模块 2.urllib.error——异常处理模块 3.urllib.parse——url解析模块 4.urllib.robo 阅读全文
摘要:
按理说这篇随笔上周就要写的,可用 request 一直获取不到详情页信息,这天在网上看到一个说法,说是在 requests.get 后加个 headers 就好了,试了试果然可以实现,于是重新回顾一下,正好对 pyquery 的使用方法理解的差不多了,今天用三种方法分别介绍一下猫眼电影的爬取。 一般 阅读全文
摘要:
源代码如下: 困难一:刚开始一直按照崔庆才老师的视频教学编写程序,由于是2017年的教学视频,和现在的淘宝页面有些不太一样,每次点击搜索按钮都需要扫描登陆进去才行,结果更换页面后,搜索的 ‘’美食‘’ 就变成了繁体字,可能是不同加载页面的请求方式不同,前者是 Get 方法,后者是 Post 方法,造 阅读全文
摘要:
一、上节内容回顾 迭代器运行的三种方式: t.__next__(), next(t), t.send() 使用迭代器,计算一段文字中,每个单词出现的位置 二、装饰器 装饰器 = 高阶函数 + 函数嵌套 + 闭包 仅用高阶函数做不到添加装饰器功能 利用闭包功能实现装饰器 阅读全文