*精灵鼠*

2020年6月28日

摘要：初学图像处理，做了一个车牌提取项目，本博客仅仅是为了记录一下学习过程，该项目只具备初级功能，还有待改善第一部分：车牌倾斜矫正 # 导入所需模块 import cv2 import math from matplotlib import pyplot as plt # 显示图片 def cv_sho 阅读全文

posted @ 2020-06-28 17:22 *精灵鼠* 阅读(1161) 评论(0) 推荐(0) 编辑

2018年12月10日

Srapy 爬取知乎用户信息

摘要：今天用scrapy框架爬取一下所有知乎用户的信息。道理很简单，找一个知乎大V（就是粉丝和关注量都很多的那种），找到他的粉丝和他关注的人的信息，然后分别再找这些人的粉丝和关注的人的信息，层层递进，这样下来，只要有关注的人或者有粉丝的账号，几乎都能被爬下来。话不多说，进入正题。 1、首先按照上篇博客的介阅读全文

posted @ 2018-12-10 18:13 *精灵鼠* 阅读(231) 评论(0) 推荐(0) 编辑

2018年12月9日

Scrapy框架简介及小项目应用

摘要：今天来总结一下Scrapy框架的用法。scrapy的架构如下： Engine ：引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心。 Items ：项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该 Items 对象。 Scheduler ：调度器，接受 Engine 发过来的请求，并阅读全文

posted @ 2018-12-09 19:50 *精灵鼠* 阅读(267) 评论(0) 推荐(0) 编辑

2018年12月3日

豆瓣爬取图书标签

摘要：这是我第一个全程自己动手做的项目，算得上是中小型的吧。直接进入正题，这个项目要求是：1. 从豆瓣爬取相关图书标签； 2. 将不同种类的图书列为几个不同的列表，将各自种类的图书标签存进去； 3. 没有IP代理池，采用了延时的笨方法。直接上代码：项目制作流程：1.先按照以前的经验，爬取了“小说”的阅读全文

posted @ 2018-12-03 23:54 *精灵鼠* 阅读(229) 评论(0) 推荐(0) 编辑

2018年11月30日

CSS选择器使用

摘要：今天要对CSS选择器的使用方法做一个全面的总结（几乎全部是从这篇文章摘抄的 https://blog.csdn.net/qq_39241986/article/details/82185697） CSS选择器常用类型举例练习，爬取 http://python.jobbole.com/89196/ 阅读全文

posted @ 2018-11-30 16:22 *精灵鼠* 阅读(365) 评论(0) 推荐(0) 编辑

2018年11月28日

关于 urlencode 的使用和 json 模块的介绍

摘要：先附上一段 “百度翻译” 的爬虫代码 1. 其中，data = parse.urlencode(data).encode('utf-8') 的作用是，将字典里面所有的键值转化为 query-string 格式（key=value&key=value），并且将中文转码。 2. 然后，req = req 阅读全文

posted @ 2018-11-28 16:11 *精灵鼠* 阅读(2011) 评论(0) 推荐(0) 编辑

2018年11月26日

urllib库使用方法

摘要：这周打算把学过的内容重新总结一下，便于以后翻阅查找资料。 urllib库是python的内置库，不需要单独下载。其主要分为四个模块： 1.urllib.request——请求模块 2.urllib.error——异常处理模块 3.urllib.parse——url解析模块 4.urllib.robo 阅读全文

posted @ 2018-11-26 16:14 *精灵鼠* 阅读(576) 评论(0) 推荐(0) 编辑

2018年11月23日

猫眼电影的各种爬取方法

摘要：按理说这篇随笔上周就要写的，可用 request 一直获取不到详情页信息，这天在网上看到一个说法，说是在 requests.get 后加个 headers 就好了，试了试果然可以实现，于是重新回顾一下，正好对 pyquery 的使用方法理解的差不多了，今天用三种方法分别介绍一下猫眼电影的爬取。一般阅读全文

posted @ 2018-11-23 15:48 *精灵鼠* 阅读(2700) 评论(0) 推荐(1) 编辑

2018年11月13日

淘宝商品信息爬取

摘要：源代码如下：困难一：刚开始一直按照崔庆才老师的视频教学编写程序，由于是2017年的教学视频，和现在的淘宝页面有些不太一样，每次点击搜索按钮都需要扫描登陆进去才行，结果更换页面后，搜索的 ‘’美食‘’ 就变成了繁体字，可能是不同加载页面的请求方式不同，前者是 Get 方法，后者是 Post 方法，造阅读全文

posted @ 2018-11-13 11:40 *精灵鼠* 阅读(422) 评论(0) 推荐(0) 编辑

2018年11月7日

day20

摘要：一、上节内容回顾迭代器运行的三种方式: t.__next__(), next(t), t.send() 使用迭代器，计算一段文字中，每个单词出现的位置二、装饰器装饰器 = 高阶函数 + 函数嵌套 + 闭包仅用高阶函数做不到添加装饰器功能利用闭包功能实现装饰器阅读全文

posted @ 2018-11-07 13:27 *精灵鼠* 阅读(153) 评论(0) 推荐(0) 编辑

公告

精灵鼠