关于爬虫

讨论QQ：1586558083

目录

技术选型
网页分类
爬虫的作用
关于Python爬虫，我们需要学习的有

正文

技术选型

scrapy VS requests+beautifulsoup

1.　requests+beautifulsoup都是库，而scrapy是框架

2.　scrapy框架中可以加入requests+beautifulsoup

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优势

4.　scrapy方便扩展，提供了很多内置的功能

5.　scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢

网页分类

1.　静态网页

2.　动态网页

3.　webservice(rest api)

爬虫的作用

1.　搜索引擎：Googel、百度、垂直领域搜索引擎

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

关于Python爬虫，我们需要学习的有

1. Python基础语法学习（基础知识）

2. HTML页面的内容抓取（数据抓取）

3. HTML页面的数据提取（数据清洗）

4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

posted @ 2018-10-31 16:35 扎心了，老铁阅读(927) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 字符编码：从基础到乱码解决

公告

昵称：扎心了，老铁
园龄： 7年6个月
粉丝： 2299
关注： 55

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Kafka学习之路（一）Kafka的简介
好文
--西红柿炒鸡蛋6
2. Re:Hive学习之路（二十）Hive 执行过程实例分析
可以结合执行后的优化：group by ，distinct ，join 讲一讲
--人生旅行者
3. Re:Day8 类的继承
静态方法也可以重写，如下测试： public class Demo2 extends SuperDemo2{ void overwrite(){ System.out.println("child o...
--人生旅行者
4. Re:Spark学习之路（一）Spark初识
赞
--Marmot1024
5. Re:Spark学习之路（四）Spark的广播变量和累加器
Spark如何读取变化的外部数据源？
--0611163