2021 年 5月随笔档案 - 王陸

Python网络爬虫 Scrapy动态加载+请求传参练习

摘要：一、背景采集企业官网的产品数据，以ASM-Pacific科技公司https://www.asmpacific.com/zh-cn/为例。网站数据是动态加载的，点击加载更多进行抓包。看到Request URL为：https://www.asmpacific.com/zh-cn/index.php

338

0

Python网络爬虫第七章 Scrapy框架

摘要：## 一、Scrapy简介 **什么是框架？** 所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板，该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。 **如何学习框架？** 对于刚接触编程或者初级程序员来讲，对于一个新的框架，只需要掌握该框架的作用及其各个

192

0

Java 反射

摘要：一、反射Reflection Reflection（反射）是被视为动态语言的关键，反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息，并能直接操作任意对象的内部属性及方法。加载完类之后，在堆内存的方法区中就产生了一个Class类型的对象（一个类只有一个Class对象），这

657

1

0

XPath解析

摘要：使用XPath用来解析网页已经在https://www.cnblogs.com/wkfvawl/p/14725960.html上面提到了一点，但不是很详细，这里结合w3school的教程，使用python实践一下。 https://www.w3school.com.cn/xpath/index.as

738

1

Java 注解

摘要：一、注解 (Annotation) 概述从 JDK 5.0 开始, Java 增加了对元数据(MetaData) 的支持, 也就是Annotation(注解) Annotation 其实就是代码里的特殊标记, 这些标记可以在编译, 类加载, 运行时被读取, 并执行相应的处理。通过使用 Annota

141

0

1

Java 枚举类

摘要：一、枚举类定义类似这种当一个变量有几种固定可能的取值时，就可以将它定义为枚举类型。举例如下：星期：Monday(星期一)、......、Sunday(星期天) 性别：Man(男)、Woman(女) 季节：Spring(春节)......Winter(冬天) 支付方式：Cash（现金）、WeCha

470

0

1

Python网络爬虫第六章自动化

摘要：一、selenium引入概述我们在抓取⼀些普通⽹⻚的时候requests基本上是可以满⾜的，但是，如果遇到⼀些特殊的⽹站，它的数据是经过加密的，但是浏览器却能够正常显示出来。那我们通过requests抓取到的内容可能就不是我们想要的结果了。例如，电影票房数据，在浏览器上看的时候是正常的。那么按照

471

0

Java 单例模式

摘要：一、单例模式的应用单例对象（Singleton）是一种常用的设计模式。在 Java 应用中，单例对象能保证在一个 JVM中，该对象只有一个实例存在。这样的模式有几个好处： 1、某些类创建比较频繁，对于一些大型的对象，这是一笔很大的系统开销。 2、省去了 new 操作符，降低了系统内存的使用频率，减

1000

0

Java String类

摘要：一、String特性 String类：代表字符串。Java 程序中的所有字符串字面值（如"abc" ）都作为此类的实例实现。 String源码部分： public final class String implements java.io.Serializable, Comparable<Strin

306

0

Java 多线程

摘要：本篇文章会涉及到操作系统中的一些概念，如：程序、进程、线程、并发、并行、单核、多核、死锁等，这里不再赘述，只专注于实现。一、线程的创建和启动 Java语言的JVM允许程序运行多个线程，它通过java.lang.Thread类来体现。 Thread类的特性每个线程都是通过某个特定Thread对象的

145

0

Python网络爬虫第五章抓取视频

摘要：之前在第三章的例子中爬取了梨视频的视频，那么那种方式是否也适合爬取电视剧或者电影呢？其实不是这样的。我们想要抓取⽹上的视频资源就必须要了解我们的视频⽹站是如何⼯作的，这⾥我⽤91看剧来做举例.，其他⽹站的原理是⼀样的。一、视频⽹站是如何⼯作的假设, 你现在想要做⼀个视频⽹站. 也有很多的UP主

3356

0

Python网络爬虫第四章多线程+异步协程

摘要：一、多线程抓取北京新发地菜价多线程、多进程和线程池等的概念，我单独成章了，算到Python基础知识里面，https://www.cnblogs.com/wkfvawl/p/14729542.html 这里就直接开启练习，抓取菜价其实在第二章已经讲过了，那时候用的是bs4解析的网页，这里使用xpat

1164

1

0

Python多线程与多进程

摘要：一、基本概念线程和进程是操作系统中经常考察的概念。区别和联系可以查看我之前的博客https://www.cnblogs.com/wkfvawl/p/14407427.html#scroller-6 进程进程是程序在计算机上的一次执行活动。从内核的观点看，进程的目的就是担当分配系统资源（CPU时间

477

0

Python网络爬虫第三章 requests进阶

摘要：我们在之前的爬⾍中其实已经使⽤过headers了。 header为HTTP协议中的请求头. ⼀般存放⼀些和请求内容⽆关的数据，有时也会存放⼀些安全验证信息.⽐如常⻅的User-Agent, token, cookie等。通过requests发送的请求, 我们可以把请求头信息放在headers中，也

463

2

0

Python网络爬虫第二章数据解析

摘要：一、数据解析概述在上⼀章中, 我们基本上掌握了抓取整个⽹⻚的基本技能. 但是呢, ⼤多数情况下, 我们并不需要整个⽹⻚的内容, 只是需要那么⼀⼩部分.怎么办呢? 这就涉及到了数据提取的问题.本课程中, 提供三种解析⽅式: 1. re解析 2. bs4解析 3. xpath解析这三种⽅式可以混合进

475

0

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

05 2021 档案

公告

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

最新评论