随笔分类 -  python+爬虫学习

摘要:今天尝试爬取新浪微博,但是爬取下来网页的源代码,以html形式打开却发现没有内容,如下图: 我查阅了一些资料,发现微博这种主流网页一般都是动态网页,都普遍采用了ajax加载数据,如果我用传统的爬虫post一个url或请求参过去,那么我接受相应的html代码会没有我想要的数据。 而抓取动态页面有两种常 阅读全文
posted @ 2023-03-10 14:55 鹤城 阅读(70) 评论(0) 推荐(0) 编辑
摘要:网络爬虫的大体流程其实就是解析网页,爬取网页,保存数据。三个方法,就完成了对网页的爬取,并不是很困难。以下是自己对流程的一些理解和总结,如有错误,欢迎指正。 一、解析网页,获取网页源代码 首先,我们要了解我们要爬取的网页,以豆瓣为例,我们要了解模拟浏览器头部信息,来伪装成浏览器。以及爬取的内容是什么 阅读全文
posted @ 2023-03-09 21:22 鹤城 阅读(968) 评论(3) 推荐(4) 编辑
摘要:概念 网络爬虫就是按照一定的规则,自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页,获取网页中我们需要的数据。 基本流程 准备工作(构建流程) 获取数据 解析内容 保存数据 1. 准备工作 ''' #执行流程 def main(a): print("hello",a) main(2) i 阅读全文
posted @ 2023-03-06 22:16 鹤城 阅读(1056) 评论(2) 推荐(3) 编辑
摘要:xlwt库主要是对excel进行操作,主要流程就是创建对象,创建工作表,写入数据,保存数据表。代码练习如下 ''' import xlwt workbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象 workSheet = workbook.ad 阅读全文
posted @ 2023-03-04 19:16 鹤城 阅读(42) 评论(0) 推荐(0) 编辑
摘要:正则表达式常用操作符 . 任何单个字符 [] 字符集,对单个字符给出取值范围 [abc]、[a-z] [^ ] 非字符集,对单个字符给出排除范围 [^abc] * 对前一个字符0次或无限次拓展 abc* + 前一个字符一次或无限次拓展 abc+ ? 前一个字符0次或一次拓展 abc? | 左右表达式 阅读全文
posted @ 2023-02-25 19:42 鹤城 阅读(20) 评论(0) 推荐(0) 编辑
摘要:##bs4 将一个复杂的html文档转化为一个复杂的树形结构,每个节点都是python对象,所有对象可以分为四种:Tag、NavigableString、BeautifulSoup、Comment from bs4 import BeautifulSoup f = open("./htmlDemo1 阅读全文
posted @ 2023-02-23 22:21 鹤城 阅读(45) 评论(0) 推荐(0) 编辑
摘要:#获取一个get请求 #import urllib.request # response = urllib.request.urlopen("http://www.baidu.com") # print(response.read().decode('utf-8')) #对获取到的网页源码进行utf 阅读全文
posted @ 2023-02-21 17:22 鹤城 阅读(28) 评论(0) 推荐(0) 编辑
摘要:今天学习爬虫导入模块时遇到以下错误,即语法错误 >>> pip bs4 File "<stdin>", line 1 pip bs4 ^^^ SyntaxError: invalid syntax 然后我发现终端已经给出了这段话 无法加载文件 E:\pythonProject\demo1_str\v 阅读全文
posted @ 2023-02-21 09:43 鹤城 阅读(329) 评论(0) 推荐(0) 编辑
摘要:##文件操作 ''' f = open("a.txt","w") #打开一个文件, w模式(写),如果文件不存在就在当前目录下创建 f.write("hello world,i am here") #将字符串写入文件中 f.close() #关闭文件 ''' ''' #read方法:读取指定的字符, 阅读全文
posted @ 2023-02-20 16:55 鹤城 阅读(49) 评论(0) 推荐(0) 编辑
摘要:函数 概念:编写程序时,需要某块代码多次,为了提高编写效率和代码的重用,把具有独立功能的代码块组织为一个小模块,即函数。 代码练习 ''' #函数的定义 def printinfo(): print(" ") print("人生苦短,我用python") print(" ") #函数的调用 prin 阅读全文
posted @ 2023-02-17 10:12 鹤城 阅读(68) 评论(0) 推荐(0) 编辑
摘要:元组 ''' tup1 = () #创建一个空的元组 print(type(tup1)) #tup2 = (50) #不是元组,python把括号当成了表达式的一部分,即数学运算的括号 #tup2 = (50,) tup2 = (50,60,70) print(type(tup2)) ''' ''' 阅读全文
posted @ 2023-02-16 14:35 鹤城 阅读(117) 评论(2) 推荐(0) 编辑
摘要:namelist = [] #定义一个空的列表 namelist1 = ["小张","小红","小李"] print(namelist1[0]) print(namelist1[1]) print(namelist1[2]) testlist = [1,"测试"] #列表中存储混合类型 print( 阅读全文
posted @ 2023-02-13 22:22 鹤城 阅读(81) 评论(0) 推荐(0) 编辑
摘要:一、字符串 # -*- coding = utf-8 -*- # @Time : 2023/1/8 20:21 # @Author : 鹤城 # @File : demo1.py # @Software : PyCharm ''' word = '字符串' sentence = "双引号一般是句子" 阅读全文
posted @ 2023-02-13 15:07 鹤城 阅读(20) 评论(0) 推荐(0) 编辑
摘要:此次爬虫学习的资源是B站所找,具体如下:Python课程天花板,Python入门+Python爬虫+Python数据分析5天项目实操/Python基础,该课程留了课后练习,我把自己的代码和想法单独整成一份博客,随着课程更新,也欢迎大家交流指正。 #条件判断语句课后练习 import random u 阅读全文
posted @ 2022-08-26 14:43 鹤城 阅读(36) 评论(0) 推荐(0) 编辑
摘要:今天学习了条件判断语句 # -*- coding = utf-8 -*- # @Time : 2022/8/26 10:25 # @Author : 鹤城 # @File : demo3.py # @Software : PyCharm #条件判断语句 ''' if True: print("Ans 阅读全文
posted @ 2022-08-26 11:06 鹤城 阅读(26) 评论(0) 推荐(0) 编辑
摘要:今 阅读全文
posted @ 2022-08-26 11:04 鹤城 阅读(18) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示