python+爬虫学习 - 随笔分类 - 鹤城

爬取新浪网站却不显示内容

摘要：今天尝试爬取新浪微博，但是爬取下来网页的源代码，以html形式打开却发现没有内容，如下图：我查阅了一些资料，发现微博这种主流网页一般都是动态网页，都普遍采用了ajax加载数据，如果我用传统的爬虫post一个url或请求参过去，那么我接受相应的html代码会没有我想要的数据。而抓取动态页面有两种常阅读全文

posted @ 2023-03-10 14:55 鹤城阅读(70) 评论(0) 推荐(0) 编辑

网络爬虫流程总结

摘要：网络爬虫的大体流程其实就是解析网页，爬取网页，保存数据。三个方法，就完成了对网页的爬取，并不是很困难。以下是自己对流程的一些理解和总结，如有错误，欢迎指正。一、解析网页，获取网页源代码首先，我们要了解我们要爬取的网页，以豆瓣为例，我们要了解模拟浏览器头部信息，来伪装成浏览器。以及爬取的内容是什么阅读全文

posted @ 2023-03-09 21:22 鹤城阅读(968) 评论(3) 推荐(4) 编辑

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

摘要：概念网络爬虫就是按照一定的规则，自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页，获取网页中我们需要的数据。基本流程准备工作（构建流程）获取数据解析内容保存数据 1. 准备工作 ''' #执行流程 def main(a): print("hello",a) main(2) i 阅读全文

posted @ 2023-03-06 22:16 鹤城阅读(1056) 评论(2) 推荐(3) 编辑

python爬虫学习——xlwt库，sqlite库

摘要：xlwt库主要是对excel进行操作，主要流程就是创建对象，创建工作表，写入数据，保存数据表。代码练习如下 ''' import xlwt workbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象 workSheet = workbook.ad 阅读全文

posted @ 2023-03-04 19:16 鹤城阅读(42) 评论(0) 推荐(0) 编辑

python爬虫学习——re模块（正则表达式）

摘要：正则表达式常用操作符 . 任何单个字符 [] 字符集，对单个字符给出取值范围 [abc]、[a-z] [^ ] 非字符集，对单个字符给出排除范围 [^abc] * 对前一个字符0次或无限次拓展 abc* + 前一个字符一次或无限次拓展 abc+ ？前一个字符0次或一次拓展 abc？ | 左右表达式阅读全文

posted @ 2023-02-25 19:42 鹤城阅读(20) 评论(0) 推荐(0) 编辑

python爬虫学习——bs4

摘要：##bs4 将一个复杂的html文档转化为一个复杂的树形结构，每个节点都是python对象，所有对象可以分为四种：Tag、NavigableString、BeautifulSoup、Comment from bs4 import BeautifulSoup f = open("./htmlDemo1 阅读全文

posted @ 2023-02-23 22:21 鹤城阅读(45) 评论(0) 推荐(0) 编辑

python爬虫学习——urllib库

摘要：#获取一个get请求 #import urllib.request # response = urllib.request.urlopen("http://www.baidu.com") # print(response.read().decode('utf-8')) #对获取到的网页源码进行utf 阅读全文

posted @ 2023-02-21 17:22 鹤城阅读(28) 评论(0) 推荐(0) 编辑

python终端中使用pip指令下载模块显示SyntaxError: invalid syntax解决办法

摘要：今天学习爬虫导入模块时遇到以下错误，即语法错误 >>> pip bs4 File "<stdin>", line 1 pip bs4 ^^^ SyntaxError: invalid syntax 然后我发现终端已经给出了这段话无法加载文件 E:\pythonProject\demo1_str\v 阅读全文

posted @ 2023-02-21 09:43 鹤城阅读(329) 评论(0) 推荐(0) 编辑

python爬虫学习——文件操作，异常处理

摘要：##文件操作 ''' f = open("a.txt","w") #打开一个文件， w模式（写），如果文件不存在就在当前目录下创建 f.write("hello world,i am here") #将字符串写入文件中 f.close() #关闭文件 ''' ''' #read方法：读取指定的字符，阅读全文

posted @ 2023-02-20 16:55 鹤城阅读(49) 评论(0) 推荐(0) 编辑

python爬虫基本学习——函数

摘要：函数概念：编写程序时，需要某块代码多次，为了提高编写效率和代码的重用，把具有独立功能的代码块组织为一个小模块，即函数。代码练习 ''' #函数的定义 def printinfo(): print(" ") print("人生苦短，我用python") print(" ") #函数的调用 prin 阅读全文

posted @ 2023-02-17 10:12 鹤城阅读(68) 评论(0) 推荐(0) 编辑

python爬虫学习——元组，字典

摘要：元组 ''' tup1 = () #创建一个空的元组 print(type(tup1)) #tup2 = (50) #不是元组，python把括号当成了表达式的一部分，即数学运算的括号 #tup2 = (50,) tup2 = (50,60,70) print(type(tup2)) ''' ''' 阅读全文

posted @ 2023-02-16 14:35 鹤城阅读(117) 评论(2) 推荐(0) 编辑

python爬虫学习——列表

摘要：namelist = [] #定义一个空的列表 namelist1 = ["小张","小红","小李"] print(namelist1[0]) print(namelist1[1]) print(namelist1[2]) testlist = [1,"测试"] #列表中存储混合类型 print( 阅读全文

posted @ 2023-02-13 22:22 鹤城阅读(81) 评论(0) 推荐(0) 编辑

python爬虫学习

摘要：一、字符串 # -*- coding = utf-8 -*- # @Time : 2023/1/8 20:21 # @Author : 鹤城 # @File : demo1.py # @Software : PyCharm ''' word = '字符串' sentence = "双引号一般是句子" 阅读全文

posted @ 2023-02-13 15:07 鹤城阅读(20) 评论(0) 推荐(0) 编辑

python学习课后练习

摘要：此次爬虫学习的资源是B站所找，具体如下：Python课程天花板,Python入门+Python爬虫+Python数据分析5天项目实操/Python基础，该课程留了课后练习，我把自己的代码和想法单独整成一份博客，随着课程更新，也欢迎大家交流指正。 #条件判断语句课后练习 import random u 阅读全文

posted @ 2022-08-26 14:43 鹤城阅读(36) 评论(0) 推荐(0) 编辑

python基础学习2

摘要：今天学习了条件判断语句 # -*- coding = utf-8 -*- # @Time : 2022/8/26 10:25 # @Author : 鹤城 # @File : demo3.py # @Software : PyCharm #条件判断语句 ''' if True: print("Ans 阅读全文

posted @ 2022-08-26 11:06 鹤城阅读(26) 评论(0) 推荐(0) 编辑

python基础学习

摘要：今阅读全文

posted @ 2022-08-26 11:04 鹤城阅读(18) 评论(0) 推荐(0) 编辑

鹤城

随笔分类 - python+爬虫学习

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论