鹤城 - 博客园

2023年3月10日

摘要：今天尝试爬取新浪微博，但是爬取下来网页的源代码，以html形式打开却发现没有内容，如下图：我查阅了一些资料，发现微博这种主流网页一般都是动态网页，都普遍采用了ajax加载数据，如果我用传统的爬虫post一个url或请求参过去，那么我接受相应的html代码会没有我想要的数据。而抓取动态页面有两种常阅读全文

posted @ 2023-03-10 14:55 鹤城阅读(64) 评论(0) 推荐(0) 编辑

2023年3月9日

网络爬虫流程总结

摘要：网络爬虫的大体流程其实就是解析网页，爬取网页，保存数据。三个方法，就完成了对网页的爬取，并不是很困难。以下是自己对流程的一些理解和总结，如有错误，欢迎指正。一、解析网页，获取网页源代码首先，我们要了解我们要爬取的网页，以豆瓣为例，我们要了解模拟浏览器头部信息，来伪装成浏览器。以及爬取的内容是什么阅读全文

posted @ 2023-03-09 21:22 鹤城阅读(888) 评论(3) 推荐(4) 编辑

2023年3月6日

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

摘要：概念网络爬虫就是按照一定的规则，自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页，获取网页中我们需要的数据。基本流程准备工作（构建流程）获取数据解析内容保存数据 1. 准备工作 ''' #执行流程 def main(a): print("hello",a) main(2) i 阅读全文

posted @ 2023-03-06 22:16 鹤城阅读(984) 评论(2) 推荐(3) 编辑

2023年3月4日

python爬虫学习——xlwt库，sqlite库

摘要： xlwt库主要是对excel进行操作，主要流程就是创建对象，创建工作表，写入数据，保存数据表。代码练习如下 ''' import xlwt workbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象 workSheet = workbook.ad 阅读全文

posted @ 2023-03-04 19:16 鹤城阅读(35) 评论(0) 推荐(0) 编辑

Exception in thread "main" org.apache.ibatis.exceptions.PersistenceException: 解决办法

摘要： Exception in thread "main" org.apache.ibatis.exceptions.PersistenceException: 线程“main”org.apache.ibatis.exceptions.PersistenceException中的异常：今天学习mybat 阅读全文

posted @ 2023-03-04 17:20 鹤城阅读(389) 评论(0) 推荐(0) 编辑

第二三周学习总结

摘要：第二周明显有所懈怠，靡不有初，鲜克有终。坚持，努力。这两周还在爬虫，学习了urllib库，bs4模块，re库，分别是伪装浏览器，解析数据，字符串规则，目前还差保存数据模块，即xlwt库，等学完就把完整爬取豆瓣的过程发表博客，预计今天完成。总之最近太懈怠了，千万别走原来的老路。阅读全文

posted @ 2023-03-04 14:35 鹤城阅读(16) 评论(0) 推荐(0) 编辑

2023年2月25日

python爬虫学习——re模块（正则表达式）

摘要：正则表达式常用操作符 . 任何单个字符 [] 字符集，对单个字符给出取值范围 [abc]、[a-z] [^ ] 非字符集，对单个字符给出排除范围 [^abc] * 对前一个字符0次或无限次拓展 abc* + 前一个字符一次或无限次拓展 abc+ ？前一个字符0次或一次拓展 abc？ | 左右表达式阅读全文

posted @ 2023-02-25 19:42 鹤城阅读(17) 评论(0) 推荐(0) 编辑

2023年2月23日

python爬虫学习——bs4

摘要： ##bs4 将一个复杂的html文档转化为一个复杂的树形结构，每个节点都是python对象，所有对象可以分为四种：Tag、NavigableString、BeautifulSoup、Comment from bs4 import BeautifulSoup f = open("./htmlDemo1 阅读全文

posted @ 2023-02-23 22:21 鹤城阅读(41) 评论(0) 推荐(0) 编辑

2023年2月22日

第一周学习总结（02.21）

摘要：这一周主要学习了python爬虫，主要是列表，元组，函数，文件操作，异常处理和爬虫基本概念的学习，除此之外还学习了一点xml。列表：[]，列表可以存储混合类型，for循环遍历输出，以及列表的增删改查，增：append，extend，insert：删：pop，del，remove，查in，not i 阅读全文

posted @ 2023-02-22 00:00 鹤城阅读(21) 评论(0) 推荐(0) 编辑

2023年2月21日

python爬虫学习——urllib库

摘要： #获取一个get请求 #import urllib.request # response = urllib.request.urlopen("http://www.baidu.com") # print(response.read().decode('utf-8')) #对获取到的网页源码进行utf 阅读全文

posted @ 2023-02-21 17:22 鹤城阅读(27) 评论(0) 推荐(0) 编辑

鹤城

公告