摘要:
今天尝试爬取新浪微博,但是爬取下来网页的源代码,以html形式打开却发现没有内容,如下图: 我查阅了一些资料,发现微博这种主流网页一般都是动态网页,都普遍采用了ajax加载数据,如果我用传统的爬虫post一个url或请求参过去,那么我接受相应的html代码会没有我想要的数据。 而抓取动态页面有两种常 阅读全文
摘要:
网络爬虫的大体流程其实就是解析网页,爬取网页,保存数据。三个方法,就完成了对网页的爬取,并不是很困难。以下是自己对流程的一些理解和总结,如有错误,欢迎指正。 一、解析网页,获取网页源代码 首先,我们要了解我们要爬取的网页,以豆瓣为例,我们要了解模拟浏览器头部信息,来伪装成浏览器。以及爬取的内容是什么 阅读全文
摘要:
概念 网络爬虫就是按照一定的规则,自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页,获取网页中我们需要的数据。 基本流程 准备工作(构建流程) 获取数据 解析内容 保存数据 1. 准备工作 ''' #执行流程 def main(a): print("hello",a) main(2) i 阅读全文
摘要:
xlwt库主要是对excel进行操作,主要流程就是创建对象,创建工作表,写入数据,保存数据表。代码练习如下 ''' import xlwt workbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象 workSheet = workbook.ad 阅读全文
摘要:
Exception in thread "main" org.apache.ibatis.exceptions.PersistenceException: 线程“main”org.apache.ibatis.exceptions.PersistenceException中的异常: 今天学习mybat 阅读全文
摘要:
第二周明显有所懈怠,靡不有初,鲜克有终。坚持,努力。 这两周还在爬虫,学习了urllib库,bs4模块,re库,分别是伪装浏览器,解析数据,字符串规则,目前还差保存数据模块,即xlwt库,等学完就把完整爬取豆瓣的过程发表博客,预计今天完成。总之最近太懈怠了,千万别走原来的老路。 阅读全文
摘要:
正则表达式常用操作符 . 任何单个字符 [] 字符集,对单个字符给出取值范围 [abc]、[a-z] [^ ] 非字符集,对单个字符给出排除范围 [^abc] * 对前一个字符0次或无限次拓展 abc* + 前一个字符一次或无限次拓展 abc+ ? 前一个字符0次或一次拓展 abc? | 左右表达式 阅读全文
摘要:
##bs4 将一个复杂的html文档转化为一个复杂的树形结构,每个节点都是python对象,所有对象可以分为四种:Tag、NavigableString、BeautifulSoup、Comment from bs4 import BeautifulSoup f = open("./htmlDemo1 阅读全文
摘要:
这一周主要学习了python爬虫,主要是列表,元组,函数,文件操作,异常处理和爬虫基本概念的学习,除此之外还学习了一点xml。 列表:[],列表可以存储混合类型,for循环遍历输出,以及列表的增删改查,增:append,extend,insert:删:pop,del,remove,查in,not i 阅读全文
摘要:
#获取一个get请求 #import urllib.request # response = urllib.request.urlopen("http://www.baidu.com") # print(response.read().decode('utf-8')) #对获取到的网页源码进行utf 阅读全文