随笔分类 -  python爬虫

爬虫知识
摘要:1 # 爬虫 2 # 该项目是爬取天天基金网某只基金的净值数据 3 4 # 1.引入包 5 # 网络请求 6 import json 7 8 import requests 9 # 正则 10 import re 11 # 数据分析工具 12 import pandas as pd 13 14 # 阅读全文
posted @ 2023-02-03 23:06 种太阳 阅读(220) 评论(0) 推荐(0) 编辑
摘要:1 # 爬虫 2 # 该项目是爬取天天基金网某只基金的净值数据 3 4 # 1.引入包 5 # 网络请求 6 import json 7 8 import requests 9 # 正则 10 import re 11 # 数据分析工具 12 import pandas as pd 13 14 # 阅读全文
posted @ 2023-02-03 22:48 种太阳 阅读(128) 评论(0) 推荐(0) 编辑
摘要:第一步,需要URL:第二步:头部需要的信息headers:*防盗链(确定来路) Referer*身份证 User-Agentre内置模块匹配括号里面的数据 res=re.findall("\((.*?)\)",要匹配的文本变量) 第三步:数据处理 import pandas as pd df_lis 阅读全文
posted @ 2021-03-09 10:02 种太阳 阅读(8) 评论(0) 推荐(0) 编辑
摘要:#案例练习 def main(): baseurl="https://movie.douban.com/top250?start=" #1.爬取网页 datalist=getData(baseurl) savepath="豆瓣电影Top250.xls" dbpath="movie.db" #3.保存 阅读全文
posted @ 2021-03-09 09:59 种太阳 阅读(32) 评论(0) 推荐(0) 编辑
摘要:workbook=xlwt.Workbook(encoding="utf-8") worksheet=workbook.add_sheet("sheet1") for i in range(0,9): for j in range(0,i+1): worksheet.write(i,j,"%d * 阅读全文
posted @ 2021-03-09 09:57 种太阳 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import xlwt workbook xlwt.Workbook(encoding="utf-8")#创建workbook对象 worksheet=workbook.add_sheet("sheet1")#创建工作表 worksheet.write(0,0,"hello")#写入数据,第一行第一 阅读全文
posted @ 2021-03-09 09:56 种太阳 阅读(6) 评论(0) 推荐(0) 编辑
摘要:print(re.sub("a","A","abcdadgv"))#找到a用A替换,在第三个字符串中查找"a" 阅读全文
posted @ 2021-03-09 09:55 种太阳 阅读(3) 评论(0) 推荐(0) 编辑
摘要:t_list=bs.select("title") #通过标签来查找 t_list=bs.select(".mnav") #通过class类名来查找 t_list=bs.select("#u1") #通过id名来查找 t_list=bs.select("a[class='bri']") #通过某标签 阅读全文
posted @ 2021-03-09 09:53 种太阳 阅读(10) 评论(0) 推荐(0) 编辑
摘要:字符串过滤码:会查找与字符串完全匹配的内容 t_list=bs.find_all("a") print(t_list)#将所有a标签内容放在列表中 正则表达式搜索:使用search()方法来匹配内容 import re t_list=bs.find_all(re.compile("a")) prin 阅读全文
posted @ 2021-03-09 09:42 种太阳 阅读(15) 评论(0) 推荐(0) 编辑
摘要:print(bs.head.contents)#得出来的是列表格式,eg:[xxxx,xxxxx,xxxx] print(bs.head.contents[1])#获取列表中第二个元素 阅读全文
posted @ 2021-03-09 09:40 种太阳 阅读(3) 评论(0) 推荐(0) 编辑
摘要:from bs4 import BeautifulSoup file=open("./baidu.html","rb") html=file.read() bs=BeautifulSoup(html,"html.parser") print(bs.title) print(bs.a)#将打印出第一个 阅读全文
posted @ 2021-03-09 09:38 种太阳 阅读(22) 评论(0) 推荐(0) 编辑
摘要:url="https://www.douban.com" headers={"User-Agent":"处理内容可以去真实浏览器中复制"}#有些网站卡的多,可以多写几个头部键值对信息 req=urllib.request.Request(url=url,headers=headers) respon 阅读全文
posted @ 2021-03-09 09:37 种太阳 阅读(28) 评论(0) 推荐(0) 编辑
摘要:url="http://httpbin.org/post" headers={"User-Agent":"处理内容可以去真实浏览器中复制"}#有些网站卡的多,可以多写几个头部键值对信息 data=bytes(urllib.parse.urlencode({"name":"erick"}),encod 阅读全文
posted @ 2021-03-09 09:35 种太阳 阅读(102) 评论(0) 推荐(0) 编辑
摘要:print(response.statu)#获取状态码 print(response.getheaders())#获取响应头信息 print(response.getheader('Server'))#获取头部信息里面单个内容信息 阅读全文
posted @ 2021-03-09 09:34 种太阳 阅读(5) 评论(0) 推荐(0) 编辑
摘要:try: response=urllib.request.urlopen("http://httpbin.org/get",timeout=0.01)#如果0.01秒内数据没有响应就超时 print(response.read().decode("utf-8")) except utllib.err 阅读全文
posted @ 2021-03-09 09:32 种太阳 阅读(8) 评论(0) 推荐(0) 编辑
摘要:import urllib.parse data=bytes(urllib.parse.urlencode({"hello":"world"}),encoding="utf-8") response=urllib.request.urlopen("http://httpbin.org/post",d 阅读全文
posted @ 2021-03-09 09:30 种太阳 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import urllib.request response =urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('utf-8'))#对获取到的网页源码进行utf-8解码 阅读全文
posted @ 2021-03-09 09:29 种太阳 阅读(7) 评论(0) 推荐(0) 编辑
摘要:1.爬取网页 2.逐一解析数据3.讲想要的数据保存 阅读全文
posted @ 2021-03-09 09:27 种太阳 阅读(21) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示