python爬虫 - 随笔分类 - 种太阳

18.获取天天基金基金的净值数，封装成方法

摘要：1 # 爬虫 2 # 该项目是爬取天天基金网某只基金的净值数据 3 4 # 1.引入包 5 # 网络请求 6 import json 7 8 import requests 9 # 正则 10 import re 11 # 数据分析工具 12 import pandas as pd 13 14 # 阅读全文

posted @ 2023-02-03 23:06 种太阳阅读(220) 评论(0) 推荐(0) 编辑

17.爬取天天基金中万家精选混合A (519185)的净值数据

摘要：1 # 爬虫 2 # 该项目是爬取天天基金网某只基金的净值数据 3 4 # 1.引入包 5 # 网络请求 6 import json 7 8 import requests 9 # 正则 10 import re 11 # 数据分析工具 12 import pandas as pd 13 14 # 阅读全文

posted @ 2023-02-03 22:48 种太阳阅读(128) 评论(0) 推荐(0) 编辑

16.天天基金爬取，知识要点补充

摘要：第一步，需要URL：第二步：头部需要的信息headers：*防盗链(确定来路) Referer*身份证 User-Agentre内置模块匹配括号里面的数据 res=re.findall("\((.*?)\)",要匹配的文本变量) 第三步：数据处理 import pandas as pd df_lis 阅读全文

posted @ 2021-03-09 10:02 种太阳阅读(8) 评论(0) 推荐(0) 编辑

15.豆瓣网内容爬取案例

摘要：#案例练习 def main(): baseurl="https://movie.douban.com/top250?start=" #1.爬取网页 datalist=getData(baseurl) savepath="豆瓣电影Top250.xls" dbpath="movie.db" #3.保存阅读全文

posted @ 2021-03-09 09:59 种太阳阅读(32) 评论(0) 推荐(0) 编辑

14.九九乘法表在excel中显示

摘要：workbook=xlwt.Workbook(encoding="utf-8") worksheet=workbook.add_sheet("sheet1") for i in range(0,9): for j in range(0,i+1): worksheet.write(i,j,"%d * 阅读全文

posted @ 2021-03-09 09:57 种太阳阅读(4) 评论(0) 推荐(0) 编辑

13.保存数据到excel

摘要：import xlwt workbook xlwt.Workbook(encoding="utf-8")#创建workbook对象 worksheet=workbook.add_sheet("sheet1")#创建工作表 worksheet.write(0,0,"hello")#写入数据，第一行第一阅读全文

posted @ 2021-03-09 09:56 种太阳阅读(6) 评论(0) 推荐(0) 编辑

12.正则

摘要：print(re.sub("a","A","abcdadgv"))#找到a用A替换,在第三个字符串中查找"a" 阅读全文

posted @ 2021-03-09 09:55 种太阳阅读(3) 评论(0) 推荐(0) 编辑

11.css选择器

摘要：t_list=bs.select("title") #通过标签来查找 t_list=bs.select(".mnav") #通过class类名来查找 t_list=bs.select("#u1") #通过id名来查找 t_list=bs.select("a[class='bri']") #通过某标签阅读全文

posted @ 2021-03-09 09:53 种太阳阅读(10) 评论(0) 推荐(0) 编辑

10.文档的搜索find_all()

摘要：字符串过滤码：会查找与字符串完全匹配的内容 t_list=bs.find_all("a") print(t_list)#将所有a标签内容放在列表中正则表达式搜索：使用search()方法来匹配内容 import re t_list=bs.find_all(re.compile("a")) prin 阅读全文

posted @ 2021-03-09 09:42 种太阳阅读(15) 评论(0) 推荐(0) 编辑

9.文档的遍历

摘要：print(bs.head.contents)#得出来的是列表格式，eg:[xxxx,xxxxx,xxxx] print(bs.head.contents[1])#获取列表中第二个元素阅读全文

posted @ 2021-03-09 09:40 种太阳阅读(3) 评论(0) 推荐(0) 编辑

8.解析HTML单个标签

摘要：from bs4 import BeautifulSoup file=open("./baidu.html","rb") html=file.read() bs=BeautifulSoup(html,"html.parser") print(bs.title) print(bs.a)#将打印出第一个阅读全文

posted @ 2021-03-09 09:38 种太阳阅读(22) 评论(0) 推荐(0) 编辑

7.模拟真实浏览器访问网站,get请求方式

摘要：url="https://www.douban.com" headers={"User-Agent":"处理内容可以去真实浏览器中复制"}#有些网站卡的多，可以多写几个头部键值对信息 req=urllib.request.Request(url=url,headers=headers) respon 阅读全文

posted @ 2021-03-09 09:37 种太阳阅读(28) 评论(0) 推荐(0) 编辑

6.模拟真实浏览器访问网站,post请求方式

摘要：url="http://httpbin.org/post" headers={"User-Agent":"处理内容可以去真实浏览器中复制"}#有些网站卡的多，可以多写几个头部键值对信息 data=bytes(urllib.parse.urlencode({"name":"erick"}),encod 阅读全文

posted @ 2021-03-09 09:35 种太阳阅读(102) 评论(0) 推荐(0) 编辑

5.response的一些功能

摘要：print(response.statu)#获取状态码 print(response.getheaders())#获取响应头信息 print(response.getheader('Server'))#获取头部信息里面单个内容信息阅读全文

posted @ 2021-03-09 09:34 种太阳阅读(5) 评论(0) 推荐(0) 编辑

4.测试超时异常处理

摘要：try: response=urllib.request.urlopen("http://httpbin.org/get",timeout=0.01)#如果0.01秒内数据没有响应就超时 print(response.read().decode("utf-8")) except utllib.err 阅读全文

posted @ 2021-03-09 09:32 种太阳阅读(8) 评论(0) 推荐(0) 编辑

3.获取一个post请求

摘要：import urllib.parse data=bytes(urllib.parse.urlencode({"hello":"world"}),encoding="utf-8") response=urllib.request.urlopen("http://httpbin.org/post",d 阅读全文

posted @ 2021-03-09 09:30 种太阳阅读(4) 评论(0) 推荐(0) 编辑

2.获取一个get请求

摘要：import urllib.request response =urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('utf-8'))#对获取到的网页源码进行utf-8解码阅读全文

posted @ 2021-03-09 09:29 种太阳阅读(7) 评论(0) 推荐(0) 编辑

1.爬虫三步骤

摘要：1.爬取网页 2.逐一解析数据3.讲想要的数据保存阅读全文

posted @ 2021-03-09 09:27 种太阳阅读(21) 评论(0) 推荐(0) 编辑

种太阳

随笔分类 - python爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论