胡辣汤王子

2020年3月12日

摘要： import requests from lxml import etree url="https://www.piaohua.com/" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 阅读全文

posted @ 2020-03-12 00:17 胡辣汤王子阅读(1056) 评论(0) 推荐(0)

2020年3月11日

错误类型：TypeError: 'method' object is not subscriptable

摘要：可能是由于函数括号写错，或者哪里写的不够规范错误代码如下： title=li.xpath[".//a/@href"] 此时会报错：TypeError: 'method' object is not subscriptable 修改后： title=li.xpath(".//a/@href") 正确阅读全文

posted @ 2020-03-11 23:36 胡辣汤王子阅读(6815) 评论(0) 推荐(0)

爬虫08-xpath语法练习

摘要： from lxml import etree parser=etree.HTMLParser(encoding="utf-8") html=etree.parse("test.html",parser=parser) html2=etree.parse("lagou.html",parser=par 阅读全文

posted @ 2020-03-11 19:42 胡辣汤王子阅读(306) 评论(0) 推荐(0)

爬虫08-lxm读取网页文件方法

摘要： from lxml import etree text=""" <html> <head> <title>表格标签学习</title> <meta charset="UTF-8"/> <pre> 表格标签学习: table :声明一个表格 tr:声明一行,设置行高及改行所有单元格的高度. th:声明阅读全文

posted @ 2020-03-11 19:41 胡辣汤王子阅读(195) 评论(0) 推荐(0)

爬虫07-requests库cookie和session

摘要： import requests#1.获取cookiesresp=requests.get("http://www.baidu.com")print(resp.cookies.get_dict())#2.sessiondapeng_url="http://www.renren.com/88015124 阅读全文

posted @ 2020-03-11 19:39 胡辣汤王子阅读(255) 评论(0) 推荐(0)

爬虫06-处理不信任的SSL证书

摘要： resp=request.get("http://www.12306.cn/",verify=False)#添加verify参数即可 print(resp.content.decode("utf-8")) 阅读全文

posted @ 2020-03-11 15:32 胡辣汤王子阅读(162) 评论(0) 推荐(0)

爬虫05-requests库用法

摘要： 1.常用函数 import requests response=requests.get("http://www.baidu.com") # print(type(response.text))#打开 # print(response.text) print(response.url) print( 阅读全文

posted @ 2020-03-11 15:05 胡辣汤王子阅读(522) 评论(0) 推荐(0)

爬虫04-cookie

摘要： 1.cookie用法 1.cookie用法 from urllib import request dapeng_url="http://www.renren.com/880151247/profile" headers = { "User-Agent":"Mozilla/5.0 (Windows N 阅读全文

posted @ 2020-03-11 15:02 胡辣汤王子阅读(242) 评论(0) 推荐(0)

网络爬虫-爬取拉勾网不成功，登录设置cookie

摘要：在反复爬取拉勾网的信息都被拉勾网服务器识破了之后，我登录了拉勾网，并且把cookies信息放在了响应头中，结果成功了！代码如下： import requests url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResul 阅读全文

posted @ 2020-03-11 14:57 胡辣汤王子阅读(1478) 评论(0) 推荐(0)

爬虫03-简单使用代理

摘要： from urllib import parse from urllib import request url="http://httpbin.org/ip" # resp=request.urlopen(url) # print(resp.read()) #1.使用ProxyHandler 传入代阅读全文

posted @ 2020-03-11 09:59 胡辣汤王子阅读(137) 评论(0) 推荐(0)

爬虫02-简单伪装浏览器

摘要： from urllib import parse from urllib import request # url="https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=" url="https:// 阅读全文

posted @ 2020-03-11 09:57 胡辣汤王子阅读(185) 评论(0) 推荐(0)

爬虫01-urllib常用函数

摘要： from urllib import request from urllib import parse #1.读取网页 url="http://www.baidu.com" resp=request.urlopen(url) # print(resp.getcode())#获取响应码 # print 阅读全文

posted @ 2020-03-11 09:56 胡辣汤王子阅读(271) 评论(0) 推荐(0)

2020年3月9日

02-matplotlib解决中文乱码

摘要：阅读全文

posted @ 2020-03-09 20:54 胡辣汤王子阅读(115) 评论(0) 推荐(0)

01-matplotlib简单绘图

摘要：一、原生绘图案例二、结合numpy 阅读全文

posted @ 2020-03-09 16:12 胡辣汤王子阅读(151) 评论(0) 推荐(0)

22-pandas杂碎方法

摘要：阅读全文

posted @ 2020-03-09 14:05 胡辣汤王子阅读(93) 评论(0) 推荐(0)

21-pandas_apply和transform

摘要： import numpy as np import pandas as pd #1.聚合一次 df=pd.DataFrame({"age":[18,20,22,22,23,23], "name":["A","B","C","D","E","F"], "price1":[1000,900,800,70 阅读全文

posted @ 2020-03-09 12:46 胡辣汤王子阅读(220) 评论(0) 推荐(0)

20-pandas聚合

摘要： import numpy as np import pandas as pd #1.聚合一次 df=pd.DataFrame({"age":[18,20,22,22,23,23], "name":["A","B","C","D","E","F"], "price1":[1000,900,800,70 阅读全文

posted @ 2020-03-09 12:30 胡辣汤王子阅读(133) 评论(0) 推荐(0)

19-pandas排序和随机抽样

摘要： import numpy as np import pandas as pd df=pd.DataFrame(np.arange(25).reshape(5,5)) new_order=np.random.permutation(5)#不暗中哦顺序排列 print(df.take(new_order 阅读全文

posted @ 2020-03-09 12:03 胡辣汤王子阅读(178) 评论(0) 推荐(0)

18-pandas数据处理的高级功能

摘要： import numpy as np import pandas as pd import tushare as ts df=pd.DataFrame(np.random.randn(1000,4)) print(df.head()) print(df.describe())#列出一些信息 prin 阅读全文

posted @ 2020-03-09 11:53 胡辣汤王子阅读(274) 评论(0) 推荐(0)

17-pandas处理数据的简单功能

摘要： import numpy as np import pandas as pd import tushare as ts #1. df=pd.DataFrame({"num":[1,2,3,4,3,2,1,4], "id":["A","B","C","D","C","B","A","D"]}) pri 阅读全文

posted @ 2020-03-09 11:43 胡辣汤王子阅读(169) 评论(0) 推荐(0)

16-pandas数据归并几对几

摘要： import numpy as np import pandas as pd #1.一对一 df1=pd.DataFrame({"name":["A","B","C"], "age":[30,32,33]}) df2=pd.DataFrame({"name":["A","B","C"], "tall 阅读全文

posted @ 2020-03-09 11:06 胡辣汤王子阅读(176) 评论(0) 推荐(0)

15-pandas与numpy加法差异

摘要： import numpy as np import pandas as pd a=np.array([1,2,3]) b=np.array([3]) print(a+b)#[4 5 6] 只要列一致，广播，每个都加 s=pd.Series([1,2,3,4]) print(s+1)#Series与数阅读全文

posted @ 2020-03-09 01:27 胡辣汤王子阅读(220) 评论(0) 推荐(0)

14-pandas左右归并

摘要： import numpy as np import pandas as pd 1. df1=pd.DataFrame({"name":["wangchenyang","guanchenhao","dongshuai"], "age":[30,32,33]}) df2=pd.DataFrame({"n 阅读全文

posted @ 2020-03-09 00:39 胡辣汤王子阅读(227) 评论(0) 推荐(0)

13-pandas数据归并

摘要： import numpy as np import pandas as pd #1.完全匹配 df1=pd.DataFrame({"name":["wangchenyang","guanchenhao","dongshuai"], "age":[30,32,33]}) df2=pd.DataFram 阅读全文

posted @ 2020-03-09 00:38 胡辣汤王子阅读(194) 评论(0) 推荐(0)

12-pandas不匹配拼接

摘要： import pandas as pd def make_dataFrame(cols,ind): data={c:[str(c)+str(i) for i in ind] for c in cols} return pd.DataFrame(data,ind) x=make_dataFrame(" 阅读全文

posted @ 2020-03-09 00:36 胡辣汤王子阅读(221) 评论(0) 推荐(0)

11-pandas拼接

摘要： import numpy as np import pandas as pd x=np.array([1,2,3]).reshape(1,3)#调节形状为二维数组 y=np.array([4,5,6]).reshape(1,3) z=np.array([7,8,9]).reshape(1,3) pr 阅读全文

posted @ 2020-03-09 00:35 胡辣汤王子阅读(116) 评论(0) 推荐(0)

2020年3月8日

10-pandas多层索引操作

摘要： import numpy as np import pandas as pd index=[("beijing",2007),("beijing", 2017), ("beijing", 2027),("shenzhen",2007), ("shenzhen",2017),("shenzhen",2 阅读全文

posted @ 2020-03-08 16:07 胡辣汤王子阅读(330) 评论(0) 推荐(0)

09-pandas多层索引切片

摘要： import numpy as np import pandas as pd index=[("beijing",2007),("beijing", 2017), ("beijing", 2027),("shenzhen",2007), ("shenzhen",2017),("shenzhen",2 阅读全文

posted @ 2020-03-08 16:05 胡辣汤王子阅读(628) 评论(0) 推荐(0)

08-pandas嵌套索引

摘要： import numpy as np import pandas as pd #1.风格1 df=pd.DataFrame(np.random.rand(4,2), columns=["A","B"], index=[["1","1","2","2"], ["a","b","a","b"]]) pr 阅读全文

posted @ 2020-03-08 16:03 胡辣汤王子阅读(306) 评论(0) 推荐(0)

07-pandas双索引

摘要： import numpy as np import pandas as pd from matplotlib import pyplot as plt nasa=pd.read_table(r"Y:\Workplace\BigData\percent-bachelors-degrees-women- 阅读全文

posted @ 2020-03-08 13:13 胡辣汤王子阅读(329) 评论(0) 推荐(0)

06-panda缺失数据处理

摘要： import numpy as np import pandas as pd #1.数据筛选 arr1=np.array([1,None,3,4]) print(arr1)#None不能参与计算 arr2=np.arange(1000,dtype=int).sum() print(arr2)#叠加计阅读全文

posted @ 2020-03-08 11:54 胡辣汤王子阅读(158) 评论(0) 推荐(0)

05-pandas处理数据格式和链接数据库

摘要： import pandas as pdimport pymysql #1.处理数据格式csvpath=r"Y:\Workplace\BigData\percent-bachelors-degrees-women-usa.csv" food=pd.read_csv(csvpath)#路径必须全英文 p 阅读全文

posted @ 2020-03-08 11:53 胡辣汤王子阅读(230) 评论(0) 推荐(0)

2020年3月7日

04-pandasDataFrame和Series

摘要： import pandas as pd import numpy as np A=pd.DataFrame(np.random.randint(0,20,(2,2)),columns=list("ab"))#生成0-20随机数，两行两列 B=pd.DataFrame(np.random.randin 阅读全文

posted @ 2020-03-07 23:04 胡辣汤王子阅读(196) 评论(0) 推荐(0)

03.pandas数据DataFrame

摘要： import pandas as pd #1. columns=["数学","英语","语文","理科综合","文科综合"] index=["top2","c9","985","211","1本","2本","3本","大专"] data={ "数学":[145,140,135,130,125,12 阅读全文

posted @ 2020-03-07 20:58 胡辣汤王子阅读(214) 评论(0) 推荐(0)

02-pandas数据Serious

摘要： import pandas as pd from pandas import Series import numpy as np from pandas import DataFrame obj=Series([1,2,3,4,5])#Series包含行索引，列索引。默认0，1，2，3，4 obj2 阅读全文

posted @ 2020-03-07 18:36 胡辣汤王子阅读(513) 评论(0) 推荐(0)

01-pandas实例

摘要： import pandas as pd face =pd.read_table(r"Y:\Workplace\大数据相关\face.txt") print(face.shape)#查看多少行多少列 #print(face.head(10))#在jupter notebook里面可以显示完全表格 pr 阅读全文

posted @ 2020-03-07 18:35 胡辣汤王子阅读(155) 评论(0) 推荐(0)

13.numpy线性代数和绘图

摘要： import numpy as np import numpy.matlib arr1=np.array([[1,2],[3,4]]) arr2=np.array([[11,12],[13,14]]) np.dot(arr1,arr2)#返回两个数组的点积，对于二维向量等效于矩阵乘法，对于一维向量相阅读全文

posted @ 2020-03-07 13:42 胡辣汤王子阅读(291) 评论(0) 推荐(0)

12-numpy矩阵

摘要： import numpy as np import numpy.matlib#数学计算 import numpy.matrixlib#矩阵 marr1=np.matlib.empty((3,3))#填充随机数 marr1=np.matlib.ones((3,3))#全部修改为一 marr2=np.m 阅读全文

posted @ 2020-03-07 11:30 胡辣汤王子阅读(137) 评论(0) 推荐(0)

11-numpy视图与副本

摘要： import numpy as np arr1=np.array([[0,1,2],[3,4,5]]) arr2=arr1#视图，同一片内存 arr3=arr1.view()#数据改变一起改变，形状改变ta不变 arr4=arr1.copy()#深复制，副本，原本的改变不影响阅读全文

posted @ 2020-03-07 11:28 胡辣汤王子阅读(97) 评论(0) 推荐(0)

10-numpy排序搜索

摘要： import numpy as np arr1=np.array([[3,9,0],[1,8,2]]) np.sort(arr1)#按照行排序 np.sort(arr1,axis=0)#按照列排序 dt=np.dtype([("name","S10"),("age",int),("tall",int 阅读全文

posted @ 2020-03-07 11:27 胡辣汤王子阅读(197) 评论(0) 推荐(0)

公告