摘要: import requests from lxml import etree url="https://www.piaohua.com/" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 阅读全文
posted @ 2020-03-12 00:17 胡辣汤王子 阅读(809) 评论(0) 推荐(0) 编辑
摘要: 可能是由于函数括号写错,或者哪里写的不够规范 错误代码如下: title=li.xpath[".//a/@href"] 此时会报错:TypeError: 'method' object is not subscriptable 修改后: title=li.xpath(".//a/@href") 正确 阅读全文
posted @ 2020-03-11 23:36 胡辣汤王子 阅读(6673) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree parser=etree.HTMLParser(encoding="utf-8") html=etree.parse("test.html",parser=parser) html2=etree.parse("lagou.html",parser=par 阅读全文
posted @ 2020-03-11 19:42 胡辣汤王子 阅读(284) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree text=""" <html> <head> <title>表格标签学习</title> <meta charset="UTF-8"/> <pre> 表格标签学习: table :声明一个表格 tr:声明一行,设置行高及改行所有单元格的高度. th:声明 阅读全文
posted @ 2020-03-11 19:41 胡辣汤王子 阅读(185) 评论(0) 推荐(0) 编辑
摘要: import requests#1.获取cookiesresp=requests.get("http://www.baidu.com")print(resp.cookies.get_dict())#2.sessiondapeng_url="http://www.renren.com/88015124 阅读全文
posted @ 2020-03-11 19:39 胡辣汤王子 阅读(232) 评论(0) 推荐(0) 编辑
摘要: resp=request.get("http://www.12306.cn/",verify=False)#添加verify参数即可 print(resp.content.decode("utf-8")) 阅读全文
posted @ 2020-03-11 15:32 胡辣汤王子 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 1.常用函数 import requests response=requests.get("http://www.baidu.com") # print(type(response.text))#打开 # print(response.text) print(response.url) print( 阅读全文
posted @ 2020-03-11 15:05 胡辣汤王子 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1.cookie用法 1.cookie用法 from urllib import request dapeng_url="http://www.renren.com/880151247/profile" headers = { "User-Agent":"Mozilla/5.0 (Windows N 阅读全文
posted @ 2020-03-11 15:02 胡辣汤王子 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 在反复爬取拉勾网的信息都被拉勾网服务器识破了之后,我登录了拉勾网,并且把cookies信息放在了响应头中,结果成功了! 代码如下: import requests url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResul 阅读全文
posted @ 2020-03-11 14:57 胡辣汤王子 阅读(1283) 评论(0) 推荐(0) 编辑
摘要: from urllib import parse from urllib import request url="http://httpbin.org/ip" # resp=request.urlopen(url) # print(resp.read()) #1.使用ProxyHandler 传入代 阅读全文
posted @ 2020-03-11 09:59 胡辣汤王子 阅读(126) 评论(0) 推荐(0) 编辑
摘要: from urllib import parse from urllib import request # url="https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=" url="https:// 阅读全文
posted @ 2020-03-11 09:57 胡辣汤王子 阅读(160) 评论(0) 推荐(0) 编辑
摘要: from urllib import request from urllib import parse #1.读取网页 url="http://www.baidu.com" resp=request.urlopen(url) # print(resp.getcode())#获取响应码 # print 阅读全文
posted @ 2020-03-11 09:56 胡辣汤王子 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-03-09 20:54 胡辣汤王子 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 一、原生绘图案例 二、结合numpy 阅读全文
posted @ 2020-03-09 16:12 胡辣汤王子 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-03-09 14:05 胡辣汤王子 阅读(85) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.聚合一次 df=pd.DataFrame({"age":[18,20,22,22,23,23], "name":["A","B","C","D","E","F"], "price1":[1000,900,800,70 阅读全文
posted @ 2020-03-09 12:46 胡辣汤王子 阅读(214) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.聚合一次 df=pd.DataFrame({"age":[18,20,22,22,23,23], "name":["A","B","C","D","E","F"], "price1":[1000,900,800,70 阅读全文
posted @ 2020-03-09 12:30 胡辣汤王子 阅读(123) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd df=pd.DataFrame(np.arange(25).reshape(5,5)) new_order=np.random.permutation(5)#不暗中哦顺序排列 print(df.take(new_order 阅读全文
posted @ 2020-03-09 12:03 胡辣汤王子 阅读(165) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd import tushare as ts df=pd.DataFrame(np.random.randn(1000,4)) print(df.head()) print(df.describe())#列出一些信息 prin 阅读全文
posted @ 2020-03-09 11:53 胡辣汤王子 阅读(262) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd import tushare as ts #1. df=pd.DataFrame({"num":[1,2,3,4,3,2,1,4], "id":["A","B","C","D","C","B","A","D"]}) pri 阅读全文
posted @ 2020-03-09 11:43 胡辣汤王子 阅读(152) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.一对一 df1=pd.DataFrame({"name":["A","B","C"], "age":[30,32,33]}) df2=pd.DataFrame({"name":["A","B","C"], "tall 阅读全文
posted @ 2020-03-09 11:06 胡辣汤王子 阅读(163) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd a=np.array([1,2,3]) b=np.array([3]) print(a+b)#[4 5 6] 只要列一致,广播,每个都加 s=pd.Series([1,2,3,4]) print(s+1)#Series与数 阅读全文
posted @ 2020-03-09 01:27 胡辣汤王子 阅读(210) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd 1. df1=pd.DataFrame({"name":["wangchenyang","guanchenhao","dongshuai"], "age":[30,32,33]}) df2=pd.DataFrame({"n 阅读全文
posted @ 2020-03-09 00:39 胡辣汤王子 阅读(217) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.完全匹配 df1=pd.DataFrame({"name":["wangchenyang","guanchenhao","dongshuai"], "age":[30,32,33]}) df2=pd.DataFram 阅读全文
posted @ 2020-03-09 00:38 胡辣汤王子 阅读(189) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd def make_dataFrame(cols,ind): data={c:[str(c)+str(i) for i in ind] for c in cols} return pd.DataFrame(data,ind) x=make_dataFrame(" 阅读全文
posted @ 2020-03-09 00:36 胡辣汤王子 阅读(217) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd x=np.array([1,2,3]).reshape(1,3)#调节形状为二维数组 y=np.array([4,5,6]).reshape(1,3) z=np.array([7,8,9]).reshape(1,3) pr 阅读全文
posted @ 2020-03-09 00:35 胡辣汤王子 阅读(109) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd index=[("beijing",2007),("beijing", 2017), ("beijing", 2027),("shenzhen",2007), ("shenzhen",2017),("shenzhen",2 阅读全文
posted @ 2020-03-08 16:07 胡辣汤王子 阅读(314) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd index=[("beijing",2007),("beijing", 2017), ("beijing", 2027),("shenzhen",2007), ("shenzhen",2017),("shenzhen",2 阅读全文
posted @ 2020-03-08 16:05 胡辣汤王子 阅读(600) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.风格1 df=pd.DataFrame(np.random.rand(4,2), columns=["A","B"], index=[["1","1","2","2"], ["a","b","a","b"]]) pr 阅读全文
posted @ 2020-03-08 16:03 胡辣汤王子 阅读(291) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd from matplotlib import pyplot as plt nasa=pd.read_table(r"Y:\Workplace\BigData\percent-bachelors-degrees-women- 阅读全文
posted @ 2020-03-08 13:13 胡辣汤王子 阅读(319) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd #1.数据筛选 arr1=np.array([1,None,3,4]) print(arr1)#None不能参与计算 arr2=np.arange(1000,dtype=int).sum() print(arr2)#叠加计 阅读全文
posted @ 2020-03-08 11:54 胡辣汤王子 阅读(140) 评论(0) 推荐(0) 编辑
摘要: import pandas as pdimport pymysql #1.处理数据格式csvpath=r"Y:\Workplace\BigData\percent-bachelors-degrees-women-usa.csv" food=pd.read_csv(csvpath)#路径必须全英文 p 阅读全文
posted @ 2020-03-08 11:53 胡辣汤王子 阅读(211) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd import numpy as np A=pd.DataFrame(np.random.randint(0,20,(2,2)),columns=list("ab"))#生成0-20随机数,两行两列 B=pd.DataFrame(np.random.randin 阅读全文
posted @ 2020-03-07 23:04 胡辣汤王子 阅读(172) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd #1. columns=["数学","英语","语文","理科综合","文科综合"] index=["top2","c9","985","211","1本","2本","3本","大专"] data={ "数学":[145,140,135,130,125,12 阅读全文
posted @ 2020-03-07 20:58 胡辣汤王子 阅读(157) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd from pandas import Series import numpy as np from pandas import DataFrame obj=Series([1,2,3,4,5])#Series包含行索引,列索引。默认0,1,2,3,4 obj2 阅读全文
posted @ 2020-03-07 18:36 胡辣汤王子 阅读(494) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd face =pd.read_table(r"Y:\Workplace\大数据相关\face.txt") print(face.shape)#查看多少行多少列 #print(face.head(10))#在jupter notebook里面可以显示完全表格 pr 阅读全文
posted @ 2020-03-07 18:35 胡辣汤王子 阅读(148) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import numpy.matlib arr1=np.array([[1,2],[3,4]]) arr2=np.array([[11,12],[13,14]]) np.dot(arr1,arr2)#返回两个数组的点积,对于二维向量等效于矩阵乘法,对于一维向量相 阅读全文
posted @ 2020-03-07 13:42 胡辣汤王子 阅读(278) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import numpy.matlib#数学计算 import numpy.matrixlib#矩阵 marr1=np.matlib.empty((3,3))#填充随机数 marr1=np.matlib.ones((3,3))#全部修改为一 marr2=np.m 阅读全文
posted @ 2020-03-07 11:30 胡辣汤王子 阅读(126) 评论(0) 推荐(0) 编辑
摘要: import numpy as np arr1=np.array([[0,1,2],[3,4,5]]) arr2=arr1#视图,同一片内存 arr3=arr1.view()#数据改变一起改变,形状改变ta不变 arr4=arr1.copy()#深复制,副本,原本的改变不影响 阅读全文
posted @ 2020-03-07 11:28 胡辣汤王子 阅读(90) 评论(0) 推荐(0) 编辑
摘要: import numpy as np arr1=np.array([[3,9,0],[1,8,2]]) np.sort(arr1)#按照行排序 np.sort(arr1,axis=0)#按照列排序 dt=np.dtype([("name","S10"),("age",int),("tall",int 阅读全文
posted @ 2020-03-07 11:27 胡辣汤王子 阅读(180) 评论(0) 推荐(0) 编辑