摘要: 目的:爬取‘糗事百科’热图板块所有图 在网页response中可以发现,每个图是一个没有http开头的、以.jpg结尾的链接,在这个链接前边补上http可以成功访问该图片。 所以第一步应该把需要下载的图片的url下载下来,然后补上http,再下载,保存到本地就可以。 下边代码是第一步。 def do 阅读全文
posted @ 2021-01-03 21:19 理工—王栋轩 阅读(246) 评论(2) 推荐(0) 编辑
摘要: http://www.python3.vip/tut/py/extra/regex/ 大家看一个例子。 一个文本文件里面存储了 一些市场职位信息,格式如下所示 Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员 测试开发工程师(C++/python) 上海墨 阅读全文
posted @ 2021-01-02 18:59 理工—王栋轩 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 药监局网址:http://scxk.nmpa.gov.cn:81/xk/ 药监局首页: 详情页: 目的:爬取药监局所有详情页信息,保存在本地,以csv文件格式保存。 分析主页: 主页的response返回内容中,包含了这一页中的所有企业的id 修改网页参数page可以实现翻页 所以首先要通过访问主页 阅读全文
posted @ 2021-01-02 11:41 理工—王栋轩 阅读(1384) 评论(0) 推荐(0) 编辑
摘要: 爬虫基本分为几步: 1、找到RUL URL不一定是网址,最准确的是打开网页抓包工具(网页按F12) 2、查看网页是get还是post请求。 get请求用requests.get(),post请求用requests.post();此方法的返回值是网页response的类型。常见的有json、test等 阅读全文
posted @ 2020-12-31 11:16 理工—王栋轩 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震荡 现在又来了第七个病人,是一个打喷嚏 阅读全文
posted @ 2020-08-30 16:31 理工—王栋轩 阅读(931) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd data = pd.read_table('val.txt',names=['category','theme','URL','content']) #读取数据,转成DataFrame格式。因为前期数据已经是处理好的,所以可以这样写。这里的read_table 阅读全文
posted @ 2020-08-23 20:23 理工—王栋轩 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,经常需要把统计一段字符中,每个词出现的次数,也就是词频。统计次数有一个现成的方法就是DataFrame.value_counts(),问题是如何保存结果为我们所用。思路就是把value_counts的两列先分别转成列表,再讲两个列表转成字典。 import pandas as pd d 阅读全文
posted @ 2020-08-23 18:58 理工—王栋轩 阅读(5154) 评论(0) 推荐(1) 编辑
摘要: import pandas as pd data = pd.read_csv("train.csv") #确定每一列,或者叫每一个series下,是否有空数据 columns_name = data.columns.tolist() columns_name_true_false={} print( 阅读全文
posted @ 2020-08-15 15:07 理工—王栋轩 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 背景:有人利用信用卡欺诈,数据给出了28W多个样本,每一个样本有20多个因素数据和最终是否欺诈的结论。 1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 #导入相关库文件 5 6 data = 阅读全文
posted @ 2020-08-04 11:41 理工—王栋轩 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 1. Series 情况下: pandas 的 value_counts() 函数可以对Series里面的每个值进行计数并且排序。 import pandas as pd df = pd.DataFrame({'区域' : ['西安', '太原', '西安', '太原', '郑州', '太原'], 阅读全文
posted @ 2020-08-03 09:32 理工—王栋轩 阅读(1371) 评论(0) 推荐(0) 编辑