摘要: """ 中心极限定理指的是给定一个任意分布的总体。 我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值/和。 这些平均值/和的分布接近正态分布。 """ import numpy as np import matplotlib.pyplot as plt # 阅读全文
posted @ 2020-11-09 12:45 止一 阅读(341) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import matplotlib.pyplot as plt from math import sqrt, pi, exp def normal_distribution(mu, sigma): # 调用函数生成一组正态分布随机数 size = 100000 阅读全文
posted @ 2020-11-09 12:44 止一 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 非负整数:\d+$ 正整数:[0-9][1-9][0-9]$ 非正整数:((-\d+)|(0+))$ 负整数:-[0-9][1-9][0-9]$ 整数:-?\d+$ 非负浮点数:\d+(.\d+)?$ 正浮点数 : ((0-9)+.[0-9][1-9][0-9])|([0-9][1-9][0-9]. 阅读全文
posted @ 2020-11-09 12:29 止一 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 苏宁图书(https://book.suning.com/) 目标: 1、图书一级分类 2、图书二级分类 3、图书三级分类 4、图书名字 5、图书作者 6、图书价格 7、通过Scrapy获取以上数据并存储在MongoDB中 步骤: 1、创建项目 2、编写爬虫 发送主页请求,获取响应 利用xpath提 阅读全文
posted @ 2020-11-08 07:35 止一 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 目的: 爬取阳光热线问政平台问题中每个帖子的标题、详情URL、详情内容、图片以及发布时间 步骤: 1、创建爬虫项目 1 scrapy startproject yangguang 2 cd yangguang 3 scrapy genspider yangguang sun0769.com 2、设置 阅读全文
posted @ 2020-11-06 02:30 止一 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 【项目目标】 通过爬取腾讯招聘网站的招聘信息(https://careers.tencent.com/search.html)练习Scrapy框架的使用 【项目过程】 1、通过抓包确认要抓取的内容是否在当前url地址中,测试发现内容不在当前url中并且数据格式为json字符串 2、请求url地址过长 阅读全文
posted @ 2020-11-05 19:23 止一 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)——段子版块中所有的【段子】、【投票数】、【神回复】等内容 步骤: 通过翻页寻找url规律,构造url列表 查看审查元素,发现网页内容均在elements中,可以直接请求 通过xpath提取需要的内容 保存数据 阅读全文
posted @ 2020-11-04 09:47 止一 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 本爬虫以百度贴吧为例,爬取某个贴吧的【所有发言】以及对应发言详情中的【图片链接】 涉及: request 发送请求获取响应 html 取消注释 通过xpath提取数据 数据保存 思路: 由于各贴吧发言的数量不一,因此通过观察url规律统一构造url列表进行遍历爬取,不具有可推广性,因此通过先找到【下 阅读全文
posted @ 2020-11-04 03:16 止一 阅读(649) 评论(0) 推荐(0) 编辑
摘要: # 本爬虫为爬取百度贴吧并存储HTMLimport requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url = "https://tieba.baidu.com 阅读全文
posted @ 2020-10-30 04:46 止一 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1 import requests 2 import json 3 import csv 4 5 6 class DoubantvSpider: 7 def __init__(self): 8 # self.proxies = {"http":"http://125.123.152.81:3000" 阅读全文
posted @ 2020-10-30 04:43 止一 阅读(230) 评论(0) 推荐(0) 编辑