摘要: import requests from lxml import etree s = requests.Session() for id in range(0,251,25): url ='https://movie.douban.com/top250/?start-'+str(id) r = s. 阅读全文
posted @ 2018-10-21 10:27 星涅爱别离 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 源地址看 attrs 还可以这样,利用get方法,传入属性的名称,二者是等价的 阅读全文
posted @ 2018-10-21 10:26 星涅爱别离 阅读(205) 评论(0) 推荐(0) 编辑
摘要: selenium的使用对于新手来说十分友好,因为他避开了如今网络中的异步加载抓取的困扰,使得我们大部分的时间可以用于提取信息和存储中,下面就简单的列一些使用的代码,希望给同样初学的你有一定的参考价值。 这里的话你可以替换着找一些合适的网站试一下,运行的时候会自动弹出测试的浏览器(这里是谷歌浏览器), 阅读全文
posted @ 2018-10-21 09:51 星涅爱别离 阅读(193) 评论(0) 推荐(0) 编辑
摘要: KMO检验和Bartlett球形检验因子分析前,首先进行KMO检验和巴特利球体检验,KMO检验系数>0.5,(巴特利特球体检验的x2统计值的显著性概率)P值<0.05时,问卷才有结构效度,才能进行因子分析,因子分析主要是你自己做了一份调查问卷,你要考量这份问卷调查来的数据信度和效度如何,能不能对你想 阅读全文
posted @ 2018-10-21 09:28 星涅爱别离 阅读(47472) 评论(2) 推荐(0) 编辑
摘要: 梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 梯度下降是迭代法的一种,可以用 阅读全文
posted @ 2018-10-20 15:49 星涅爱别离 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 需要实验数据的请留言哦 阅读全文
posted @ 2018-10-20 15:36 星涅爱别离 阅读(1470) 评论(0) 推荐(1) 编辑
摘要: 关于熵这篇文章比较全 学习的前提了解 数学期望(mean)(或均值,亦简称期望) 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 熵是一种自信息 熵越大, 它的不确定性越大 信息熵:每个信息量的数学期望H(x)= E(log(1/p)),就是其概率 阅读全文
posted @ 2018-09-29 10:19 星涅爱别离 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 但是我们也发现每一次登陆都要输入密码和账户,还要验证,这也实在是太麻烦了,所以可以通过cookies,这就是我们常说的那些记住当前网址的密码 关于上面的那个爬虫,爬出来的其实是验证码的图片,还需要手动打开然后识别图片里面的数字再手动输入,这个其实也是很麻烦的 这里先给出思路以后验证(如果还记得的呼哈 阅读全文
posted @ 2018-09-25 23:06 星涅爱别离 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 2018.09.25 关于re.match()和re.search()的一些使用说明,主要要注意的是match的话是必须一开始就要从头匹配上,而search的话可以只要中间有一段匹配上就行了 注意一下 print(re.match('super','superstition').span()) pr 阅读全文
posted @ 2018-09-25 22:34 星涅爱别离 阅读(196) 评论(0) 推荐(0) 编辑
摘要: css中 身份证 id对应# 衣服 class对应 . 图片 pyquery。。。as pq html= request.get(url=''.....'') doc=pq(html) doc("#dq_list > li").items() tems()拿到所有子元素 for item in it 阅读全文
posted @ 2018-09-24 22:52 星涅爱别离 阅读(265) 评论(0) 推荐(0) 编辑