摘要:
用例子理解Bbta分布(一) Beta分布可以看做是分布之上的分布。我们以抛硬币为例,不过,我们并不假设硬币是均匀的(也就是说:并不假设每次抛硬币,正面朝上的概率为0.5),所以抛硬币的正面朝上的概率p是未知的(只知道p∈[0,1])。如果进行一次二项分布试验,在这次二项分布试验中,抛硬币10000 阅读全文
摘要:
首先二项分布和多项分布都是离散型分布 一 、二项式分布 (一)二项分布的基本概念 首先说一下伯努利试验,即n次独立重复试验,是在同样的条件下重复、相互独立进行的一种随机试验。 伯努利试验的特点是: (1)每次试验中事件只有两种结果:事件发生或者不发生,如硬币正面或反面,患病或没患病; (2)每次试验 阅读全文
摘要:
这篇文章将将TF-IDF的python实现。TF-IDF的原理可以参考:TF-IDF学习笔记(一) (一)库介绍 使用的库为Scikit-learn:它是一个用于数据挖掘和数据分析的简单且有效的工具,它是基于Python的机器学习模块,基于BSD开源许可证。 Scikit-learn的基本功能主要被 阅读全文
摘要:
(一)介绍 TF-IDF称为词频-逆文件频率,那么它是用来干吗的哪? 假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF) 阅读全文
摘要:
1.安装lxml库 pip install lxml 2.lxml用法 例子: 首先我们利用它来解析 HTML 代码,先来一个小例子来感受一下它的基本用法。 首先我们使用 lxml 的 etree 库,然后利用 etree.HTML 初始化,然后我们将其打印出来。 其中,这里体现了 lxml 的一个 阅读全文
摘要:
一、首先要利用pip安装Requests库 1.打开python安装目录如:F:\python2.7\Scripts 2.然后进入cmd界面 3. 输入:pip install requests 后回车,即可完成安装。 二、Rquests库的使用 1.requests库提供了http所有的基本请求方 阅读全文
摘要:
参考资料:http://cuiqingcai.com/990.html 1.非面向对象模式 完整代码1: 注释1:糗事百科是不需要登录的,所以也没必要用到Cookie。 2.面向对象模式 上面代码是最核心的部分,下面我们要达到的目的是: 按下回车,读取一个段子,显示出段子的发布人,发布内容,点赞个数 阅读全文
摘要:
参考资料:http://blog.csdn.net/sasoritattoo/article/details/12451359 一、逻辑判断词not 1.在python中not是逻辑判断词,用于布尔型True和False,not True为False,not False为True,以下是几个常用的n 阅读全文
摘要:
参考网址:http://blog.csdn.net/Eastmount/article/details/51082253 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递 阅读全文
摘要:
注释:使用re之前,要导入re库文件。 (1). :匹配任意字符,换行符 \n 除外;每个 . 表示一个占位符。 例子: a = 'xy123' b = re.findall('x..',a) print b 输出结果: (2)*:匹配前一个字符的0次或无限次。 例子: 输出结果为: (3)? :匹 阅读全文