小糊涂也学要编程

2018年7月20日

摘要：用例子理解Bbta分布（一） Beta分布可以看做是分布之上的分布。我们以抛硬币为例，不过，我们并不假设硬币是均匀的（也就是说：并不假设每次抛硬币，正面朝上的概率为0.5），所以抛硬币的正面朝上的概率p是未知的（只知道p∈[0,1]）。如果进行一次二项分布试验，在这次二项分布试验中，抛硬币10000 阅读全文

posted @ 2018-07-20 16:32 小糊涂也学要编程阅读(2362) 评论(0) 推荐(0) 编辑

2018年7月19日

二项分布和多项分布

摘要：首先二项分布和多项分布都是离散型分布一、二项式分布（一）二项分布的基本概念首先说一下伯努利试验，即n次独立重复试验，是在同样的条件下重复、相互独立进行的一种随机试验。伯努利试验的特点是：（1）每次试验中事件只有两种结果：事件发生或者不发生，如硬币正面或反面，患病或没患病；（2）每次试验阅读全文

posted @ 2018-07-19 13:24 小糊涂也学要编程阅读(5120) 评论(0) 推荐(0) 编辑

2018年7月18日

TF-IDF学习笔记（二）

摘要：这篇文章将将TF-IDF的python实现。TF-IDF的原理可以参考：TF-IDF学习笔记（一）（一）库介绍使用的库为Scikit-learn：它是一个用于数据挖掘和数据分析的简单且有效的工具，它是基于Python的机器学习模块，基于BSD开源许可证。 Scikit-learn的基本功能主要被阅读全文

posted @ 2018-07-18 19:53 小糊涂也学要编程阅读(1154) 评论(0) 推荐(0) 编辑

TF-IDF学习笔记（一）

摘要：（一）介绍 TF-IDF称为词频-逆文件频率，那么它是用来干吗的哪？假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）阅读全文

posted @ 2018-07-18 19:20 小糊涂也学要编程阅读(287) 评论(0) 推荐(0) 编辑

2018年1月21日

爬虫利器3：Xpath语法与lxml库

摘要： 1.安装lxml库 pip install lxml 2.lxml用法例子：首先我们利用它来解析 HTML 代码，先来一个小例子来感受一下它的基本用法。首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。其中，这里体现了 lxml 的一个阅读全文

posted @ 2018-01-21 15:31 小糊涂也学要编程阅读(186) 评论(0) 推荐(0) 编辑

2018年1月17日

Python爬虫利器1：Requests库的用法

摘要：一、首先要利用pip安装Requests库 1.打开python安装目录如：F:\python2.7\Scripts 2.然后进入cmd界面 3. 输入：pip install requests 后回车，即可完成安装。二、Rquests库的使用 1.requests库提供了http所有的基本请求方阅读全文

posted @ 2018-01-17 18:21 小糊涂也学要编程阅读(163) 评论(0) 推荐(0) 编辑

2017年12月9日

Python爬虫实战一之爬取糗事百科段子

摘要：参考资料：http://cuiqingcai.com/990.html 1.非面向对象模式完整代码1：注释1：糗事百科是不需要登录的，所以也没必要用到Cookie。 2.面向对象模式上面代码是最核心的部分，下面我们要达到的目的是：按下回车，读取一个段子，显示出段子的发布人，发布内容，点赞个数阅读全文

posted @ 2017-12-09 14:57 小糊涂也学要编程阅读(216) 评论(0) 推荐(0) 编辑

Python中的逻辑运算符

摘要：参考资料：http://blog.csdn.net/sasoritattoo/article/details/12451359 一、逻辑判断词not 1.在python中not是逻辑判断词，用于布尔型True和False，not True为False，not False为True，以下是几个常用的n 阅读全文

posted @ 2017-12-09 11:41 小糊涂也学要编程阅读(2073) 评论(0) 推荐(0) 编辑

2017年12月7日

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

摘要：参考网址：http://blog.csdn.net/Eastmount/article/details/51082253 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递阅读全文

posted @ 2017-12-07 20:52 小糊涂也学要编程阅读(20444) 评论(2) 推荐(1) 编辑

Python爬虫正则表达式常用符号和方法

摘要：注释：使用re之前，要导入re库文件。（1）. ：匹配任意字符，换行符 \n 除外；每个 . 表示一个占位符。例子： a = 'xy123' b = re.findall('x..',a) print b 输出结果：（2）*：匹配前一个字符的0次或无限次。例子：输出结果为：（3）? ：匹阅读全文

posted @ 2017-12-07 20:29 小糊涂也学要编程阅读(1824) 评论(0) 推荐(0) 编辑

小糊涂也学要编程

公告