摘要: 本文将介绍用 distict、group by 和 row_number() over 。 注:这里的去重是指:查询的时候, 不显示重复,并不是删除表中的重复项,关系删除表中重复数据的sql 请参考一下链接: https://www.cnblogs.com/171207xiaohutu/p/1152 阅读全文
posted @ 2019-09-14 23:34 小糊涂也学要编程 阅读(84993) 评论(1) 推荐(3) 编辑
摘要: https://blog.csdn.net/germoo/article/details/79960480 阅读全文
posted @ 2019-09-14 23:31 小糊涂也学要编程 阅读(1036) 评论(0) 推荐(0) 编辑
摘要: 内容写入表格中的内容如下: 阅读全文
posted @ 2018-12-10 20:22 小糊涂也学要编程 阅读(8426) 评论(0) 推荐(0) 编辑
摘要: 参考链接: https://www.jianshu.com/p/caa4b923117c https://blog.csdn.net/papaaa/article/details/78821631 1.CountVectorizer CountVectorizer会将文本中的词语转换为词频矩阵,它通 阅读全文
posted @ 2018-12-07 16:16 小糊涂也学要编程 阅读(3338) 评论(0) 推荐(1) 编辑
摘要: 本文爬取的是m站的微博内容,基于python 2.7 一、 微博内容爬取 1.要爬取的微博首页网址https://m.weibo.cn/u/3817188860?uid=3817188860&luicode=10000011&lfid=100103type%3D1%26q%3DAlinda 2.手机 阅读全文
posted @ 2018-09-11 11:28 小糊涂也学要编程 阅读(1560) 评论(0) 推荐(0) 编辑
摘要: 前面我们讲到了M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点:一是需要计算接受率,在高维时计算量大。并且由于接受率的原因导致算法收敛时间变长。二是有些高维数据,特征的条件概率分布好求,但是特征的联合分布不好求。因此需要一个好的方法来改进M-H采样, 阅读全文
posted @ 2018-08-15 22:52 小糊涂也学要编程 阅读(3942) 评论(0) 推荐(1) 编辑
摘要: 在采样之马尔科夫链中我们讲到给定一个概率平稳分布π, 很难直接找到对应的马尔科夫链状态转移矩阵P。而只要解决这个问题,我们就可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟。本篇我们就讨论解决这个问题的办法:MCMC采样和它的易用版M-H采样 1.马尔科夫链的细致平稳条件 2. MCMC采样 阅读全文
posted @ 2018-08-15 19:49 小糊涂也学要编程 阅读(1965) 评论(0) 推荐(0) 编辑
摘要: 1.马尔科夫链概述 马尔科夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列 阅读全文
posted @ 2018-08-15 16:39 小糊涂也学要编程 阅读(1560) 评论(0) 推荐(2) 编辑
摘要: 随机采样方法 蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。 模拟方法:是一种基于“随机数”的计算方法,基于数值采样的近似推 阅读全文
posted @ 2018-08-15 10:51 小糊涂也学要编程 阅读(9951) 评论(0) 推荐(1) 编辑
摘要: 1.预备知识 Beta分布函数是一种定义在实数区间[0,1]的特殊函数,它是二项式分布的共轭分布;与Beta分布相同,Dirichlet分布也是定义在实数区间[0,1]的概率度量函数,Dirichlet分布是多项式分布的共轭分布,Dirichlet分布的值域是Beta分布拓展到高维的情形。 对二项式 阅读全文
posted @ 2018-07-24 15:26 小糊涂也学要编程 阅读(668) 评论(0) 推荐(0) 编辑