摘要:
【一】整体流程综述 gensim底层封装了Google的Word2Vec的c接口,借此实现了word2vec。使用gensim接口非常方便,整体流程如下: 1. 数据预处理(分词后的数据) 2. 数据读取 3.模型定义与训练 4.模型保存与加载 5.模型使用(相似度计算,词向量获取) 【二】gens 阅读全文
摘要:
一、前言(参考:https://juejin.im/post/5c80b768f265da2dae514d4f) 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图: Web 领域中,用于实现数据'实时'更新的手段有轮询和 Web 阅读全文
摘要:
数据结构-链表 转载之(http://zhaochj.github.io/2016/05/12/2016-05-12-%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84-%E9%93%BE%E8%A1%A8/#) 什么是链表,我对这个概念非常陌生。 链表是实现了数据之间保持逻辑 阅读全文
摘要:
Python数据可视化之Wordcloud: 先来看一下效果:基于jieba+wordcloud: 安装: ps: 可能会安装失败,因为缺少c++编译,办法的话,可以安装c++编译,或者去python包的社区进行下载安装 快速生成词云 word cloud 参数 阅读全文
摘要:
Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员 阅读全文
摘要:
AHP(层次分析法) 层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代中期由美国运筹学家托马斯·塞蒂(TLsaaty)正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得 阅读全文
摘要:
几种归一化方法(Normalization Method)python实现 1、(0,1)标准化: 这是最简单也是最容易想到的方法,通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理: Pyth 阅读全文
摘要:
转载之:https://zhuanlan.zhihu.com/p/31345125 示例一:二硬币模型 假设现在有两个硬币A和B,我们想要知道两枚硬币各自为正面的概率啊即模型的参数。我们先随机从A,B中选一枚硬币,然后扔10次并记录下相应的结果,H代表正面T代表反面。对以上的步骤重复进行5次。如果在 阅读全文
摘要:
最大期望算法(Expectation-maximization algorithm,又译期望最大化算法): 在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。(EM算法只需要有一些训练数据,定义一个最大化函数,剩下的就交给计算机了。经过若干次迭代,我们需要的模型就训练好了 阅读全文
摘要:
贝叶斯定理(英语:Bayes' theorem) 是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A( 阅读全文