摘要: 【导语】:聚类分析是指将物理或者抽象对象的结合分组为由类似对象组成的多个类的分析过程。简单来讲,聚类就是通过一些特征去自动识别一个大群体中的多个子群体,这些子群体中的对象彼此之间相似度高,而子群体之间差异较大。聚类的概念其实是Machine Learning中的一个子分支,在很多情况下,我们无法直接 阅读全文
posted @ 2019-03-11 17:01 慕云深 阅读(772) 评论(0) 推荐(0) 编辑
摘要: 统计语言模型就是用来算一句话出现的概率大小,换句话说就是像不像人说的话。这个概率的计算可以先将句子进行分词,然后用 各个词的(条件)概率 求和来计算。 统计语言模型的参数就是每个概率值,长度为T的词组构成的句子的参数个数就是 T个 由于词库中的词数N很大,一个由长度为T的词组构成的句子的复杂度不计重 阅读全文
posted @ 2019-03-08 15:32 慕云深 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 1.给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 示例: 2.给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 阅读全文
posted @ 2019-03-07 14:02 慕云深 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 1.分词: 基于规则的分词方法 1)正向最大匹配法(由左到右的方向) 2)逆向最大匹配法(由右到左的方向) 3)最少切分(使每一句中切出的词数最小) 4)双向最大匹配法(进行由左到右、由右到左两次扫描) 基于统计的分词方法中的互信息的运用:反应了字与字之间的紧密程度 深度学习下:双向L 阅读全文
posted @ 2019-03-06 10:46 慕云深 阅读(2065) 评论(0) 推荐(0) 编辑
摘要: 在学习RNN这一章的时候,遇到static_rnn中输入数据 x 的格式: [None, n_steps, n_input] 进行变换→ x1=tf.unstack(x,n_steps,1) 之后再传入:outputs, states = tf.contrib.rnn.static_rnn(mcel 阅读全文
posted @ 2019-02-26 21:06 慕云深 阅读(905) 评论(0) 推荐(0) 编辑
摘要: eval() 其实就是tf.Tensor的Session.run() 的另外一种写法。你上面些的那个代码例子,如果稍微修改一下,加上一个Session context manager: with tf.Session() as sess: print(accuracy.eval({x:mnist.t 阅读全文
posted @ 2019-02-18 14:39 慕云深 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 恢复内容结束 阅读全文
posted @ 2019-02-18 14:37 慕云深 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 原理: 动态规划就是把一个大问题一步步降解成越来越小的子问题,直到子问题小到可以用确定的条件来解答。 但是动态规划的本质不是递归,递归是完全自顶而下的,每次求解都需要重新计算所有的子问题。 我觉得反映动态规划本质的解法是自底而上的解法,即按照顺序,从基元问题一步步扩大问题的规模,直到问题的规模覆盖了 阅读全文
posted @ 2019-02-05 21:24 慕云深 阅读(181) 评论(0) 推荐(0) 编辑
摘要: ROC(receiver operating characteristic curve)是曲线。也就是下图中的曲线。同时我们也看里面也上了AUC也就是是面积。一般来说,如果ROC是光滑的,那么基本可以判断没有太大的overfitting(比如图中0.2到0.4可能就有问题,但是样本太少了),这个时候 阅读全文
posted @ 2019-01-24 16:16 慕云深 阅读(5737) 评论(0) 推荐(0) 编辑
摘要: sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=Non 阅读全文
posted @ 2019-01-24 16:02 慕云深 阅读(418) 评论(0) 推荐(0) 编辑