摘要: 思路: 采用滑动窗口 注意点 左边移动的时候,如果去掉的数是负数,那么右边游标要做回滚; 右边的游标移动时,出现sum= 1 { sum = A[i 1] // 回滚, 如果删的是负数 if A[i 1] i { sum = A[j 1] j if sum = K { min := j i if m 阅读全文
posted @ 2018-09-30 23:56 Fall12 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 说明:这是比较早之前的参考的网上的例子,代码非原创。 阅读全文
posted @ 2017-11-25 21:59 Fall12 阅读(1009) 评论(0) 推荐(0) 编辑
摘要: 平滑 需要平滑原因有二:一,导致0概率,无法计算困惑度;二,对于一些未见过的句子,概率为0。 training set: denied the reports Test set: denied the offer P(offer| denied the) = 0 加1(拉普拉斯?) 平滑 Maxim 阅读全文
posted @ 2017-11-08 10:09 Fall12 阅读(1830) 评论(0) 推荐(0) 编辑
摘要: N-grams 语言模型 P(W) = P(W1,W2,W3...Wn) = P(W5|W1,W2,W3,W4) 计算给定句子的概率,主要说明了这些词语结合的如何上面的计算,依赖Chain Rule of Probability.主要是条件概率 P(A|B) = P(A,B)/P(B) P(A,B) 阅读全文
posted @ 2017-11-08 09:57 Fall12 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 以下内容基本来自于《统计自然语言处理》: 熵又称为自信息(self-information),可以视为描述一个随机变量 的不确定性的数量。它表示信源X每发一个符号(不论发什么符号)所 提供的平均信息量[姜丹,2001]。一个随机变量的熵越大,它的不确 定性越大,那么,正确估计其值的可能性就越小。越不 阅读全文
posted @ 2017-10-29 23:09 Fall12 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。 阅读全文
posted @ 2017-10-24 09:57 Fall12 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 在机器学习概率部分,经常会看到先验概率、后验概率,总是感觉特别懵逼。今天刚好打开贝叶斯思维这本书,里面讲了贝叶斯的另一种解释。 历时诠释 主要思路:根据数据集D的内容变化更新假设概率H的方法。 “历时”意味着某些事情随着时间而发生; 在考虑H和D的情况下,贝叶斯的表达式可以写为: p(H|D) = 阅读全文
posted @ 2017-08-16 19:43 Fall12 阅读(362) 评论(0) 推荐(0) 编辑
摘要: NumPy学习 NumPy重要的一个特点:是一个N维数组对象。提供了shape(指明行数、列数)和dtype(数据类型) 初始化 注意,如果有切片来自于该数据,改变切片,也会改变原来的数据。 Panda 主要由Series和DataFrame组成。 Series 1,Series包括了index和v 阅读全文
posted @ 2017-07-06 22:01 Fall12 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 在进行python数据分析的时候,首先要进行数据预处理。 有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。 目前了解到的大概有三种方法: 1,通过LabelEncoder来进行快速的转换; 2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限; 3 阅读全文
posted @ 2017-07-04 23:56 Fall12 阅读(3235) 评论(0) 推荐(0) 编辑
摘要: 概述 php通过扩展方式,调用c++源码,这样做的理由有很多,当你搜到这篇文章时,相信你已经有自己的考虑了。 写这篇博客的理由有二: 整理下php扩展调用c++代码的过程。网上有很多类似的文章,不过对于php扩展c++的方式,很多文章在关键的地方并没有说明,或者说,大部分都是扩展调用c代码的。 已经 阅读全文
posted @ 2017-01-23 15:24 Fall12 阅读(6602) 评论(0) 推荐(0) 编辑