摘要: “给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。” 对于这种问题,一般可以从小的例子逐渐推导 例如当数据流只有一个数据时,直接取改了为1 两个数据时,生成一个0-1随机数,大于0.5选择1,每一个概率为0 阅读全文
posted @ 2018-03-31 14:17 dylan9 阅读(194) 评论(0) 推荐(0) 编辑
摘要: CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺 阅读全文
posted @ 2018-03-30 23:26 dylan9 阅读(885) 评论(0) 推荐(0) 编辑