04 2018 档案

摘要:随机数生成 (1)可使用random等系统函数,构造函rand 15 :在[1,5]范围,均匀分布随机函数 (2)不可使用random,仅仅基于rand15构造rand112:在[1,12]范围,均匀分贝的随机函数 (3)函数randint26:在【2,3,4,5范围内等概率生成某个整数的随机函数。 阅读全文
posted @ 2018-04-26 18:56 Shendu.CC 阅读(706) 评论(0) 推荐(0) 编辑
摘要:有一份5000万个用户的数据,有一份2亿个用户看电影的记录。只有1G的内存,找到看电影最多的前1000个用户? 应该怎么做呢? 我一开始的想法,哎呀,快速排序!把2亿个用户的数据提取出来放到5000万长度的数组里进行快速排序。把2亿个用户的数据提取出来,只能靠HashMap了,那么就要在建一个500 阅读全文
posted @ 2018-04-24 10:24 Shendu.CC 阅读(252) 评论(0) 推荐(0) 编辑
摘要:前言: 上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行。然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了。 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重( 阅读全文
posted @ 2018-04-23 10:51 Shendu.CC 阅读(9748) 评论(3) 推荐(2) 编辑
摘要:Given a binary tree, check whether it is a mirror of itself (ie, symmetric around its center). For example, this binary tree [1,2,2,3,4,4,3] is symmet 阅读全文
posted @ 2018-04-20 17:41 Shendu.CC 阅读(356) 评论(0) 推荐(0) 编辑
摘要:这段时间,就体会到了什么叫做事倍功半,或者叫做事倍功零! 一切都源于自己的浮躁和马虎。如果做为一个程序员,不能以冷静的思维,仔细的态度看待每次程序运行的结果,那么往往自己做的决策都是徒劳无功的,在折腾一大圈的时候才发现又回到了起点。这与一个人的心境息息相关。请不要在脑袋失去理智的时候做决定(有点言重 阅读全文
posted @ 2018-04-20 11:35 Shendu.CC 阅读(914) 评论(0) 推荐(1) 编辑
摘要:前言: 上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。 之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选 阅读全文
posted @ 2018-04-09 17:55 Shendu.CC 阅读(21248) 评论(5) 推荐(6) 编辑
摘要:有1,2,3....n个数组,每个数组包含一系列一维线段的表示,每个数组的元素结构为(point,length)(point>=0 且 length>=1,都为整数),表示从point开始长为length的线段,现将n个数组中的线段合并,其中需要考虑数组的优先级:1>2>....>n,高优先级的数组 阅读全文
posted @ 2018-04-03 11:55 Shendu.CC 阅读(545) 评论(2) 推荐(0) 编辑
摘要:上一篇中,主要说的就是词袋模型。回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量。这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词,那这个 阅读全文
posted @ 2018-04-03 11:50 Shendu.CC 阅读(13437) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示