03 2017 档案
该文被密码保护。
摘要:>>> import sys>>> sys.stdout.flush() 但是实验了,上面的报错,应该是不对的。 实验了,下面的报错,应该是不对的。 使用 print('Read file...', flush=True) 加上flush=True的参数
阅读全文
摘要:Bag-of-Words (BoW) 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头
阅读全文
摘要:其实就是计算概率的时候,对于分子+1,避免出现概率为0。这样乘起来的时候,不至于因为某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观
阅读全文
摘要:https://www.zhihu.com/question/32275069 word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如,对于这样的“A B A C B
阅读全文
摘要:http://www.csdn.net/article/2015-09-30/2825828 基于Spark GraphX,弃GBDT和LR用FM 发表于2015-09-30 09:53| 9644次阅读| 来源CSDN| 7 条评论| 作者杨鹏 摘要:9月29日20:30-21:30,算法工程师杨
阅读全文
摘要:1.'/'除号与c不同,单个'/'是浮点除,两个除号'//'才是整除
阅读全文
摘要:这篇文章有讲: http://www.36dsj.com/archives/24006 第一点,在学习Deep learning和CNN之前,总以为它们是很了不得的知识,总以为它们能解决很多问题,学习了之后,才知道它们不过与其他机器学习算法如svm等相似,仍然可以把它当做一个分类器,仍然可以像使用一
阅读全文
摘要:http://www.oschina.net/news/77378/apache-kylin-best-of-the-best Spark tensorflow 等等
阅读全文
摘要:Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广。 参考:http://blog.csdn.net/u014422406/article/details/52805924 sigmoid将一个real value映射到(0,1)的区间(当然也可以是(-1,1)),这样可以
阅读全文
该文被密码保护。
摘要:在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法: 互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给
阅读全文
该文被密码保护。
摘要:参考 http://blog.csdn.net/sdj222555/article/details/7875575 RMQ 就是 Range Minimum/Maximum Query 就是求区间最值问题。 可以写一个线段树,但是预处理和查询的复杂度都是O(logn)。这里有更牛的算法,就是ST算法
阅读全文
摘要:http://blog.csdn.net/shanshanpt/article/details/8977512 这篇文章讲得不错。 所谓的启发函数,所谓权值之类(此处所谓的权值就是路劲的长度)。YES,我们需要OPEN表中权值F最小的那个点!为什么呢,当然是权值越小,越靠近目标点咯! 对于权值我们设
阅读全文
摘要:https://vimsky.com/article/917.html 各种分类算法的优缺点 qingchuan 机器学习 2015-05-23 604 次浏览 分类, 机器学习 各种分类算法的优缺点已关闭评论 原文来自: http://bbs.pinggu.org/thread-26
阅读全文
摘要:随机森林的内容可以看这里:Link 提升树:http://blog.csdn.net/sb19931201/article/details/52506157 GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。比如A的真实年龄是18岁,但第一棵树
阅读全文
摘要:开始的时候,我居然弄混了。 knn是分类方法,是通过新加入的节点最接近的N个节点的属性,来判定新的节点。 kmeans是聚类方法,是先选择k个点作为k个簇的中点,然后分簇之后重新划定中心点,然后再分簇的方法。 knn可以参考 http://www.cnblogs.com/charlesblc/p/6
阅读全文
摘要:有一篇是比较最大似然估计和最小二乘法的: http://www.cnblogs.com/hxsyl/p/5590358.html
阅读全文
该文被密码保护。
该文被密码保护。
摘要:可以结合之前那篇一起看。 http://www.cnblogs.com/charlesblc/p/6565815.html
阅读全文
摘要:Cascading: hadoop上面的workflow Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递 2) Nutch,互联网数据及Nutch搜索引擎应用 3) HDFS,Hadoop的分布
阅读全文
该文被密码保护。
摘要:http://www.wtoutiao.com/p/10blYui.html
阅读全文
摘要:http://nileader.blog.51cto.com/1381108/1068033
阅读全文
该文被密码保护。
摘要:http://bookshadow.com/weblog/2016/10/30/leetcode-sequence-reconstruction/ 这道题目,检查重排的序列是否一致。 用了拓扑排序。 拓扑排序的重点,是“入度”的检查。再用一个set保存当前“入度”为0的节点。
阅读全文
摘要:。 8 String to Integer (atoi) 13.9% Medium 。 151 Reverse Words in a String 15.7% Medium 。 288 Unique Word Abbreviation 15.8% Medium 。 29 Divide T...
阅读全文
该文被密码保护。
摘要:记住Trie树的基本数据结构就可以了。 https://discuss.leetcode.com/topic/15581/80ms-clear-c-code-with-detailed-explanations
阅读全文
摘要:。 8 String to Integer (atoi) 13.9% Medium 。 151 Reverse Words in a String 15.7% Medium 。 288 Unique Word Abbreviation 15.8% Medium 。 29 Divide Two Integ...
阅读全文
摘要:直接插入排序,冒泡排序是稳定的。 希尔排序,基数排序是稳定的。 其他的,是不稳定的。
阅读全文
摘要:另外,C++11好像还增加一个initializer_list的初始化。
阅读全文
摘要:第8题,str to int. 单独弄了一个博文: http://www.cnblogs.com/charlesblc/p/6517298.html
阅读全文
摘要:原题: https://leetcode.com/problems/surrounded-regions/?tab=Description 我开始的方法,也是从四周向中间包围。但是没有下面的解答这样,巧妙地利用了递归的方法和特性,大大提高了代码的可读性。 https://discuss.leetco
阅读全文
摘要:8 Reverse Words in a String Unique Word Abbreviation Divide Two Integers Fraction to Recurring Decimal Surrounded Regions Decode Ways Range Sum Query
阅读全文
摘要:参考 http://blog.csdn.net/allenlinrui/article/details/5964046 x/<n/f/u> <addr> n、f、u是可选的参数。 n是一个正整数,表示需要显示的内存单元的个数,也就是说从当前地址向后显示几个内存单元的内容,一个内存单元的大小由后面的u
阅读全文
摘要:目前linux中的signal()是通过sigation()函数实现的。 由signal()安装的实时信号支持排队,同样不会丢失。 先看signal 和 sigaction 的区别: 关键是 struct sigaction act; 里面有三个部分,除了 signal函数会关注的 sa_handl
阅读全文
摘要:用指针呀,了解C++内存结构的话。 1. 对于私有成员变量,可以用指针来访问。 2. 对于虚函数,也可以用指针来访问。 3. 另外,对于私有成员,如果摸不准地址构造,可以先构造一个结构相似的类,然后增加一个公有函数获得内容,然后指针转换,并且用公有函数来访问。 4. 最后,就是直接定义一个相似的类,
阅读全文
摘要:实验了下面的函数: 输出: 16 为什么是16呢。因为我用的是64位机器呀。 64位机器的指针大小就是8呀。 然后因为对齐,所以整个长度16. 注意了:64位机器里面,int的size还是4. 关于虚函数虚表的内容,3月2号的文章有写。
阅读全文
摘要:http://www.cplusplus.com/reference/bitset/bitset/bitset/
阅读全文
摘要:简单的说,zookeeper=文件系统+通知机制。 每个子目录项如 NameService 都被称作为 znode,和文件系统一样,我们能够自由的增加、删除znode,在一个znode下增加、删除子znode,唯一的不同在于znode是可以存储数据的。 有四种类型的znode: 1、PERSISTE
阅读全文
摘要:一副牌,52张,随机排列,连续三张A的概率。 注意,不是连续抽三张。 是放在一起,有三张连在一起的概率。 对于连续抽三张,我的方法是: 4/ 52 * 3 / 51 * 2 / 50 对于后一种,我的方法是,先算出所有排列的所有个数,全排列,然后算出出现连续三张A的个数。 这种连续的个数,分为两种,
阅读全文
摘要:今日头条的这篇分享 https://www.huxiu.com/article/146449.html 人才在公司起的作用是不变的。 会出现四种结果: 1、公司不要变复杂,保持小且精干的团队。但这样并没有什么用。所以保持复杂度低、团队规模小不是想做大事业的公司的解决办法。 2、比较常见的一种是,公司
阅读全文
摘要:这篇讲的非常好 http://blog.csdn.net/liuzhanchen1987/article/details/7325376 红黑树确保没有一条路径会比其他路径长出俩倍,因而是接近平衡的。 1)每个结点要么是红的,要么是黑的。2)根结点是黑的。3)每个叶结点,即空结点(NIL)是黑的。4
阅读全文
摘要:http://blog.csdn.net/icyfire0105/article/details/1899927 VFS是一个软件层,用来处理与Unix标准文件系统相关的所有系统调用,是用户应用程序与文件系统实现之间的抽象层。它实际上向Linux 内核和系统中运行的进程提供了一个处理各种物理文件系统
阅读全文
摘要:inode可以看: http://www.cnblogs.com/itech/archive/2012/05/15/2502284.html 每个inode节点的大小,一般是128字节或256字节。inode节点的总数,在格式化时就给定,一般是每1KB或每2KB就设置一个inode。假定在一块1GB
阅读全文
摘要:这篇讲的不错: http://blog.csdn.net/smstong/article/details/50728022 首先Active Record 然后EBP,ESP等指针 2 通过setjmp和longjmp操纵AR,完成任意跳转 setjmp/longjmp主要从嵌套的函数调用中跳出来。
阅读全文
摘要:可以看这里: http://blog.csdn.net/huyiyang2010/article/details/5984987 现在的new是会抛出异常的,bad::alloc 如果不想抛出异常两种方法: 1. 用nothrow版本, new (std::nothrow) xxx(); 那样new
阅读全文
摘要:看这里: http://blog.csdn.net/lollipop_jin/article/details/8499530 shared_ptr可以多线程同时读,但是涉及到写,需要加锁。 shared_ptr开销较大。 多个(5个以上)shared_ptr共享一个动态对象,那么每个shared_p
阅读全文
摘要:书上讲了一个例子,一个德文字符,没有转成大写。 要转的话,要设置 set_locale
阅读全文
摘要:https://my.oschina.net/bgbfbsdchenzheng/blog/515938 挺难的,看不懂
阅读全文
摘要:http://blog.csdn.net/rickliuxiao/article/details/6259322 挺难的 看不懂
阅读全文
摘要:http://www.cnblogs.com/charlesblc/p/6338087.html 唉,还要再练。
阅读全文
摘要:前提:两个集合已经有序。merge() //归并两个序列,元素总个数不变,只是将两个有序序列归并为一个有序序列。set_union() //实现求集合A,B的并。set_difference()//实现求集合A,B的差(即A—B)set_symmetric_difference()//实现求集合A,
阅读全文
摘要:加锁和解锁,也可以在构造函数和析构函数里面,自动调用。 相等和等价的关系:等价是用在排序的时候,跟less函数有关。 vector,deque,string 要用erase-remove组合;而关联容器,直接erase就可以了。 copy(x.begin(), x.end(), ostream_it
阅读全文
摘要:参考 http://www.cnblogs.com/zhuyf87/archive/2013/04/04/2999916.html 1. 判断奇偶 if (a & 1) 2. 交换两数 a ^= b; b ^= a; a ^= b; 3. 变换正负符号 ~a + 1 4. 取绝对值 (a >> 31
阅读全文
摘要:这个new_handler其实对应于signal_handler 当operator new申请一个内存失败时,它会进行如下的处理步骤:1、如果存在客户指定的处理函数,则调用处理函数(new_handler),如果不存在则抛出一个异常。new_handler的模型为:void (*new_handl
阅读全文
摘要:看这篇文章: http://www.cnblogs.com/woaiyy/p/3554182.html 窗口滑动,如下图: 流量控制 流量控制方面主要有两个要点需要掌握。一是TCP利用滑动窗口实现流量控制的机制;二是如何考虑流量控制中的传输效率。 关于二,一个显而易见的问题是:单个发送字节单个确认,
阅读全文