摘要:
本文主要介绍One-Class-Learning的两个算法,One Class SVM和基于autoencoder的One Class Learning,并在TensorFlow上进行了实践 阅读全文
摘要:
Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。 阅读全文
摘要:
南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。 阅读全文
摘要:
分享我常用的链接,希望对你有所帮助 阅读全文
摘要:
写一个爬虫,找出知乎的神回复 阅读全文
摘要:
隐马尔科夫模型在语音识别,自然语言处理等领域有着广泛的应用,80年代李开复博士就是采用隐含马尔可夫模型的框架, 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。本文先介绍隐马尔科夫模型的定义及观察序列的概率计算问题。 阅读全文
摘要:
Java自定义一个线程安全的有界阻塞缓存队列,实现生产者消费者问题。 阅读全文
摘要:
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,本文介绍一下k-means算法并在文本分类上应用。 阅读全文
摘要:
从假设函数、损失函数、优化目标和实现的角度总结几个常用的机器学习算法 阅读全文
摘要:
卷积神经网络的一个Java实现,对DeepLearnToolbox进行了改进,卷积核与采样块都不再要求是方阵,在Minist数据集上准确率97%. 阅读全文
摘要:
主要讲述反向传输神经网络(BP)算法的基本流程和自己在训练BP神经网络的一些经验。 阅读全文
摘要:
最近做文档识别方面的项目,做汉字识别需要建立字库,在网上找了各种OCR,感觉都不好,这方面的技术应该比较成熟了,OCR的软件很多,但没有找到几篇有含金量量的论文,也没有哪位大牛公开字库,只有自己弄一个,我用pygame渲染字体来生成字库,也用PIL对整齐的图片进行切割得到字库。 阅读全文
摘要:
Map-reduce是一种优雅的数据处理方式,本文通过三个例子介绍如何用python在linux的管道进行map-reduce编程,本文写的所有map-reduce程序都可以原封不动的放在Hadoop下运行,很容易在大数据集上扩展。 阅读全文
摘要:
本文介绍了朴素贝叶斯分类方法,还以文本分类为例,给出了一个具体应用的例子。 阅读全文
摘要:
本文介绍了两种文本特征选择的方法--互信息和卡方估计值 阅读全文
摘要:
总结自己对Android的Handler的理解,揭开其线程间消息通信的神秘面纱。 阅读全文
摘要:
模仿Hacker News来给博客园首页的文章排个序,让精华的文章总在最前面。 阅读全文
摘要:
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 阅读全文
摘要:
博客园用户由关注和粉丝的关系,这与网页的链接关系很类似,于是我就爬了博客园的粉丝与关注用户,然后计算了一下用户的PageRank排名。这里列出了博客园用户排名的前200的用户。完整数据放在了github上 阅读全文
摘要:
本文总结PageRank的原理,并提供了一种Python版本的Map-Reduce计算方法 阅读全文