我的博文目录整理

从2014年8月开始在博客园写博客,至今已经积累了82篇,集中在机器学习、NLP、数据结构与算法、大数据、编程语言等方面。在此做个总结,以后还会陆续更新……

1. 机器学习

【十大经典数据挖掘算法】系列:

  1. C4.5
  2. K-Means
  3. SVM
  4. Apriori
  5. EM
  6. PageRank
  7. AdaBoost
  8. kNN
  9. Naïve Bayes
  10. CART

2. NLP

中文分词

中文分词工具thulac4j重磅发布.

【中文分词】理论篇:

  1. 【中文分词】简单高效的MMSeg.
  2. 【中文分词】隐马尔可夫模型HMM.
  3. 【中文分词】二阶隐马尔可夫模型2-HMM.
  4. 【中文分词】最大熵马尔可夫模型MEMM.
  5. 【中文分词】条件随机场CRF.
  6. 【中文分词】结构化感知器SP.

【中文分词】实践篇:

  1. 开源中文分词工具探析(一):ICTCLAS (NLPIR)
  2. 开源中文分词工具探析(二):Jieba
  3. 开源中文分词工具探析(三):Ansj
  4. 开源中文分词工具探析(四):THULAC
  5. 开源中文分词工具探析(五):FNLP
  6. 开源中文分词工具探析(六):Stanford CoreNLP

3. 数据结构与算法

数据结构篇:

  1. Trie树的应用:查询IP地址的ISP.
  2. 多叉树实现类目体系.
  3. Bloom Filter:海量数据的HashSet.
  4. 双数组Trie树 (Double-array Trie) 及其应用.

算法篇:

  1. 【模式匹配】KMP算法的来龙去脉.
  2. 【模式匹配】更快的Boyer-Moore算法.
  3. 【模式匹配】Aho-Corasick自动机.
  4. 【图论】深入理解Dijsktra算法.
  5. 【图论】求无向连通图的割点.
  6. 【图论】有向无环图的拓扑排序.
  7. 【动态规划】最长公共子序列与最长公共子串.
  8. 连续子数组最大和.
  9. 最长回文子串.
  10. Top K问题的两种解决思路.

信息论与编码篇:

  1. 【数据压缩】Huffman编码.
  2. 【数据压缩】LZ77算法原理及实现.
  3. 【数据压缩】LZ78算法原理及实现.
  4. 整数压缩编码 ZigZag.

【LeetCode题解】系列:

  1. 【LeetCode题解】二叉树的遍历.
  2. 【LeetCode题解】数组Array.
  3. 【LeetCode题解】链表Linked List.
  4. 【LeetCode题解】排序.

4. 大数据

SQL on Hadoop (Hive、Pig)系列:

  1. 常用HiveQL总结.
  2. Hive UDF初探.
  3. 【Pig源码分析】谈谈Pig的数据模型.
  4. Pig 实现关键词匹配.
  5. Pig + Ansj 统计中文文本词频.

OLAP (Kylin)系列:

  1. Kylin的cube模型.
  2. Apache Kylin 部署之不完全指南.
  3. 【Kylin实战】Hive复杂数据类型与视图.
  4. 【Kylin实战】邮件报表生成.
  5. 轻量级OLAP(一):Cube计算.
  6. 轻量级OLAP(二):Hive + Elasticsearch.

工作流调度系列:

  1. 工作流引擎Oozie(一):workflow.
  2. 工作流引擎Oozie(二):coordinator.
  3. 灵活可扩展的工作流管理平台Airflow.

5. 编程语言

Java

探究篇:

  1. Java中的逆变与协变.
  2. 【JDK源码分析】浅谈HashMap的原理.
  3. 【JDK源码分析】String的存储区与不可变性.

实战篇:

  1. Java实时读取日志文件.
  2. Java实现过滤中文乱码.

Python

实战篇:

  1. 【Python实战】机型自动化标注(搜狗爬虫实现).
  2. 【Python实战】Pandas:让你像写SQL一样做数据分析(一).
  3. 【Python实战】Pandas:让你像写SQL一样做数据分析(二).
  4. 【Python实战】Scrapy豌豆荚应用市场爬虫.
  5. 【Python实战】Django建站笔记.
posted @ 2017-03-22 08:52  Treant  阅读(2598)  评论(4编辑  收藏  举报