摘要: 前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法。 Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括Excel和PowerPoint。我们就使用POI来做。 步骤 下载 https://poi.apa 阅读全文
posted @ 2017-08-16 11:28 chyq 阅读(1482) 评论(0) 推荐(0) 编辑
摘要: 前期准备 使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。 词频统计技术 词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0, 阅读全文
posted @ 2017-08-15 10:55 chyq 阅读(5103) 评论(0) 推荐(0) 编辑
摘要: 适用场合 Apriori算法包含两部分内容:1,发现频繁项集 2,挖掘关联规则。 通俗地解释一下,就是这个意思:1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系。 举个例子:网店购物订单常常会出现这样一种情况:那就是某几种物品常常一起买。比如锅和铲子、手机和手机 阅读全文
posted @ 2017-08-13 17:04 chyq 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 题目描述 输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。 题目思路 本题就是按照建立二叉树的思路建立就行了。先序遍历的第一个是根节点,然后在中序遍历找到该根节点,以此为界,中序遍历的左边是它的左子树的中序遍历,同样地找到该左子树在先序 阅读全文
posted @ 2017-08-12 22:41 chyq 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 背景 最近接触到了一些NLP方面的东西,感觉还蛮有意思的,本文写一下分词技术。分词是自然语言处理的基础,如果不采用恰当的分词技术,直接将一个一个汉字输入,不仅时间复杂度会非常高,而且准确度不行。比如:“东北大学”若直接拆分,会和“北大”相关联,但其实没有意义。 有没有英文分词? 西方文字天然地通过空 阅读全文
posted @ 2017-07-31 17:18 chyq 阅读(1741) 评论(0) 推荐(0) 编辑
摘要: 题目内容 题目来源:剑指offer、LeetCode Write an efficient algorithm that searches for a value in an m x n matrix. This matrix has the following properties: Intege 阅读全文
posted @ 2017-07-31 16:00 chyq 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 题目内容 题目来源:LeetCode Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, 阅读全文
posted @ 2017-07-13 20:44 chyq 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 题目内容 题目来源:LeetCode Reverse a singly linked list. 题目思路 这个属于经典问题,链表反转的思路基本上已经非常固定了。有两种非常常见的方法:1.三指针法 2.头插法 这个题目用到的是三指针法。 方法:设立三个指针,分别叫做pre, curr, next。这 阅读全文
posted @ 2017-07-13 17:56 chyq 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 题目内容 题目来源:LeetCode You are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and each of 阅读全文
posted @ 2017-07-08 14:42 chyq 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 题目内容 本题来源:LeetCode Given an array and a value, remove all instances of that value in place and return the new length. Do not allocate extra space for 阅读全文
posted @ 2017-07-07 11:29 chyq 阅读(99) 评论(0) 推荐(0) 编辑