Loading

摘要: 简介: 支持向量机(SVM)是一种二分类的监督学习模型,他的基本模型是定义在特征空间上的间隔最大的线性模型。他与感知机的区别是,感知机只要找到可以将数据正确划分的超平面即可,而SVM需要找到间隔最大的超平面将数据划分开。所以感知机的超平面可以有无数个,但是SVM的超平面只有一个。此外,SVM在引入核 阅读全文
posted @ 2018-10-19 12:21 hiyoung 阅读(659) 评论(0) 推荐(1) 编辑
摘要: 概述 今天要说一下机器学习中大多数书籍第一个讲的(有的可能是KNN)模型-线性回归。说起线性回归,首先要介绍一下机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标志值是离散值时是分类任务。而线 阅读全文
posted @ 2018-10-09 22:38 hiyoung 阅读(9733) 评论(0) 推荐(0) 编辑
摘要: 上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词。 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。 统计分词一般做如下两步操作: 1.建立统计语言模型(n-gram) 2.对句子进行单词划 阅读全文
posted @ 2018-09-25 22:24 hiyoung 阅读(5281) 评论(1) 推荐(1) 编辑
摘要: 冒泡排序(Bubble Sort) 是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。运作步骤如下: 比 阅读全文
posted @ 2018-09-22 11:12 hiyoung 阅读(812) 评论(0) 推荐(0) 编辑
摘要: 位运算位运算是把数字用二进制表示之后,对每一位上的0或者1的运算。理解位运算的第一步是理解二进制。二进制是指数字每一位都是0或者1,如十进制的2转换为二进制之后是10,而十进制的10转换为二进制之后是1010。在程序员圈子里有一个流传了很久的笑话,说世界上有10种人,一种人知道二进制,另一种人不知道 阅读全文
posted @ 2018-09-22 11:00 hiyoung 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 链表链表是面试时被提及最频繁的数据结构。链表就是通过指针将一个个节点连接起来。链表是非连续的动态内存空间,链表的查找比数组慢,但是添加和删除比数组快。链表声明 1 public class ListNode { 2 int val; 3 ListNode next; 4 public ListNod 阅读全文
posted @ 2018-09-21 17:10 hiyoung 阅读(1050) 评论(0) 推荐(0) 编辑
摘要: 中文分词概述 词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来。在汉语中,虽然是以字为最小单位,但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时,需要进行分 阅读全文
posted @ 2018-09-21 16:59 hiyoung 阅读(15441) 评论(3) 推荐(1) 编辑