02 2014 档案

摘要:近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典――中文概念辞书(CCD)和董振东、董强的Hownet(知网)。 Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属.. 阅读全文
posted @ 2014-02-26 15:42 jihite 阅读(15904) 评论(0) 推荐(2) 编辑
摘要:冒泡排序需要重复的遍历未最终未排好序的元素序列,依次比较两个相邻的元素,如果顺序不对就把这两个元素换过来;否则接着往后遍历,最终把最大的元素放到最后,就象一个起泡一样,最终浮到上游。图示说明最后一个元素就不用了,一个元素一定有序。最终需要定型的位置j从后到前的顺序是[size-1, 1],每次从前往后的顺序访问的位置i范围是[0, j-1]。代码#includeusing namespace std;int BubbleSort(int a[], int size){ for(int j = size - 1; j >= 1; --j) { for(int i =... 阅读全文
posted @ 2014-02-24 23:38 jihite 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-02-24 22:37 jihite 阅读(511) 评论(0) 推荐(0) 编辑
摘要:案例数列3, 2, 3, 1, 3, 3, 2, 3中,3就是个数大于总数大于一半的元素。思路一对数列排序,再扫描一边,找出元素个数超过一半的元素。此时需要排序,同时需要记录每个元素出现个数,费时、费空间。思路二 对于排好序的数列,假设总数为N,那么N/2位置的那个数必定为所求之数,这就不需要记录每个元素的个数。思路三 对于数列,不用排序。对于其中的任意两个不同的元素,去除之后,原来那个个数大于总数一半的元素个数仍然是大于剩下元素的一半的。利用该特性遍历一遍数列就可以找出这个总数大于一半的那个元素。 具体的实施,不用每次去这些数中去找不同的两个数,只需记录当前候选目标值can,与此对应的... 阅读全文
posted @ 2014-02-23 23:41 jihite 阅读(2268) 评论(2) 推荐(1) 编辑
摘要:感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型。感知机由Rosenblatt于1957年提出的,是神经网络和支持向量机的基础。行文脉络感知机模型感知机学习策略感知机学习算法原始形式对偶形式 4. Github地址1. 感知机模型定.. 阅读全文
posted @ 2014-02-23 16:54 jihite 阅读(21470) 评论(1) 推荐(3) 编辑
摘要:行文脉络解法一——除法解法二——移位解法三——高效移位解法四——查表扩展问题——异或后转化为该问题对于一个字节(8bit)的变量,求其二进制“1”的个数。例如6(二进制0000 0110)“1”的个数为2,要求算法效率尽量高。解法一对于二进制数来说,除一个2,就少一位,可以判断这个少的位来确定“1”... 阅读全文
posted @ 2014-02-23 16:32 jihite 阅读(4422) 评论(5) 推荐(0) 编辑
摘要:1) 总带一本书 无论你花一年或者一周去读一本书,这都无所谓。随身带着它,当你有时间的时候就努力去阅读,通读。每天只需花挤出来的几分钟,一周就能读一本。那么一年至少就能读50本。2) 建一个“要学习什么”的名单 我们都有需要做的事情的清单。这些就是我们需要完成的任务。努力建立一个”要学习什么”的清单。你可以把想要学习新领域的思路写在上面。或许你想掌握一门新语言,学习新技能,或者读莎士比亚全集。无论是什么激励你的,都要把它写下来。3) 寻找更多明智的朋友 开始花更多的时间与那些善于思考的人在一起。并不仅因为他们聪明,而且是因为他们投入了很多时间学习新的技能。他们的好习惯也会在你的身上摩擦出火花。 阅读全文
posted @ 2014-02-22 15:05 jihite 阅读(817) 评论(0) 推荐(2) 编辑
摘要:问题(假定根节点位于第0层)1. 层次遍历二叉树(每层换行分开)2. 层次遍历二叉树指定的某层例如上图中1.12 34 5 67 82.第三层7 8可以看出得出第二问的解,第一问迎刃而解了,所以从问题二下手分析与解1. 层次遍历二叉树指定的某层可以得出这样的一个结论:遍历二叉树的第k层,相当于遍历二... 阅读全文
posted @ 2014-02-20 23:58 jihite 阅读(13941) 评论(1) 推荐(4) 编辑
摘要:问题定义把二叉树看成一个图,父子节点之间的连线看成是双向的,定义“距离”为两个节点之间的边数。例如下图中最大距离为红线的条数为6.分析定义:过以节点x作为根节点的子树中,节点间的最大距离为Dis(x)。上图,左图中Dis(根节点)最大,右图中Dis(根节点->left)最大。从上边可以看出每个节点都可能成为最大距离根节点的潜质。因此可以求出每个Dis(节点),从中得出最大值即为整个二叉树的根节点最大值。在求过点x的最大距离时,最大距离的两个点有可能出现在三种情况下左子树右子树过节点x经分析得出以下特点以上三种情况最终必定一叶子结束在第三种情况下必然是左子树高度 与 右子树高度 之和(只有 阅读全文
posted @ 2014-02-19 00:45 jihite 阅读(6068) 评论(1) 推荐(0) 编辑
摘要:缘起在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一。转换说明全角半角转换说明有规律(不含空格):全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)特例:空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。注:1. 中文文字永远是全角,只有英文字母、数字键、符号键才有全角半角的 阅读全文
posted @ 2014-02-18 17:05 jihite 阅读(45631) 评论(1) 推荐(1) 编辑
摘要:基本思想 把n个元素的数列分成有序(前)和无序(后)的两部分 每次处理就是将无序的数列中第一个元素与有序数列的元素从后到前比较,找到插入位置,将该元素插入到有序数列的适当的最终的位置上(稳定排序)。 参考代码一 连续交换的时候相当于整体后移,把做比较元素放到最终位置上,修改如下。 参考代码二 运行结 阅读全文
posted @ 2014-02-17 22:28 jihite 阅读(15530) 评论(4) 推荐(0) 编辑
摘要:归纳优点:比较次数少、查找速度快、平均性能好缺点:待查找表为有序表、插入删除困难时间复杂度:O(logN)实用场景:有序数组思路假设表为升序排列,中间元素和待查元素比较,如果中间元素和待查元素相等找到了;如果小于则在前半段找;否则在后半段找。递归int BiSearch(int *a, int be... 阅读全文
posted @ 2014-02-14 23:29 jihite 阅读(1073) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示