摘要:
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了... 阅读全文
摘要:
1. 求一个数组中后边的元素减去前边的元素的最大值例如数组 [3, 2, -1, 5, 4]后减前最大值为:5 - (-1)=6思路定义局部最大值tmpMax(初始化为负无穷),局部最小值tmpLow(初始化为数组第一个元素)从第二个元素开始遍历,如果(该元素-tmpLow )=0)只需比较该差值与... 阅读全文
摘要:
先用程序估算一下from __future__ import divisionimport randomN = 1000000sums = 0for i in range(N): count = 0 s = 0 while 1: s += random.random(... 阅读全文
摘要:
1. 数组#!/usr/bin/perlmy $str = "hello,nihao,no,o,good";my @arr = split(/,/, $str);print "len:" . @arr . "\n";for (my $i=0; $i >text.txt")用追加,不要用>,>会清空原... 阅读全文
摘要:
介绍K-means算法是是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。图示 步骤从N个文档随机选取K个文档作... 阅读全文
摘要:
0.说明 MySQL数据库是一个十分轻便的数据库管理系统,相比大型的数据库管理系统如Oracle,MySQL更拥有轻便、灵活、开发速度快的特色,更适用于中小型数据的存储与架构,被数以万计的网站采用。从5版本以后,陆续支持了游标、触发器、事务、存储过程等高级应用,这也给MySQL的易用性和企业服务的发 阅读全文
摘要:
传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。 数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方... 阅读全文
摘要:
1. 继承方式public 父类的访问级别不变protected 父类的public成员在派生类编程protected,其余的不变private 父类的所有成员变成private#include using namespace std;class base{ public: ... 阅读全文
摘要:
问题判断一棵树是否是另一棵树的子树,如图思路问题分两步:找值相同的根结点(遍历解决)判断两结点是否包含(递归:值、左孩子、右孩子分别相同)树节点定义struct TreeNode{ int val; TreeNode *next; TreeNode(int v) : val(v),... 阅读全文