摘要:
在博客园上也晃荡了有一段时间了,见识到了什么叫“天外有天,人外有人”,拜读了很多文章,非常喜欢这里的互相交流的学习氛围,但一直介于自己的菜鸟水平,不敢在此开创自己的一片天空,甚至就在前几天我还在想要不要开个什么百度、新浪或者网易之类的博客算了,反正都是一样的用,最后还是冒着拍砖的危险申请了开通信息,并顺利的获得了批准。 Ok ,this is it ! 既然来了,就好好的干吧,咱恐怕不能象XXX牛一样,天天笔耕不辍,努力跟新甚或是创新发明,但就把这作为一个记录自己平时学习点滴的园地吧。 实践出真知,努力见成效。 相信在时间的积累下,在园友的互助下,自己能够更上一层楼! Come ... 阅读全文
摘要:
之前的文章介绍了个人分词软件在介入数据库作为词典存储介质后的表现,为了让分词软件能够更好得得到展示,本篇讲介绍将其移植B/S端的相关方法。 在《基于.NET的分词软件设计与实现V3.0--对比测试及改变》中,我介绍了很多基于B/S和C/S的分词程序,在移植B/S端时,我参照了很多相关的功能,并从中提炼了四个最主要的功能(其中标注不作为本分词软件的重点,故予以排除): 1、以“\”为间隔的切分; 2、以“ ”为间隔的切分(所谓的“北大标准”切分); 3、去除文本标点; 4、在之前的版本中我进行了去除文本格式的尝试,虽然在对比测试后没有予以使用,但在这里依然作为一个附属功能提炼出来,称... 阅读全文
摘要:
1、NPlot:http://netcontrols.org/nplot/:我觉得是.NET开源轻量级中最好的2、graphviz(quickgraph):这个大家可以搜索一下,功能很强大(看介绍和图片)。3、ZedGraph:原题“A flexible line graph class library in C#”,在codeproject.com上,效果不错;4、Graph Library:在codeproject.com上,有bar、line、pie三种样式; 5、Full Customizable 3D PieChart with ASP.net,WebForm,在codeprojec 阅读全文
摘要:
忙了一阵子,今天用空下来的一点时间来总结一下之前未完成的分词系列吧。。 上篇提到了使用HashSet<T>作为词典存储数据结构的方法,这也是在不使用数据库的情况下,自己在能力范围之内找到的最佳的解决方案。 但是,如果使用数据库呢,好吧,下面就让我们来看在使用数据库的情况下,本分词软件的表现。 一、建立数据库 在之前的版本中,分词的词典都以文本的形式直接保存在txt文件中,这里自然要将其全部转存到数据库的表中,介于词典采用的是每行存取一个词的方法,我采用的方法是循环读取文本文档的每一行,随后使用insert语句将其录入数据库的表中。 随后我们不作任何优化措施,直接开始简单的测试,首先 阅读全文
摘要:
上篇使用了SortedList,对分词的性能有了显著的改进,但是有一点偶没有提,那就是构造词典的时间,由于SortedList需要保证元素的有序性,所以对于我使用的20+万的词典来说,构造时间也达到了10秒左右,因此与之前的三个版本相比,虽然分词的性能大幅提升,但总的时间并没有什么改进,所以使用SortedList的方案自然也不可行,那让我们看看之前提到的Hashtable表现如何。一、Hashtable的优势——高效的查找 时间复杂度: 这无疑是Hashtable最大的优势所在,对于之前提到的数据结构:ArrayList采用顺序查找,时间复杂度为O(n),而SortedList采用二分查找. 阅读全文
摘要:
隔了一段时间,忙其他的去了,下面继续偶之前的分词软件。 在之前的3个版本里,我们已经实现了分词的基本功能,并对其合理性等作了大量的测试评估工作,但是性能的提升还很不如意,所以这里我提出了使用SortedList提高分词效率的方案。 C#中提供了众多集合类的数据结构,如大家常用的List<T>,Dictionary<T>等,这里我将着重介绍一下SortedList,并实现其在偶的分词软件中的应用。 一、SortedList简介引自MSDN: SortedList 元素可通过其键来访问 (如任意 IDictionary 实现中的元素),或通过其索引来访问(如任意 IList 阅读全文
摘要:
一、功能列表 进入Tools——Options乐意看到Productivity Power Tools选项,在此列出了插件所拥有的14个功能,包括:Align Assignments Automatic Brace Completion Colorized Parameter Help Column Guides Ctrl + Click Go To Definition Document Well 2010 Plus Fix Mixed Tabs Highlight Current Line HTML Copy Move Line Up/Down Commands Quick Access 阅读全文
摘要:
上篇中,我们可以看到Windows下面的集成工具包很是给力,几下就把环境搭建好,但LAMP终究才是王道,LMAP就是所谓的Linux+Apache+Mysql+Perl/PHP/Python,这是一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。随着开源潮流的蓬勃发展,开源的LAMP已经与J2EE和.NET形成了三足鼎立之势,并且LMAP本身具有成本低廉、安全、稳定、易上手及易扩展等优点,因此受到了广泛的关注和应用,拒不完全统计,从网站的流量上来说,70%以上的访问流量是LAMP来提供的 阅读全文
摘要:
在上篇中,我详述了在Windows下配置Zend开发工具的详细过程,但是没有一个开发环境,你再牛B的工具自然也跑不起来,比如没有了.NET Framework,你跑个Visual Studio试试,所以搭建开发环境也是学习程序开发一个必不可少的环节。 就象C# + SQLServer,Tomcat +Java + Oracle等所谓的黄金组合一样,开发PHP项目也有自己的一套,那就是所谓的Apache + PHP + MySQL。 所以对于环境的搭建,我们需要同时安装这三样东西,理论上可以选择分别下载每个程序的安装包,然后分别安装配置,但未免显得有些复杂,有很多牛就对开发工具进行了整合,形成. 阅读全文
摘要:
系列索引:基于.NET的分词软件设计与实现--索引及说明 在前面的两个版本中我们已经实现了所有的功能,即针对中文、英文、数字及特殊符号的分词功能,所以整体的功能已经基本实现,所有从这一篇开始起,系列的重点就放在了对比测试和性能优化上。 首先来看对比测试,俗话说:有比较才有进步。所以偶下载了很多分词软件,通过分词算法、分词效果及分词耗时等多项指标的比对,对自己的分词软件做出了相应的功能修补: 如果没有特别说明,从本文开始的所有文章均以下图所示的某新闻报道为测试文本: 1、文本预处理功能。 在上篇中我提到了一个预处理功能,下面看一下我搜集的一些分词软件对于这样的一些特殊情况是怎么处理的。 (1). 阅读全文
摘要:
在 Visual Studio 2010 里写程序虽然有语法高亮度显示,但是在开启档案后阅读较大的程序代码档还是不太方便,因为你无法快速的理解目前该档案的程序代码结构,例如说该档案里有几个类别、几个接口、彼此有继承关系、几个批注或 #region 等等,但我们透过 VS10x Code Map v2 这个扩充套件便可透过不同的颜色、图示得知目前程序代码的结构,只要你跟他混熟了,相信你可以不用看完整份原始码就能知道目前程序代码的结构,对需要 Code Review 的人来说可谓是必备工具! 你可以从 Visual Studio 2010 的扩充管理员进行套件安装,开启后点选 在线图库 分类,然. 阅读全文
摘要:
因为个人原因转到PHP已经一星期有余,熟悉了简单的语法,也可以用PHP来实现CRUD了,算是迈出第一步吧,对PHP的感觉估计也和很多人一样,简单,好上手。 或许你可以用Dreamweaver、Notepad++或者Editplus这样的东西完成你的系统,但所谓“工欲善其事,必先利其器”,偶认为一个给力的IDE对于新手还是很必要的,而Zend作为PHPer们公认的最前IDE,自然成为了我的选择,我安装的版本是7.2.1,本文就介绍一下自己对于这个“新”工具的改造吧,最后留几个问题让高手们给解决下。 1、更改Zend工作目录 2、更改Zend字体 依次进入Window——Preferences—. 阅读全文
摘要:
之前发了基于.NET的分词软件设计与实现V1.0--总体思路及算法实现,发现园子里面还是有挺多关注的,有人跟我消息说想让搞成一个本科毕业论文设计的形式,录成视频,偶这个菜菜表示有点忐忑,这个还在商量中,所以为了留点小悬念,偶不再放出类的完成代码(当然,您是大牛的话肯定不需要的)。 首先说明下很多人留言中提到的性能问题,这肯定是这个软件在设计时的重中之重,所以我肯定会详细考虑,之所以这个系列计划写10+篇,也是因为偶在性能方面作了很多测试,所以性能问题大家不必担心,我在自己能力所及的范围内对性能作了最大化的提升,最后的性能也希望能让大家满意。 好了,废话已尽,来正题吧。。。 首先来看V1.0存. 阅读全文
摘要:
首先介绍一下这个分词软件的总体思路。 查阅了网上的一些相关资料,普遍采用的都是“正向最大匹配算法”和“逆向最大匹配算法”,不了解的朋友先来这里看下两个算法的基本思想: 正向最大匹配算法基本思想是:首先在词库里查找文本是否存在,如果存在,直接提取出来,而如果不存在,则删除文本的最后一个字,检查是否是单字,若是输出此字并将短语减去此字,若不是则继续判断看字库是否存在这个词,如此反复循环,直到输出一个词,这样就可以将一个短语分成词语的组合了。 而逆向最大匹配算法自然是相反的,如果发现待分词文本在词典中不存在,那么删除文本的第一个字,进行再次匹配操作。 实验证明:正向最大匹配对歧义识别比较差,分词的. 阅读全文
摘要:
自然语言是指人类使用的语言,而自然语言处理(natural language processing)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术(冯志伟《自然语言的计算机处理》)。但如何让计算机实现人们希望的语言处理功能,如何让计算机实现海量语言信息的自动处理和有效利用,这些一直是现在研究的热点问题,常见的如机器翻译、自动文摘等,由于中国的文字博大精深,实现的难度可想而知。 而分词可以说是自然语言处理里面的一个部分,其应用领域十分广泛,研究的意义也是很显著的,最常见如大家每天都在用的搜索引擎:搜索引擎将爬虫搜集到的网页分词,然后建立网页索引文. 阅读全文
摘要:
简介:CSDN是chinese software develop net 的缩写 ,中国软件开发联盟。中国最大的开发者技术社区 ---- 《程序员》刊物 官方网站它是集 新闻、论坛、群组、Blog、文档、下载、读书、Tag、网摘、搜索、.NET、Java、游戏、视频、人才、外包、第二书店、《程序员》等多种项目于一体的大型综合性IT门户网站,它有非常强的专业性,其会员囊括了中国地区百分之九十以上的优秀程序员,是至今为止,在IT技术交流及其周边 国内中第一位的网站。(from:百度百科)从一个SQL注入点说起: 大部分时间都是在博客园呆着,很少上csdn,突然心血来潮,看了一下自己多年的csdn账 阅读全文
摘要:
最近读了John Goodson和Robert A.Steward的《数据访问宝典》,里面提到了很多优化性能的方法,下面做了个读书笔记,与园友们分享。SQL性能参数 响应时间:在数据请求和数据返回这个过程中经历的时间。 吞吐量:在一段时间内从发送程序向接收程序传输的数据的数量。 可伸缩性:当同时访问数据库的用户数量增加时,应用程序维持可以接受的响应时间和吞吐量的能力。编写SQL代码原则 减少网络通信量 限制磁盘I/O 优化应用程序和驱动程序之间的交互 简化请求.NET程序优化要点 ·使用连接池。 连接池是应用程序能够重复使用的一个或多个数据库连接的高速缓存。 创建一个新的数据库连接所 阅读全文
摘要:
有日子没写日记了。。新年新气象。。咱就接着去年的日记继续写吧。。^_^ Updated:2010-02-03 This is the first day of the new year , so happy new year to everybody , especially to all the collegues in our cnblogs. Today I'm working on a project document, and I am gonna make something out of it , that is so-called winter vacationstud 阅读全文
摘要:
今天在写个简单的JS时出现了个很奇怪的问题,类似如下: Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->1 <script type = "text/javascript">2 function blur(){3 alert(1);4 }5 </script>6 <input type = "text" onblur = "blur();" /> 阅读全文
摘要:
三天两夜,一个申报书,哥被折腾的不轻,回到家了,轻松一下,写个总结。 首先这是一个xx科技厅的攻关项目,由xx大学与xx电子公司合作申报,申报资金五十万。 具体细节不再公布,相信很多重点大学里老师的项目都是由他的学生来主笔的,所以为了以后独担此任,还是不过有必要记录一下具体的流程: 1、剖析项目关键词,进入图书馆网站,搜索所有与此相关的电子期刊或学术论文,并下载备用; 2、列出所有觉得相关的有价值的文档,由老师对文章的题目逐一筛选,最后留下几篇主要的参考文档; 3、根据主要的参考文档编写申报材料中所有的内容。 这就是大致的流程了,不过究其细节,还是有很多说道的地方: 1、名字一定要吸引人,否. 阅读全文
摘要:
snippet翻译过来就是代码片段,不过本文可不是讲为测试某个功能写个snippet,然后丢到SnippetCompiler里面去跑一跑,而是修改系统自带的snippet,使其更加符合个人呢的需求。 在VS里编程时,可以方便的使用这些snippet加快代码编写的速度,比如我们输入“for”,然后按两下Tab键,那么VS会自动生成的代码如下所示: 随后只需要按Tab切换即可完成for循环的编写,这样就省得自己来回在“=”,“<”,“>”,“+”这些符号之间纠结了,节省了很多时间。。。 这样的功能实际就是通过操作系统盘下Program Files\Microsoft Visual St 阅读全文