随笔 - 404
文章 - 0
评论 - 1037
阅读 -
136万
随笔分类 - C#
C#编程
巧用C#webbrowser以及Application.DoEvents()实现采集动态网页的爬虫机器人
摘要:作者:finallyliuyu (转载请注明作者:finallyliuyu,出处:博客园)可以采用DOM+正则+浏览器组件来解决上面的问题。DOM (Document Object Model),是一个接口标准,该接口是将html网页解析成为树的格式,关于DOM的教程,请见:http://www.w3.org/DOM/ 虽然上面讲的是JavaScript的 DOM 接口函数,但是由于DOM是一个接...
阅读全文
写一点应用关于 Lucene.Net,snowball的重新组装(一)在Lucene.Net中加入词性标注与词根还原功能
摘要:作者:finallyliuyu (资料使用,博文引用请您表面出处)本专题是有关借助于Lucene.Net工具如何对英文文章进行分词,词性标注,词根还原的。如果是借助于Lucene.net框架对中文进行分词,词性标注,那么原理上更简单。我在《也谈贝叶斯分类C#版》中给出了如何在Lucene中嵌入河北理工大学吕震宇老师(根据张华平老师的ICTCLAS分词开源版本改写成)的sharpICT.需要指出但是...
阅读全文
C#像Mysql数据库插入数据
摘要:C#出来MYSQL的方法和处理MSSQL方法过程类似,只不过相应命令的前缀SQL换做了MySql下面的代码写下来做备忘C# 操作MySql数据库Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--publicstaticvoidInsertIntoData...
阅读全文
驴子的新闻提取系统(二)
摘要:正文提取部分。这部分实现大部分是参考蛙蛙的,但是作了少许修改。主要在下面两方面:一,动态阈值。蛙蛙设置的是三百,所以他的算法对于短新闻来说失效。我的阈值设置为当前新闻正文所有汉字数量的函数。这样可以避免一些短新闻失效的情况,但还是不够完美。二。有的正文页,含有很多链接到其他新闻的URL,这部分模块汉数量也很大,所以,如果不把这种链接块儿去掉,统计字符进行正文定位的时候,容易跑偏。上代码判断两段儿文...
阅读全文
驴子的新闻提取系统(一)
摘要:转载请标明出处。新闻采阅系统效果图 《网页解析器设计》这个题目是我本科毕业设计的题目。时间真快哈,转眼又是一年过去了。去年的这个时候,我正忙着毕设以及考研的复试。那个时候的,未经历过社会的洗礼,对科研,都研究生生活充满了天真而或是白痴般的憧憬。 真是不吃一堑不长一智哈。经过了考研,复试的洗礼。我那幼稚单纯的心,终于开化了,作为一个具有社会属性的人,我也越发市侩和成熟啦。相信我会越走越好的,因为我不...
阅读全文
生手和FinallyJane一起学习ASP.NET
摘要:那么我们就先来学习Home.aspx的写法顶部视图源码Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--1<divid="divtop">2<divid="header_panel">3<divid="header_sect...
阅读全文
和FinallyJane一起Asp学网页设计(二)
摘要:首先介绍一下系统总框架入口:Home.aspx->注册页:Register.aspxor入口:Home.aspx->已注册用户的个人空间:我的主页.aspx->更改个人信息页:更改个人信息页面.aspxor入口:Home.aspx->已注册用户的个人空间:我的主页.aspx->查看帖子,回复帖子:TipDetails.aspx每一个aspx文件对应于一个网页,每一个a...
阅读全文
和FinallyJane一起学习ASP.net进行网页编程(一)
摘要:Asp.net ,C# BBS网页系统设计
阅读全文