随笔 - 404
文章 - 0
评论 - 1037
阅读 -
136万
随笔分类 - 信息检索
信息检索的相关算法的实现
新手入门:巧用Webbrowser实现网络数据采集
摘要:作者:finallyliuyu 出处:博客园(博文转载请标明作者和出处)编者按:本系列文章给出的网络数据采集方法、思路、和框架并无工业化应用价值,但足以满足各高校实验室在实验阶段爬去语料库,获取网络资源的需求。 欢迎老鸟指点,但是此篇博文的定位是“写个菜鸟,新手的”所以禁止无厘头的疯狗式乱骂。 在上一篇文章:《巧用C# webbrowser实现动态网页爬虫机器人》中,给出了...
阅读全文
巧用C#webbrowser以及Application.DoEvents()实现采集动态网页的爬虫机器人
摘要:作者:finallyliuyu (转载请注明作者:finallyliuyu,出处:博客园)可以采用DOM+正则+浏览器组件来解决上面的问题。DOM (Document Object Model),是一个接口标准,该接口是将html网页解析成为树的格式,关于DOM的教程,请见:http://www.w3.org/DOM/ 虽然上面讲的是JavaScript的 DOM 接口函数,但是由于DOM是一个接...
阅读全文
新闻类网页正文提取系列
摘要:作者finallyliuyu转载请注明出处驴子的新闻提取系统一驴子的新闻提取系统二新闻采阅系统效果图使用该Demo程序抓取新闻 有网友站内我询问此类问题,遂特意写了篇博文简要介绍了该Demo程序的使用方案。
阅读全文
写一点应用关于 Lucene.Net,snowball的重新组装(四)
摘要:作者:finallyliuyu在这个项目中,由于进行聚类的是论文摘要,而论文摘要中最重要的是名词,名词词组,已经形容词和形容词词组。所以特征词选择方法采用词性过滤加上其他策略。下面给出个图片,图片中是一个“评价论文推荐满意度”的程序截图。作为上面组合组件的一个应用来展示给大家。其中左边是原论文,右面是系统推荐的论文。原论文与推荐论文中相同的功能词(名词或形容词及其词组)用同...
阅读全文
写一点应用关于 Lucene.Net,snowball的重新组装(三)
摘要:者:finallyliuyu 具体实现如下:1。首先在SnowballAnalyzer.cs里面建立类myEwordEntity,这个类可以看做是snowball.cs的接口:主程序调用Snowball.cs最终目的是为了获得关于词的这样一个“实体”//词汇的实体类public class myEwordEntity { public string txtWord;//词的...
阅读全文
写一点应用关于 Lucene.Net,snowball的重新组装(二)
摘要:作者:finallyliuyu(一)中我们已经说明了任务需求。(二)中我们将驶入重点,如何用Lucene.Net,以及其他的一些开源工具实现上述功能。 里要首先感谢一个人智慧掩盖真相。此人写了一个系列对于Lucene.net内部机制的入门性质的文章,令我在短时间内掌握了Lucene.net的一些要领。 这里插一句我自己的对科研人员,与专业程序员的工作侧重点区别:专业程序员应该对某个编程产品熟谙其道...
阅读全文
答火星人.NET。如何使用我的本科毕业程序 正文提取DEMO
摘要:(更新9.8日,有网友反馈说我的这个程序适用网站范围有限,我不得不说的确如此。它仅能完成对腾讯,凤凰,网易,新浪,东方,南都,等的部分版面做解析,所能解析的版面,都有我程序中提供的URL中所共有的特点。目录页面要包括新闻发布时间,要求具体到小时和分钟(如下图)另外如果你要是想通过该软件抓几个新闻做为语料资源的化,足够用了,我已经以此程序为原型,做了个新闻爬虫爬下新闻4W多篇)网友火星人.NET,关...
阅读全文
文本分类中的特征词选择算法系列科普(前言AND 一)
摘要:(转载请注明出处,作者:finallyliuyu) 前言:经了解,园子里有很多已经工作,但是对信息检索和自然语言处理感兴趣的同仁,也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客,和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法,参考自Yiming Yang 1997年的论文"A comparat...
阅读全文
libsvm 数据预处理 模块化程序
摘要:实验框架图见libsvm文本分类:二分类(二) 实验框架图 下面是主模块代码,暂不公布全部代码代码 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-#codinggb2312fromSVMimportFolders...
阅读全文
libsvm文本分类:二分类(二) 实验框架图
摘要:问题总结:系统开发应该通用一种编程语言,像我的这次实验,由于Invertedtableconstruction 模块用C#语言编写,其他模块用python编写,所以很难一体化。也就是说如果进行N-fold 交叉验证,我只能手工循环实现以上流程图,而不能交给程序自己进行个N次循环实现
阅读全文
libsvm 文本分类(分两类)(实验结果)直接调用Libsvm工具
摘要:作者 finallyliuyu,转载请注明出处前言:研究生时期的最后一门作业是《统计机器学习》的阅读报告。为了让作业熠熠生辉,也同时是加深对某些混淆知识的理解,预计报告中包括以下几部分内容1. 统计机器学习机的基本框架图2.线性SVM的基本原理(主体部分) 包括如何转化成数学上的凸优化问题,转化成对偶问题。(此部分已经完成,数学推导没有看懂,只知道个流程。如果要想看懂此部分的数学推导,需要有泛函...
阅读全文
驴子的新闻提取系统(二)
摘要:正文提取部分。这部分实现大部分是参考蛙蛙的,但是作了少许修改。主要在下面两方面:一,动态阈值。蛙蛙设置的是三百,所以他的算法对于短新闻来说失效。我的阈值设置为当前新闻正文所有汉字数量的函数。这样可以避免一些短新闻失效的情况,但还是不够完美。二。有的正文页,含有很多链接到其他新闻的URL,这部分模块汉数量也很大,所以,如果不把这种链接块儿去掉,统计字符进行正文定位的时候,容易跑偏。上代码判断两段儿文...
阅读全文
驴子的新闻提取系统(一)
摘要:转载请标明出处。新闻采阅系统效果图 《网页解析器设计》这个题目是我本科毕业设计的题目。时间真快哈,转眼又是一年过去了。去年的这个时候,我正忙着毕设以及考研的复试。那个时候的,未经历过社会的洗礼,对科研,都研究生生活充满了天真而或是白痴般的憧憬。 真是不吃一堑不长一智哈。经过了考研,复试的洗礼。我那幼稚单纯的心,终于开化了,作为一个具有社会属性的人,我也越发市侩和成熟啦。相信我会越走越好的,因为我不...
阅读全文