君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
  1057 随笔 :: 381 文章 :: 141 评论 :: 169万 阅读

随笔分类 -  数据采集及解析

1 2 3 下一页

摘要:通过HttpClient请求webService由于服务端是用webService开发的,android要调用webService服务获取数据,这里采用的是通过HttpClient发送post请求,获取webService数据。服务端使用的webService框架是axis2,请求数据之前,要封装一... 阅读全文
posted @ 2014-05-23 00:16 刺猬的温驯 阅读(19780) 评论(0) 推荐(0) 编辑

摘要:前言超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。尽管java.net包提供了基本通过HTTP访问资源的功能,但它没... 阅读全文
posted @ 2014-05-22 23:59 刺猬的温驯 阅读(429) 评论(0) 推荐(0) 编辑

摘要:转自:http://www.yeetrack.com/?p=779前言Http协议应该是互联网中最重要的协议。持续增长的web服务、可联网的家用电器等都在继承并拓展着Http协议,向着浏览器之外的方向发展。虽然jdk中的java.net包中提供了一些基本的方法,通过http协议来访问网络资源,但是大... 阅读全文
posted @ 2014-05-18 16:00 刺猬的温驯 阅读(36817) 评论(0) 推荐(7) 编辑

摘要:下面是apache官网例子服务器端接受请求,实现接收文件请求处理器import java.io.File;import java.io.IOException;import java.io.InterruptedIOException;import java.net.ServerSocket;imp... 阅读全文
posted @ 2014-05-17 03:29 刺猬的温驯 阅读(5368) 评论(1) 推荐(0) 编辑

摘要:算法思路:假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;最后找出最大的文本块作为正文-------------------------------... 阅读全文
posted @ 2014-03-11 23:58 刺猬的温驯 阅读(464) 评论(0) 推荐(0) 编辑

摘要:简介:不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。 不幸的是,尽管作为信息主要载体的 HTML 提供了一种方便地向读者呈现信息的方法, 但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。已经尝试了多种方法来解决这个问题。大多数方法都采用一些专用查询语言的形式 把 HTML 页面的各个部分映射成代码,而这些代码将 Web 阅读全文
posted @ 2013-10-27 19:08 刺猬的温驯 阅读(764) 评论(0) 推荐(0) 编辑

摘要:One of the central concepts of Aperture is the notion of a DataSource. A DataSource contains all information necessary to locate the individual inform... 阅读全文
posted @ 2013-07-17 04:24 刺猬的温驯 阅读(380) 评论(0) 推荐(0) 编辑

摘要:Classifier4J是一个轻量级的分类工具,支持贝叶斯分类、向量空间模型、信息摘要等。然而它却不支持中文,异常信息大致如下:Exception in thread "main" java.util.NoSuchElementException at java.util.HashMapHashIterator.nextEntry(HashMap.java:813)atjava.util.HashMapValueIterator.next(HashMap.java:839) at java.util.Collections.max(Collections.java: 阅读全文
posted @ 2013-07-12 02:07 刺猬的温驯 阅读(3047) 评论(1) 推荐(0) 编辑

摘要:1. 什么是RSSRSS也叫聚合RSS,是在线共享内容的一种简易方式(也叫聚合内容, 简易供稿,Really Simple Syndication(真正简单的聚合 ))。通常在时效性比较强的内容上使用RSS订阅能更快速获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新. RSS是XML的一种。所有的RSS文档都遵循XML 1.0规范,该规范发布在W3C网站上。拿一个新闻网站来说,如果这个网站使用了RSS技术,也即表示这个网站按照RSS标准将其新闻罗列出来,生成一个RSS文件通常称为(RSS Feed,其实也就是一个*.xml文件)。其他网站或个人就订阅该新闻网站的新闻 ,其实也就 阅读全文
posted @ 2013-07-11 01:28 刺猬的温驯 阅读(618) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2013-07-09 22:32 刺猬的温驯 阅读(2) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2013-07-09 22:31 刺猬的温驯 阅读(2) 评论(0) 推荐(0) 编辑

摘要:一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据... 阅读全文
posted @ 2013-07-09 22:24 刺猬的温驯 阅读(655) 评论(0) 推荐(0) 编辑

摘要:本人认为,如果介绍Aperture抽象的API,恐怕使人不知所云;抽象的API失去具体的上下文显得有点苍白。人们认识事物的方式从源头上而言总是从特殊到一般,从具体到抽象 。基于此,本文还是实现具有上下文的example本文先来演示一下一个简单的数据抽取程序,基本流程是:1根据InputStream识... 阅读全文
posted @ 2013-06-15 01:07 刺猬的温驯 阅读(378) 评论(0) 推荐(0) 编辑

摘要:本人翻译自 http://sourceforge.net/apps/trac/aperture/wiki/RDF2Go在Aperture中使用RDF2GoAperture是基于RDF2Go建立的,它是一个抽象层,允许Aperture易于与流行的RDF存储引擎如Sesame, Jena工作。支持的RD... 阅读全文
posted @ 2013-06-14 11:37 刺猬的温驯 阅读(548) 评论(0) 推荐(0) 编辑

摘要:本人翻译 http://sourceforge.net/apps/trac/aperture/wiki/RDFUsageAperture框架大量使用RDF graphs在组件之间交流信息,例如,Extractors作为RDF模型返回它抽取的文本和元数据,而Crawlers对通过采集获取的原文内容和元... 阅读全文
posted @ 2013-06-14 08:46 刺猬的温驯 阅读(496) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2013-06-12 21:12 刺猬的温驯 阅读(4) 评论(0) 推荐(0) 编辑

摘要:为了更好的使用Aperture组件,我们需要熟悉他的整体流程以及相关API接口下面是关于Aperture组件的通用结构,文章翻译自 http://sourceforge.net/apps/trac/aperture/wiki/GeneralStructure本人翻译得不伦不类,因为本人的汉语和英语都... 阅读全文
posted @ 2013-06-12 20:32 刺猬的温驯 阅读(566) 评论(0) 推荐(0) 编辑

摘要:如果我们已经了解语义网的相关知识,那么接下来继续深入Aperture框架实现数据解析的机制Aperture框架内部是基于RDF2Go框架来实现RDF模型的存储引擎,RDF模型涉及语义网的概念,下面我们来看一个简单的XML格式的RDF文件 John Smith Smith ... 阅读全文
posted @ 2013-06-12 07:15 刺猬的温驯 阅读(845) 评论(0) 推荐(0) 编辑

摘要:在继续探索Aperture框架的数据抽取功能前,先要了解语义网的相关知识,以及关于本体及RDF等相关概念。可以参考一下本人语义网相关的资料Semantic Web本人对这部分也是很晕乎,语义网的探讨如果具备西方语言学的知识更佳(如果做自然语言处理(NLP),更需要具备语言学的背景),现代逻辑学知识也... 阅读全文
posted @ 2013-06-09 06:12 刺猬的温驯 阅读(572) 评论(0) 推荐(0) 编辑

摘要:网上了解到Aperture框架能够实现从文件系统中抽取数据,Aperture的介绍如下:Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如... 阅读全文
posted @ 2013-06-07 08:50 刺猬的温驯 阅读(588) 评论(0) 推荐(0) 编辑

1 2 3 下一页
点击右上角即可分享
微信分享提示