刺猬的温驯 - 博客园

Hadoop1.2.0开发笔记（三）

摘要：这个世界变化的太快，本人上文写完编译hadoop1.1.2版本的eclipse插件，hadoop的1.2.0的release版本就已经发布了，要我们这些开发人员情何以堪呢既然hadoop版本1.2.0发布出来了，我们也不甘落后本人这次的编译环境是linuxmint15 64bit，与上文的编译环境w... 阅读全文

posted @ 2013-05-31 03:32 刺猬的温驯阅读(4680) 评论(10) 推荐(0)

WEB数据挖掘（四）——数据采集

摘要：以前开发过数据采集的程序，这段时间重新翻出来重构了一下代码，程序还有很多需要改进的地方web数据采集从http提交方式可分为get方式和post方式（其实还有其他方式，不过目前浏览器不支持），针对这两种方式的数据采集，当时本人通过继承抽象父类的方式来实现这两种采集方式的请求参数封装类，post方式的... 阅读全文

posted @ 2013-05-27 01:58 刺猬的温驯阅读(1022) 评论(0) 推荐(0)

WEB数据挖掘（三）——HTML词法分析

该文被密码保护。阅读全文

posted @ 2013-05-23 23:13 刺猬的温驯阅读(20) 评论(0) 推荐(0)

技巧: 用 JAXM 发送和接收 SOAP 消息—Java API 使许多手工生成和发送消息方面必需的步骤自动化

摘要：简介：在本篇技巧文章中，作者兼开发人员 Nicholas Chase 向您演示如何使用用于 XML 消息传递的 Java API（Java API for XML Messaging (JAXM)）简化创建和发送 SOAP 消息的过程。Web 服务的基础在于以标准格式发送和接收消息以便使所有系统都能理解。通常，那种格式是简单对象访问协议（Simple Object Access Protocol (SOAP)）。SOAP 消息可以手工生成和发送，但是用于 XML 消息传递的 Java API（JAXM）使许多必需步骤（如创建连接或创建并发送实际消息）自动化。这篇技巧文章记录了一个同步 SOAP 阅读全文

posted @ 2013-05-23 03:19 刺猬的温驯阅读(3454) 评论(1) 推荐(1)

浏览器是如何工作的？（转载）

摘要：文章引用地址：http://www.iefans.net/liulanqi-ruhe-gongzuo-yuanli/作者：iefans简介浏览器可以被认为是使用最广泛的软件，本文将介绍浏览器的工作原理，我们将看到，从你在地址栏输入google.com到你看到google主页过程中都发生了什么。将讨论的浏览器今天，有五种主流浏览器——IE、Firefox、Safari、Chrome及Opera。本文将基于一些开源浏览器的例子——Firefox、 Chrome及Safari，Safari是部分开源的。根据W3C（World Wide Web Consortium 万维网联盟）的浏览器统计数据，当前阅读全文

posted @ 2013-05-21 23:12 刺猬的温驯阅读(348) 评论(0) 推荐(0)

Web网页数据抽取软件的设计与实现

摘要：随着Internet的迅速发展，Web已经成为人们获取信息的主要渠道之一，大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息，而不仅仅是浏览，应用程序必须从HTML形式的Web网页中抽取感兴趣的数据，并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据，所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上，利用最新的Web技术、信息处理技术和人工智能技术，完成了Web网页数据抽取包装器软件的设计，并通过We 阅读全文

posted @ 2013-05-20 10:07 刺猬的温驯阅读(1264) 评论(0) 推荐(0)

WEB数据挖掘（二）——HTML节点解析

该文被密码保护。阅读全文

posted @ 2013-05-17 05:13 刺猬的温驯阅读(27) 评论(0) 推荐(0)

WEB数据挖掘（一）——RoadRunner自动包装器

该文被密码保护。阅读全文

posted @ 2013-05-16 05:58 刺猬的温驯阅读(27) 评论(0) 推荐(0)

基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例

摘要：参考了iteye上的一篇文章http://yshjava.iteye.com/blog/1528208，本人还原了该文章的源码，还请那位博主原谅精确抽取web网页内容一直是做数据抽取开发比较头痛的问题，目前国内外也有很多研究成果，尚待进一步发掘并应用于实际项目中下面是转载部分：应该说，在WEB分块领域，已经有大量的研究工作。由于HTML语法的灵活性，目前大部分的网页都没有完全遵循W3C规范，这样可能会导致DOM树结果的错误。更重要的是，DOM树最早引入是为了在浏览器中进行布局显示，而不是进行WEB页面的语义结构描述。某些文献中提到，根据标签把网页分成若干内容块，这些分块方法流程简单，但面对日益阅读全文

posted @ 2013-05-16 02:52 刺猬的温驯阅读(1160) 评论(3) 推荐(0)

以Groovy的方式更稳定地解析HTML（转载）

摘要：如何使用Groovy解析无法通过XML验证的HTML代码原文：Robust HTML parsing the Groovy way用Groovy解析XML很简单，只要确保输入的数据格式良好就能运行的很好——但现实并非总是能保证这一点。视考虑HTML代码，想让它们通过XML的验证总是困难重重，这就需要TagSoup来拯救了。主要的阻碍来自于：DTD未闭合的标签让我们通过一个简单的脚本来演示解析StackOverflow 的页面[java]view plaincopydefslurper=newXmlSlurper()defhtmlParser=slurper.parse("http:/ 阅读全文

posted @ 2013-05-15 17:05 刺猬的温驯阅读(1215) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣