Welcome to EliteQing's Blog

08 2016 档案

摘要:crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup解析网页,javacsv存储采集数据;采集自如ziroom租房网(http://sz.ziroom.com/z/nl/)的出租房信息。 所有的过程仅需两步完成: 第一步 阅读全文
posted @ 2016-08-20 19:08 EliteQing 阅读(1452) 评论(0) 推荐(0) 编辑
摘要:构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配置,所以维护起来相当困难。 Gradle:Gradle采用增量构建。Gradle通过Gr 阅读全文
posted @ 2016-08-20 18:25 EliteQing 阅读(3263) 评论(13) 推荐(37) 编辑
摘要:crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标题信息。 所有的过程仅需两步完成: 第一步:建立采集程序核心部分 第二步:建立采集程序控制部分 采集 阅读全文
posted @ 2016-08-20 12:42 EliteQing 阅读(784) 评论(0) 推荐(1) 编辑
摘要:最近打算深入了解一下机器翻译系统的具体功能模块,以东北大学的Niutrans为蓝本,其用户手册里有一些对其他开源的统计机器翻译系统的介绍,觉得也不错,就简要地记一下发在这里。 Moses:Edinburgh大学SMT小组开发。最新版本的同时支持基于短语的以及基于句法的模型(从短语,规则的提取到解码) 阅读全文
posted @ 2016-08-07 19:50 EliteQing 阅读(931) 评论(0) 推荐(0) 编辑
摘要:PC上安装Fiddler之后,可以抓取各种浏览器的请求,通过一些设置可以获取iPhone、安卓手机、windows phone的请求。具体的工作原理我也不多说(哼,绝对不是因为我不懂XD),主要说下如何配置来抓取手机上的请求,以iPhone为例。 准备工作:A.安装Fiddler,可以去官网上下载; 阅读全文
posted @ 2016-08-01 18:06 EliteQing 阅读(7245) 评论(0) 推荐(1) 编辑