2017年11月13日

使用httpClient下载网页

摘要: HttpCore 对HTTP协议客户端编程做了一些基本的封装。例如,格式化请求头和解析响应头。LineF ormatter用来格式化请求头信息,而实际的实现在BasicLineF ormatter 上。HttpResponseParser 解析响应头。 请求头信息封装在一个HttpParamS. B 阅读全文

posted @ 2017-11-13 11:12 Michael2397 阅读(360) 评论(0) 推荐(0) 编辑

HrrpClient使用

摘要: 使用HttpClient获取网页内容的过程 1、创建一个CloseableHttpClient类的实例; 2、使用这个实例执行HTTP请求,得到一个HttpResponse的实例; 3、最后,通过HttpResponse的实例得到返回的二进制流,二进制流封装在HttpEntity中。根据指定的字符集 阅读全文

posted @ 2017-11-13 10:57 Michael2397 阅读(467) 评论(0) 推荐(0) 编辑

爬虫基本结构

摘要: 爬虫程序的工作是从一个种子链接的集合开始。把种子URL集合作为参数传递给网络爬虫。爬虫先把这些初始的URL放入URL工作队列(Todo队列,又叫作Frontier),然后遍历所有工作队列中的URL,下载网页并把其中新发现的URL再次放入工作队列。为了判断一个URL是否已经遍历过,把所有遍历过的URL 阅读全文

posted @ 2017-11-13 09:46 Michael2397 阅读(396) 评论(0) 推荐(0) 编辑

线程池

摘要: 因为删除和新建线程都是费时的工作,所以可以使用线程池ExecutorService重用线程。把要执行的任务放到线程池,让它自己调度这些任务。这些任务是轻量级线程。有两种线程池,它们使用不同的方式创建。两种方式创建线程池。 有大量任务要执行的线程池用newCachedThreadPool创建。 创建一 阅读全文

posted @ 2017-11-13 09:30 Michael2397 阅读(130) 评论(0) 推荐(0) 编辑

爬虫中基本的多线程

摘要: 因为Java语言中不允许继承多个类,所以一个类一旦继承了 Thread类,就不能再继承其他类了。为了避免所有线程都必须是Thread的子类,需要独立运行的类也可以继承一个系统已经定义好的叫作Runnable的接口。Thread类有个构造方法public Thread(Runnable target) 阅读全文

posted @ 2017-11-13 09:26 Michael2397 阅读(244) 评论(0) 推荐(0) 编辑

java读取文件:二进制文件

摘要: FileWriter只能接受字符串形式的参数,也就是说只能把内容存到文本文件。相对于文本文件,采用二进制格式的文件存储更省空间 InputStream用于按字节从输入流读取数据。其中的int read()方法读取一个字节,这个字节以整数形式返回0到255之间的一个值。为什么读一个字节,而不直接返回一 阅读全文

posted @ 2017-11-13 09:02 Michael2397 阅读(10544) 评论(0) 推荐(0) 编辑

java读取文件:文本文件

摘要: 文本文件 先了解如何读写文本文件,然后看如何读写二进制文件。jaVa.ioReader用来读取字符,它的子类FileReader用来读取文本文件。FileReader打开指定路径下的文件。文件的路径分隔符可以用“\\”或者“/”表示。 “\\”是Windows风格的写法,因为字符串中的特殊字符要转义 阅读全文

posted @ 2017-11-13 08:56 Michael2397 阅读(592) 评论(0) 推荐(0) 编辑

导航