摘要: 1.因为系统资源不足 2.进程运行推进的顺序不合适 资源分配不当 阅读全文
posted @ 2020-06-17 20:42 IT特工 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 实现方法: 1.子类继承Thread类,在子类中重写满足需求的run方法,然后调用start方法进行启动 2.实现Runnable接口,在子类中重写满足需求的run方法。然后建立子类对象,以此对象为参数,建立Thread类的对象,调用Thread的start方法启动线程 同步实现方法: 1.同步方法 阅读全文
posted @ 2020-06-17 20:36 IT特工 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 建立索引的作用:加快查询的速度 建立索引的原则: 1.入股某属性经常出现在查询条件中,考虑为该属性建立索引 2.如果某属性常作为最大值和最小值等聚集函数的参数考虑为该属性建立索引 3.如果属性经常出现在连接操作的连接条件中,考虑为该属性建立索引 阅读全文
posted @ 2020-06-17 20:31 IT特工 阅读(697) 评论(0) 推荐(0) 编辑
摘要: 1.servlet和Filter都是运行在服务端的web组件 2.Servlet用于接收服务端请求,并对请求进行相应,Filter用于过滤与目标资源相关联的请求和资源,且目标资源感知不到Filter的存在,如果要请求目标资源,一定会先通过与之关联的Filter 3.servlet可以通过浏览器直接访 阅读全文
posted @ 2020-06-17 20:20 IT特工 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型 通用网络爬虫:全网爬虫,爬取对象有种子URL扩展到整个网络 聚焦网络爬虫:又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫 增量式网络爬虫:对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的 阅读全文
posted @ 2020-06-16 21:02 IT特工 阅读(1976) 评论(0) 推荐(0) 编辑
摘要: 使用Pipeline保存结果 WebMagic用于保存结果的组件叫做Pipeline.我们现在通过“控制台输出结果”,这件事也是通过一个内置的Pipeline完成的,它叫做ConsolePipeline 代码: package cn.itcast.webmagic;import us.codecra 阅读全文
posted @ 2020-06-16 17:45 IT特工 阅读(812) 评论(0) 推荐(0) 编辑
摘要: 获取连接 一个站点的页面是很多的,一开始不可能全部列举出来,于是如何发现后续的链接,是一个爬虫不可缺少的一部分 获取链接(例子): page.addTargetRequests(page.getHtml().css("div#news_div").links().regix(".*9$").all( 阅读全文
posted @ 2020-06-16 17:30 IT特工 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 抽取元素Selectable 在webmagic中主要使用了三种抽取技术:Xpath、正则表达式和CSS选择器。另外对JSON格式的内容可以使用JsonPath进行解析 Xpath:详情了解查看w3cschool 下面是一个例子,获取属性class=mt的div标签,里面的h1标签的内容 page. 阅读全文
posted @ 2020-06-16 16:17 IT特工 阅读(1308) 评论(0) 推荐(0) 编辑
摘要: webmagic 需要的依赖: <dependencies> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependen 阅读全文
posted @ 2020-06-16 15:35 IT特工 阅读(423) 评论(0) 推荐(0) 编辑
摘要: WebMagic 一款爬虫框架 WebMagic项目代码分为核心和扩展两部分。 核心部分是一个精简的、模块化的爬虫实现 扩展部分则是包括一些便利的、实用性的功能 架构介绍 WebMagic的结构分为四部分:Downloader、PageProcessor、 Scheduler、Pipeline四大组 阅读全文
posted @ 2020-06-15 23:45 IT特工 阅读(206) 评论(0) 推荐(0) 编辑