06 2020 档案
摘要:1.因为系统资源不足 2.进程运行推进的顺序不合适 资源分配不当
阅读全文
摘要:实现方法: 1.子类继承Thread类,在子类中重写满足需求的run方法,然后调用start方法进行启动 2.实现Runnable接口,在子类中重写满足需求的run方法。然后建立子类对象,以此对象为参数,建立Thread类的对象,调用Thread的start方法启动线程 同步实现方法: 1.同步方法
阅读全文
摘要:建立索引的作用:加快查询的速度 建立索引的原则: 1.入股某属性经常出现在查询条件中,考虑为该属性建立索引 2.如果某属性常作为最大值和最小值等聚集函数的参数考虑为该属性建立索引 3.如果属性经常出现在连接操作的连接条件中,考虑为该属性建立索引
阅读全文
摘要:1.servlet和Filter都是运行在服务端的web组件 2.Servlet用于接收服务端请求,并对请求进行相应,Filter用于过滤与目标资源相关联的请求和资源,且目标资源感知不到Filter的存在,如果要请求目标资源,一定会先通过与之关联的Filter 3.servlet可以通过浏览器直接访
阅读全文
摘要:爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型 通用网络爬虫:全网爬虫,爬取对象有种子URL扩展到整个网络 聚焦网络爬虫:又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫 增量式网络爬虫:对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的
阅读全文
摘要:使用Pipeline保存结果 WebMagic用于保存结果的组件叫做Pipeline.我们现在通过“控制台输出结果”,这件事也是通过一个内置的Pipeline完成的,它叫做ConsolePipeline 代码: package cn.itcast.webmagic;import us.codecra
阅读全文
摘要:获取连接 一个站点的页面是很多的,一开始不可能全部列举出来,于是如何发现后续的链接,是一个爬虫不可缺少的一部分 获取链接(例子): page.addTargetRequests(page.getHtml().css("div#news_div").links().regix(".*9$").all(
阅读全文
摘要:抽取元素Selectable 在webmagic中主要使用了三种抽取技术:Xpath、正则表达式和CSS选择器。另外对JSON格式的内容可以使用JsonPath进行解析 Xpath:详情了解查看w3cschool 下面是一个例子,获取属性class=mt的div标签,里面的h1标签的内容 page.
阅读全文
摘要:webmagic 需要的依赖: <dependencies> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependen
阅读全文
摘要:WebMagic 一款爬虫框架 WebMagic项目代码分为核心和扩展两部分。 核心部分是一个精简的、模块化的爬虫实现 扩展部分则是包括一些便利的、实用性的功能 架构介绍 WebMagic的结构分为四部分:Downloader、PageProcessor、 Scheduler、Pipeline四大组
阅读全文
摘要:1.需求分析 访问京东商城的首页,搜索手机,分析页面,抓取一下商品的信息: 商品图片、价格、标题、商品详情页 在这个过程中我们可以通过京东商城进行分析,获取到我们需要的信息,在分析过程中我们会看到 有两个名称SPU和SKU。 接下来就需要了解一下SPU和SKU的概念 SPU=Standard Pro
阅读全文
摘要:package jsoup;import org.apache.commons.io.FileUtils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.junit.Test;import java.io.File;
阅读全文
摘要:Jsoup介绍 1.为什么要使用Jsoup? 抓取到网页后,还需要对页面进行解析。对于解析有很多处理方式:比如:字符串工具解析、正则表达式等,但是上面这些成本巨大,因此需要一款专门解析html页面的技术。因此就可以使用Jsoup来实现。 2.Jsoup简介 jsoup是一款java的HTML解析器,
阅读全文
摘要:代码: package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.config.RequestConfig;import org.apache.http.client.
阅读全文
摘要:在前面的内容中已经可以深刻的体会到,不管是post请求还是get请求,每次都要创建HttpClient,会出现频繁的创建和销毁问题。 对于上面的问题我们可以使用连接池来解决 具体代码: package cn.itcast.crawler.test;import org.apache.http.cli
阅读全文
摘要:具体代码: package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.NameValuePair;import org.apache.http.client.entity.UrlEn
阅读全文
摘要:直接看代码: package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.
阅读全文
摘要:直接代码: package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.h
阅读全文
摘要:网络爬虫之HttpClient HttpClient 网络爬虫就是用程序爬取资源,需要使用Http协议访问互联网的网页,在爬虫过程中使用java的Http协议客户端HttpClient这个技术来实现抓取网页中的数据 HttpClient之Get请求 下面进行代码实现 网络爬虫之HttpClient
阅读全文
摘要:网络爬虫 定义 网络爬虫:也叫网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理,他是按照一定的规则,自动的抓取万维网程序或脚本,可以自动采集所有其能访问的页面内容,以获取相关数据 从功能来看,一般分为三部分 数据采集 数据处理 数据存储 为什么要使用爬虫,其有哪些优势? 可以实现搜索
阅读全文
摘要:首先了解一下什么是爬虫 1.爬虫的定义 爬虫:网络爬虫:(web crawer),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本 2.通过一个简单的实例先进行一个体验,更直观的了解一下爬虫的厉害之处 代码编写的环境: 1.JDK1.8 2.idea 3.maven 下面就是简单爬虫的测试类
阅读全文
摘要:用户注册:发送激活电子邮件 电子邮箱 邮件服务器 邮件协议 smtp:发送邮件的协议 pop:接受邮件的协议 邮件发送的全过程 5.搭建邮箱服务器: 安装邮箱服务器 修改域名: 工具 >服务器设置 >shop.com 注册账号: 账号 >新建账号 6.安装客户端的软件:(接受和发送邮件) 常用的有o
阅读全文
摘要:错误显示; 从上面的错误提示信息可以看出:其中文意思是遍历的节点不能为空,在经过检查之后发现from 单词写错了
阅读全文
摘要:zai项目中使用c3p0连接池的步骤分为以下几步: 1.引入jar包:在这引入的jar包有两个,c3p0jar包和mysql数据库驱动的jar包 2.在applicationContext.xml中进行c3p0的配置,具体如下: <!-- 配置连接池: --> <!-- 引入外部属性文件 --> <
阅读全文
摘要:当出现上面所示的错误是,出现的原因是:在加载描述时出现了一个内部错误 解决的办法:其实这个还是比较简单的,通过给出的提示信息就可以得出有一个类其实是没加载上,就是在web.xml中的一个英文单词写错了
阅读全文