2020 年 6月随笔档案 - IT特工

摘要：1.因为系统资源不足 2.进程运行推进的顺序不合适资源分配不当阅读全文

posted @ 2020-06-17 20:42 IT特工阅读(270) 评论(0) 推荐(0) 编辑

摘要：实现方法： 1.子类继承Thread类，在子类中重写满足需求的run方法，然后调用start方法进行启动 2.实现Runnable接口，在子类中重写满足需求的run方法。然后建立子类对象，以此对象为参数，建立Thread类的对象，调用Thread的start方法启动线程同步实现方法： 1.同步方法阅读全文

posted @ 2020-06-17 20:36 IT特工阅读(324) 评论(0) 推荐(0) 编辑

简述索引存取的方法的作用和建立索引的原则

摘要：建立索引的作用：加快查询的速度建立索引的原则： 1.入股某属性经常出现在查询条件中，考虑为该属性建立索引 2.如果某属性常作为最大值和最小值等聚集函数的参数考虑为该属性建立索引 3.如果属性经常出现在连接操作的连接条件中，考虑为该属性建立索引阅读全文

posted @ 2020-06-17 20:31 IT特工阅读(715) 评论(0) 推荐(0) 编辑

Servlet和Filter 区别

摘要：1.servlet和Filter都是运行在服务端的web组件 2.Servlet用于接收服务端请求，并对请求进行相应，Filter用于过滤与目标资源相关联的请求和资源，且目标资源感知不到Filter的存在，如果要请求目标资源，一定会先通过与之关联的Filter 3.servlet可以通过浏览器直接访阅读全文

posted @ 2020-06-17 20:20 IT特工阅读(642) 评论(0) 推荐(0) 编辑

爬虫的分类

摘要：爬虫的分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型通用网络爬虫：全网爬虫，爬取对象有种子URL扩展到整个网络聚焦网络爬虫：又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫增量式网络爬虫：对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的阅读全文

posted @ 2020-06-16 21:02 IT特工阅读(2100) 评论(0) 推荐(0) 编辑

Webmagic之使用Pipeline保存结果

摘要：使用Pipeline保存结果 WebMagic用于保存结果的组件叫做Pipeline.我们现在通过“控制台输出结果”，这件事也是通过一个内置的Pipeline完成的，它叫做ConsolePipeline 代码： package cn.itcast.webmagic;import us.codecra 阅读全文

posted @ 2020-06-16 17:45 IT特工阅读(845) 评论(0) 推荐(0) 编辑

Webmagci功能--获取链接

摘要：获取连接一个站点的页面是很多的，一开始不可能全部列举出来，于是如何发现后续的链接，是一个爬虫不可缺少的一部分获取链接(例子)： page.addTargetRequests(page.getHtml().css("div#news_div").links().regix(".*9$").all( 阅读全文

posted @ 2020-06-16 17:30 IT特工阅读(192) 评论(0) 推荐(0) 编辑

Webmagic功能--抽取元素

摘要：抽取元素Selectable 在webmagic中主要使用了三种抽取技术：Xpath、正则表达式和CSS选择器。另外对JSON格式的内容可以使用JsonPath进行解析 Xpath：详情了解查看w3cschool 下面是一个例子，获取属性class=mt的div标签，里面的h1标签的内容 page. 阅读全文

posted @ 2020-06-16 16:17 IT特工阅读(1364) 评论(0) 推荐(0) 编辑

Webmagic入门案例

摘要：webmagic 需要的依赖： <dependencies> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependen 阅读全文

posted @ 2020-06-16 15:35 IT特工阅读(426) 评论(0) 推荐(0) 编辑

WebMaic介绍

摘要：WebMagic 一款爬虫框架 WebMagic项目代码分为核心和扩展两部分。核心部分是一个精简的、模块化的爬虫实现扩展部分则是包括一些便利的、实用性的功能架构介绍 WebMagic的结构分为四部分：Downloader、PageProcessor、 Scheduler、Pipeline四大组阅读全文

posted @ 2020-06-15 23:45 IT特工阅读(210) 评论(0) 推荐(0) 编辑

爬虫案例（1）：抓取京东的手机数据

摘要：1.需求分析访问京东商城的首页，搜索手机，分析页面，抓取一下商品的信息：商品图片、价格、标题、商品详情页在这个过程中我们可以通过京东商城进行分析，获取到我们需要的信息，在分析过程中我们会看到有两个名称SPU和SKU。接下来就需要了解一下SPU和SKU的概念 SPU=Standard Pro 阅读全文

posted @ 2020-06-13 23:15 IT特工阅读(1177) 评论(0) 推荐(0) 编辑

Jsoup之解析URL、字符串、文件

摘要：package jsoup;import org.apache.commons.io.FileUtils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.junit.Test;import java.io.File; 阅读全文

posted @ 2020-06-13 21:27 IT特工阅读(889) 评论(0) 推荐(0) 编辑

Jsoup介绍

摘要：Jsoup介绍 1.为什么要使用Jsoup? 抓取到网页后，还需要对页面进行解析。对于解析有很多处理方式：比如：字符串工具解析、正则表达式等，但是上面这些成本巨大，因此需要一款专门解析html页面的技术。因此就可以使用Jsoup来实现。 2.Jsoup简介 jsoup是一款java的HTML解析器，阅读全文

posted @ 2020-06-13 20:07 IT特工阅读(408) 评论(0) 推荐(0) 编辑

HttpClient之请求参数

摘要：代码： package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.config.RequestConfig;import org.apache.http.client. 阅读全文

posted @ 2020-06-13 16:58 IT特工阅读(1648) 评论(0) 推荐(0) 编辑

爬虫中的连接池

摘要：在前面的内容中已经可以深刻的体会到，不管是post请求还是get请求，每次都要创建HttpClient,会出现频繁的创建和销毁问题。对于上面的问题我们可以使用连接池来解决具体代码： package cn.itcast.crawler.test;import org.apache.http.cli 阅读全文

posted @ 2020-06-13 16:40 IT特工阅读(311) 评论(0) 推荐(0) 编辑

HttpClient之带参数的post请求

摘要：具体代码： package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.NameValuePair;import org.apache.http.client.entity.UrlEn 阅读全文

posted @ 2020-06-13 16:08 IT特工阅读(6906) 评论(0) 推荐(0) 编辑

HttpClient之post请求

摘要：直接看代码： package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache. 阅读全文

posted @ 2020-06-13 15:43 IT特工阅读(3029) 评论(0) 推荐(0) 编辑

HttpClient中带参数的get请求

摘要：直接代码： package cn.itcast.crawler.test;import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.h 阅读全文

posted @ 2020-06-13 15:34 IT特工阅读(8115) 评论(0) 推荐(0) 编辑

网络爬虫之HttpClient

摘要：网络爬虫之HttpClient HttpClient 网络爬虫就是用程序爬取资源，需要使用Http协议访问互联网的网页，在爬虫过程中使用java的Http协议客户端HttpClient这个技术来实现抓取网页中的数据 HttpClient之Get请求下面进行代码实现网络爬虫之HttpClient 阅读全文

posted @ 2020-06-13 01:08 IT特工阅读(357) 评论(0) 推荐(0) 编辑

网络爬虫

摘要：网络爬虫定义网络爬虫：也叫网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理，他是按照一定的规则，自动的抓取万维网程序或脚本，可以自动采集所有其能访问的页面内容，以获取相关数据从功能来看，一般分为三部分数据采集数据处理数据存储为什么要使用爬虫，其有哪些优势？可以实现搜索阅读全文

posted @ 2020-06-13 00:28 IT特工阅读(126) 评论(0) 推荐(0) 编辑

爬虫之初体验

摘要：首先了解一下什么是爬虫 1.爬虫的定义爬虫：网络爬虫：（web crawer）,是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本 2.通过一个简单的实例先进行一个体验，更直观的了解一下爬虫的厉害之处代码编写的环境： 1.JDK1.8 2.idea 3.maven 下面就是简单爬虫的测试类阅读全文

posted @ 2020-06-12 23:52 IT特工阅读(209) 评论(0) 推荐(0) 编辑

用户注册：发送激活电子邮件

摘要：用户注册：发送激活电子邮件电子邮箱邮件服务器邮件协议 smtp：发送邮件的协议 pop：接受邮件的协议邮件发送的全过程 5.搭建邮箱服务器：安装邮箱服务器修改域名：工具 >服务器设置 >shop.com 注册账号：账号 >新建账号 6.安装客户端的软件：（接受和发送邮件）常用的有o 阅读全文

posted @ 2020-06-07 21:15 IT特工阅读(332) 评论(0) 推荐(0) 编辑

java.lang.IllegalArgumentException: node to traverse cannot be null!

摘要：错误显示; 从上面的错误提示信息可以看出：其中文意思是遍历的节点不能为空，在经过检查之后发现from 单词写错了阅读全文

posted @ 2020-06-05 22:10 IT特工阅读(374) 评论(0) 推荐(0) 编辑

c3p0连接池的使用

摘要：zai项目中使用c3p0连接池的步骤分为以下几步： 1.引入jar包：在这引入的jar包有两个，c3p0jar包和mysql数据库驱动的jar包 2.在applicationContext.xml中进行c3p0的配置，具体如下：   < 阅读全文

posted @ 2020-06-05 11:04 IT特工阅读(229) 评论(0) 推荐(0) 编辑

java.lang.ClassNotFoundException: org.apache.struts2.dispatchet.ng.filter.StrutsPrepareAndExecuteFilter出现这个错误的解决方法

摘要：当出现上面所示的错误是，出现的原因是：在加载描述时出现了一个内部错误解决的办法：其实这个还是比较简单的，通过给出的提示信息就可以得出有一个类其实是没加载上，就是在web.xml中的一个英文单词写错了阅读全文

posted @ 2020-06-04 23:20 IT特工阅读(405) 评论(0) 推荐(0) 编辑

IT特工

06 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论