随笔分类 -  爬虫技术

摘要:一、问题如下 1、要爬取的新闻信息里出现“ ”、“ ”等网页里的空白字符,爬取之后存入数据库时就变为“?”字样。 二、分析过程 1、使用Webmagic爬取内容后,出现了?的字样,尝试使用replace("?","")的方式将?替换为空字符串,但是调试之后并没有解决问题。 2、因 阅读全文 »
posted @ 2020-03-13 12:53 我命倾尘 阅读(413) 评论(0) 推荐(0) 编辑
摘要:一、分析要爬取的网页源码: 1、打开要分析的网页,查看源代码,找到要爬取的内容: (选择网页里的一部分右击审查元素也行) 2、导入jar包,这个就直接去网上下吧; 3、写爬虫: 1 package com.gb.pachong; 2 import java.sql.SQLException; 3 i 阅读全文 »
posted @ 2019-02-20 22:11 我命倾尘 阅读(419) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示