摘要: 1.获取标题建立文件TXT 创建以标题命名的TXT 写入网址和内容 写入TXT的内容为乱码 HttpURLConnection urlConn = (HttpURLConnection) url.openConnection(); urlConn.connect(); DataOutputStrea 阅读全文
posted @ 2018-10-17 11:19 发酸的丶米饭 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 连接HDFS 添加以下的依赖 连接代码 注意import的包一定要对!!! 开发时遇到下错误以下错误: 原因是:common-io 2.2下面是没有这个Charsets的,commons-io-2.5 下面就有了这个类,所以要升级commons版本 将爬去到的数据以TXT写入hdfs文件中 封装连接 阅读全文
posted @ 2018-10-17 11:16 发酸的丶米饭 阅读(901) 评论(0) 推荐(0) 编辑
摘要: 1.列表页分页的链接获取不到 原因是:整个HTML页面响应中没有分页链接 利用System.out.println(page.getHtml().toString());将整个爬取的列表页整个显示出来 发现爬取到的整个页面是就没有分页链接,网页的分页使用js生成的,所以爬不到 解决办法:根据规律自己 阅读全文
posted @ 2018-10-17 11:08 发酸的丶米饭 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 1.第一个小爬虫只能爬取指定的列表页的文章,接下来要自动爬取每一列表页的文章 2.循环爬取process是会循环运行的。其中的循环并不是for循环,而是利用if public void process(Page page) { //列表页 if (page.getUrl().regex(URL_LI 阅读全文
posted @ 2018-10-17 11:06 发酸的丶米饭 阅读(1526) 评论(0) 推荐(0) 编辑
摘要: 其中,div[@id=\"tablediv\"]对应爬取的网页中的包含文章列表链接的标签,如图: 3.正常获取到后在通过xpath提取指定标签的内容: page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()" 阅读全文
posted @ 2018-10-17 10:55 发酸的丶米饭 阅读(3093) 评论(0) 推荐(0) 编辑
摘要: 1.配置,添加依赖 在IDEA中添加两个jar包:webmagic-core-{version}.jar和webmagic-extension-{version}.jar。 <dependency> <groupId>us.codecraft</groupId> <artifactId>webmag 阅读全文
posted @ 2018-10-17 10:47 发酸的丶米饭 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 查询结果唯一,所以返回一个实体类即可; HTML层:一建查询按钮绑定事件,在前台判断输入是否为空 controller:跳转的search方法不能有返回值!!!否则无跳转且不报 错,要out.println,返回data的值,由前台返回信息,由controller进入下一个页面;在第一次search 阅读全文
posted @ 2018-10-17 10:44 发酸的丶米饭 阅读(298) 评论(0) 推荐(0) 编辑
摘要: session封装简单string字符串 controller层 HTML session封装自定义实体类 controler层 HTML session封装自定义实体类集合 controller层 HTML 阅读全文
posted @ 2018-10-17 10:29 发酸的丶米饭 阅读(6696) 评论(0) 推荐(0) 编辑
摘要: 1.关于退出功能 在layer中可以直接绑定事件不用再调用关闭网页事件,直接利用window.location.href就可以控制在当前页面打开了 2.实现登录时获取本地数据库 中标公告的 List集合 3.thymeleaf模板循环输出 list列表页 方法格式为: 其他收获: HTML中<a> 阅读全文
posted @ 2018-10-17 10:21 发酸的丶米饭 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 1.登录之后跳转公告界面,没有登录的时候不能跳转 SpringBoot+thymeleaf,在html页面获取session 以上的方法并没有用到,计划使用的是页面js判断,若account不为空则不使其跳转 值得注意的是: 所以自己设计的代码是: controller层: HTML层: 2.实现登 阅读全文
posted @ 2018-10-17 10:03 发酸的丶米饭 阅读(6442) 评论(0) 推荐(0) 编辑
摘要: 1.弹出框太丑 引入layer 首先将下载好的layer放到项目里 放到之后可以用如下代码检查是否加载成功 加载成功结果为: 2.界面的设计 bootstrap 3.登录后台 springboot只能通过controller访问HTML,不能直接访问 @ResponseBody干什么的 注解Mapp 阅读全文
posted @ 2018-10-17 09:50 发酸的丶米饭 阅读(1994) 评论(0) 推荐(0) 编辑