第二次结对作业

作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018SE1/homework/11250
作业目标 学习如何使用url和cookie从网站上抓取有用的信息
作业源代码 https://gitee.com/chen-zhijie/personal
队员1 211801173
队员2 211801104

自我介绍

结队过程:施家文和陈志杰都是一个宿舍的,关系也很好所以结对了。

结对感受:

施:果然人多力量大,人多会有更多的新想法以及新体验。
陈:和上一次一样的是两个人战斗和一个人不太一样,不一样的是这次合力协作的时间有点限制。

结对评价

施:因为国庆放假回家(被迫)的关系,我并没有很好的做到一个同伴应该做的任务。这让我很愧疚,但我们也做了足够的功课,合力完成作业!
陈:我们尝试一步一步的解决问题,跟着自己分析任务的思路走,遇到过问题,也解决过问题,还应该继续努力。

结对照片


代码记录

需求分析 2h
调整思路 2h
写出代码 24h
思路及分析
=================

通过对老师发布作业的分析我们有了以下思路

1.首先先完成登录的需求,这是完成这次作业的基础。我们通过学习老师发的资源,完成了手动设置cookie。
我们先创建配置文件
配置文件里面是我们cookie信息。手动设置配置文件时候回使用到。然后我们通过学习资源完成了手动配置cookie。
代码如下

		Properties config = new Properties();
		config.load(new FileInputStream("resources/config.properties"));
		String URL = config.getProperty("url");
		String cookie = config.getProperty("cookie");
		// 手动设置cookies
		Document document = Jsoup.connect(URL).header("Cookie", cookie).get();

2.我们通过***提取了14个url,

		Set<String> seth = new HashSet<>();
		Elements b = document.getElementsByClass("interaction-row");
		for (int i = 0; i < b.size(); i++) {
			if (b.get(i).toString().contains("课堂完成部分")) {
				String c = b.get(i).attr("data-url");
				seth.add(c);
			}
		}

学习过程

因为施国庆回家的关系。两人并不能面对面进行交流。但是我们做了明确的分工,施负责寻找相关资料,并解决陈在操作中遇到的问题。陈负责实际
写代码,将遇到的麻烦告诉施,让他在网上寻找解决方法。
我们遇到了许多困难,因为各种屏幕且施没有电脑。处理起来相当棘手。刚开始时,陈无法得到有效的cookie数据。截取第一段字符时候,一直都是云班课 登录界面。我们发现不同的浏览器cookie数据不一样的。经过多个浏览器的实验,我们从ie浏览器中得到正确的cookie数据。我们能成功登入云班课。
通过创建表将作业页面各个url导入,分别对应每份作业不同同学的得分情况。后续在进入页面时获取经验元素的方法一直没找到很好的解决方法。

网站资料

Java 爬虫手动设置cookie
java爬虫基础
正则表达式的使用
如何用java将数据输入txt

网站资料

这次虽然没有很好的做到结伴伙伴该做的任务,但是我还是受益良多。和陈这样优秀的同伴结拜是一件很令人高兴的事情。这次作业我们了解了如何使用jsoup爬url。如何手动设置cookie。遍历html输出想要的数据。并将东西输出到txt中。过程中体会到了无法将思路实际变现为代码的难受,编码能力还有待提高。总的来说,受益良多。

posted @ 2020-10-04 21:06  久病  阅读(207)  评论(1编辑  收藏  举报