第3次作业-MOOC学习笔记

1.注册账号

 

 

 2.python数据爬虫与提取课程 学习进度

 

3.课程作业完成进度

 

 

 

4.学习心得

     在为学习这门课之前,我曾经买过一本关于网络爬虫的学习材料,也学习过一段时间,但由于曾经python基础知识的不牢靠,在学习过程中遇到了很多难点,无力自学下去。但学习了python网络爬虫与信息提取这门课后,让我对爬虫的理解清晰了起来,教程的简洁易懂让我学习过程非常的顺利,由于已经有1年没接触过python了,以前的语法都有些忘记,但曾经坚实的基础让我很快的又掌握了,对基础的了解又有深刻的记忆。
课程老师前文中给我们大概述说了爬虫学习计划,让我们在学习爬虫的过程有了一定的认识,知道此时学习的东西在爬虫中的使用位置,明了简介,对于我们这些初学者来说是最为合适的教学方式,在后期还有课程实例来让我们掌握课程内容,这是一部对初学者很友好的爬虫教程。
在第一周爬虫之规则的学习中,我知道了怎么从网页中爬取自己所需要的网页,也对http协议的头部知识有了深一步的了解,了解一名合格的程序员,爬虫专家应该怎么合理的按照网站所有者的要求爬取网页,做一名遵纪守法的程序员,了解了robot协议的规则内容和其所在的位置,当一个网站没有robot协议的时候表示所有网页数据皆可爬取,还有对于网站所有者来说,应该怎么限制网络爬虫进行爬取活动。再来也让我对requests这个库内部的类和方法也有了一定的了解,也让自己认识到对于html网页信息的了解不够全面,对于网页头部内容信息够不清楚,打算有意识加深这方面了解。
在第二周的课程中,我首先认识了BeautifulSoup4库,明白了如果想要对获取的网页内容进一步筛选,筛选出来自己需要的想要的数据,就需要使用bs4库中的类来筛选。对于世界常用的数据格式xml,json,yaml都有了了解,虽然第三种数据格式在这之前并未见过,但与第二种格式相似,学习起来并不困难。对于2种信息提取方式,单独使用其中一种并不能更方便的提取数据。要将2种方式相结合来使用才能更为便利的提取数据。还进行了对大学网中大学排名的数据提取,在看老师实例教程之前我先使用自己在前几章的知识试着尝试进行提取,过程并不艰难,最后也顺利提取出来了。
第三周的课程中学习了re库,这是个正则表达式库,正则表达式的应用范围很广,不管是在python,java中都能用得上,可以用在数据校验中和数据提取等关于字符串的匹配上面,学习起来并不困难,但由于字符匹配的需要严谨,所以在匹配的严谨程度上来说是最困难的。
第四周的课程我暂未看到,今天周三打算在周5之前看完,学习的是框架上的知识,看来应该是使用前人的方法来进行爬虫,应该能减少在代码上的书写量。
对于爬虫这门课程,我觉得很有兴趣,能将自己想要的数据获取出来,能给我们的生活和工作上带来很大便利,我将继续深入研究爬虫技术,提升专业知识素养。
posted @ 2019-10-22 23:04  hidegoodgoodgood  阅读(136)  评论(0编辑  收藏  举报