08 2020 档案
摘要:本周的学习时间大概6小时左右,代码量500行左右,主要尝试对爬取的数据进行一定的处理并存入数据库。
阅读全文
摘要:本周的学习时间大概6小时左右吧,由于要准备一系列的开学考试,敲代码的时间就缩水很多了。代码量600行左右,主要是webmagic的一些进阶使用和学习py的scrapy框架,下一步也是进一步学习scrapy还有mapreduce,争取早日能把mapreduce与爬虫结合使用。
阅读全文
摘要:对过去的一周进行一下总结,学习时间大概十小时左右,代码800行。主要对webmagic框架进行了学习,现在已经能够基础运用。 除此之外还对mapreduce进行了初步学习,并开始尝试运用。
阅读全文
摘要:通过这两天的学习,对WebMagic有了初步的掌握,这里分享的这个小项目是用于爬取我个人博客的所有标题,我尽量说的详细些,希望可以帮到和我一样的初学者。 思路: 首先确定爬取目标,那就是我的博客https://www.cnblogs.com/liuleliu/中所有的标题。 通过观察网页代码可发现,
阅读全文
摘要:经历多天的努力,hadoop的环境配置已经完成,编译器也能成功连接,下一步就是开始学习框架,第一个目标为WebMagic,这应该是比较简单好上手的java爬虫框架,先把这个搞懂,再以此为基础进行下一步。 今天对WebMagic进行了初步的概念上的认识,在此做个笔记。 WebMagic是一个简单灵活的
阅读全文
摘要:今天对这一周以来的学习做个总结吧,可以说是十分坎坷,打算学hadoop,但直到目前为止还没有进行webcount的相关代码实践,对其的掌握停留在一个逻辑概念认知。这一周主要就是忙活着配置环境,截至今天,虚拟机上的hadoop算是基本按装完毕,接下来我需要用编译器连接上hadoop,这样就能进行代码的
阅读全文
摘要:我的情况是在把selinux改为'disabled'后系统便不能启动了 解决方法: 在进入linux启动界面的时候按下f2 进入此界面 按e进入,选择第二个,也是按e进入编辑 末尾添加 selinux=0 回车 这时候再按b,就可以正常启动了。 参照于这篇帖子:https://blog.csdn.n
阅读全文
摘要:这两天主要是为使用hadoop学习做准备,安装虚拟机,并对hadoop进行了解。 这两天的学习收获还是不小的,由于要使用hadoop,因此通过学习网络上的资料,对hadoop有了一定的理论上的认识。首先要指出我之前的错误认识,hadoop不是某个框架,它是一个开源软件平台,它可以利用服务器集群来根据
阅读全文
摘要:前几天把python的基础语法复习了一下,然后熟悉了熟悉pycharm(之前都是用的eclipse),在控制台简单写了一个信息管理系统练手,近期就着手开始自学大数据,今天把虚拟机安装回来,并且装了一个linux系统,在网友的推荐下选择的是centos,目前感觉良好。接下来的任务就是熟悉linux的操
阅读全文

浙公网安备 33010602011771号