采集豆瓣电影影评信息
1、进入豆瓣电影网页网站
网站地址:https://movie.douban.com/review/best/
2、右键网页检查,利用网页源代码查看网站跳转信息的规律
从上面这张图片可以得到,查看该影片的详细信息,需要跳转的链接;
3、下载需要的lib依赖包
进入到/data/edu1的文件夹下,
将事先下载好的webmagic所需要依赖的压缩包导入进去,然后解压缩:
tar -zxvf webmagic-0.7.3-all.tar.gz
4、打开虚拟机的eclipse软件,并新建一个项目,并命名为pachong1
右键项目名称,信件一个名为libs的文件夹:
然后将webmagic那个依赖包里面的jar包复制到libs的文件夹下:
并执行Add to Build Path操作:
5、在src目录下新建一个包,命名为my.webmagic
6、在上面新建的my.webmagic包下,新建一个class类,命名为Getgov
7、编写相关代码
8、运行相关代码
出现下面这种情况运行是没有问题的:
9、查看运行结果
两个txt文件;