采集豆瓣电影影评信息

1、进入豆瓣电影网页网站

网站地址:https://movie.douban.com/review/best/

2、右键网页检查,利用网页源代码查看网站跳转信息的规律

从上面这张图片可以得到,查看该影片的详细信息,需要跳转的链接;

3、下载需要的lib依赖包

进入到/data/edu1的文件夹下,

将事先下载好的webmagic所需要依赖的压缩包导入进去,然后解压缩:

tar -zxvf webmagic-0.7.3-all.tar.gz

4、打开虚拟机的eclipse软件,并新建一个项目,并命名为pachong1

右键项目名称,信件一个名为libs的文件夹:

然后将webmagic那个依赖包里面的jar包复制到libs的文件夹下:

并执行Add to Build Path操作:

5、在src目录下新建一个包,命名为my.webmagic

6、在上面新建的my.webmagic包下,新建一个class类,命名为Getgov

7、编写相关代码

8、运行相关代码

出现下面这种情况运行是没有问题的:

9、查看运行结果

两个txt文件;

posted @ 2024-02-26 19:15  yesyes1  阅读(31)  评论(0编辑  收藏  举报