大三上寒假15天--第8天
安装教程下载spark与eclipse连接插件一直报错host not found,是因为虚拟机的问题,上不去那个下载网址吗?
今天还学习了eclipse爬虫,但是虚拟机在下载插件,没有去配置,只能看,不能练,发现爬虫都是根据url,和XPath、正则表达式和CSS选择器来进行爬区,还有一些间隔,等待时间和重试次数等。
重点是需要找到网页的规律,可能是我太笨了吧,找了半天就发现首都之窗的信件内容都是在#f_baner > div:nth-child(3) > div:nth-child(3)这个标签内,至于每个信件的之间的连接规律还是没有发现url的规律,还是说我找的内容就不对,这些信件里面还有好多别的东西,总之我会继续寻找规律。