Hskan

2020年11月20日

摘要：爬取论坛中的标题这部分的重点： 1、明确你要爬取网页的网址，使用谷歌的检查功能，可以抓取页面的数据，但加载的内容有很多，图片，js文件都非常多，必须要在这里面找到你想爬取的页面的网址。 2、用到了正则表达式，正则表达式不准确也是输出不了想要的结果，建议输出r.text后在正则表达式的网站上确认自己阅读全文

posted @ 2020-11-20 15:33 Hskan 阅读(211) 评论(0) 推荐(0) 编辑

2020年11月12日

实例一>>爬取airbnb房屋信息

摘要： from selenium import webdriver # 下载的geckodriver的存储位置 driver = webdriver.Chrome(executable_path='D:\\chromedriver.exe') # 自动访问的网站 driver.get("https://w 阅读全文

posted @ 2020-11-12 17:19 Hskan 阅读(416) 评论(0) 推荐(0) 编辑

2020年11月9日

通过Selenium模拟浏览器抓取之Selenium安装

摘要： from selenium import webdriver driver = webdriver.Chrome(executable_path=r'D:\geckodriver.exe') #下载geckodrive还是报错，使用的谷歌浏览器，所以要下载对应的驱动 driver.get("http 阅读全文

posted @ 2020-11-09 18:41 Hskan 阅读(102) 评论(0) 推荐(0) 编辑

公告