摘要: 分析页面 分析页面 请求页面的url为:https://s.taobao.com/search?q=keyword,本次爬虫keyword为“施华洛世奇”,页面使用Ajax获取商品,但是Ajax请求中有加密参数,解密比较麻烦,所以用selenium控制浏览器来爬取 创建browser对象 创建bro 阅读全文
posted @ 2019-06-28 19:05 _Berlin 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Selenium请求库 一 什么是Selenium Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 二 安装 1 安装Selenium:pip install Seleniu 阅读全文
posted @ 2019-06-27 23:23 _Berlin 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 一爬虫原理 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上 阅读全文
posted @ 2019-06-26 19:15 _Berlin 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 一 常用数据类型及内置法 1 列表 定义: 列表是Python中内置有序、可变序列,列表的所有元素放在一对中括号“[]”中,并使用逗号分隔开; 当列表元素增加或删除时,列表对象自动进行扩展或收缩内存,保证元素之间没有缝隙; 在Python中,一个列表中的数据类型可以各不相同,可以同时分别为整数、实数 阅读全文
posted @ 2019-06-25 21:42 _Berlin 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 工程实训day01 一 Python3.6、Pycharm安装 Python3.6安装:https://www.python.org/官网下载相应版本,一键安装即可,注意勾选add path; Pycharm:一款强大的IDE,官网下载地址:http://www.jetbrains.com/pych 阅读全文
posted @ 2019-06-24 21:36 _Berlin 阅读(204) 评论(1) 推荐(0) 编辑