摘要: 超详细创建流程及思路 一. 新建项目 1.创建文件夹,然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口,运行下面的命令创建scrapy项目 二、明确目标 1.我们打算抓取2018年1月到8月,佛山市场各个公司关于304钢卷的价格、规格等数据; (1)打开mySpide 阅读全文
posted @ 2018-09-17 17:28 shifu204 阅读(483) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-09-17 17:22 shifu204 阅读(367) 评论(0) 推荐(0) 编辑
摘要: Selenium文档 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据 阅读全文
posted @ 2018-09-17 15:56 shifu204 阅读(1154) 评论(0) 推荐(0) 编辑
摘要: lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。 lxml pytho 阅读全文
posted @ 2018-09-17 15:34 shifu204 阅读(498) 评论(0) 推荐(0) 编辑
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-09-17 14:40 shifu204 阅读(869) 评论(0) 推荐(1) 编辑
摘要: 一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作、 阅读全文
posted @ 2018-09-17 14:21 shifu204 阅读(242) 评论(0) 推荐(0) 编辑