2018 年 9月 17 日随笔档案 - shifu204

2018年9月17日

摘要：超详细创建流程及思路一. 新建项目 1.创建文件夹，然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口，运行下面的命令创建scrapy项目二、明确目标 1.我们打算抓取2018年1月到8月，佛山市场各个公司关于304钢卷的价格、规格等数据；（1）打开mySpide 阅读全文

posted @ 2018-09-17 17:28 shifu204 阅读(483) 评论(0) 推荐(0) 编辑

爬虫（5）- Scrapy 框架简介与入门

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-09-17 17:22 shifu204 阅读(367) 评论(0) 推荐(0) 编辑

爬虫（4）- Selenium与PhantomJS（chromedriver）与爬取案例

摘要： Selenium文档 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据阅读全文

posted @ 2018-09-17 15:56 shifu204 阅读(1154) 评论(0) 推荐(0) 编辑

爬虫（3）- lxml库和贴吧图片下载案例

摘要： lxml库 lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。 lxml pytho 阅读全文

posted @ 2018-09-17 15:34 shifu204 阅读(498) 评论(0) 推荐(0) 编辑

爬虫（2）- HTTP和HTTPS 相关知识

摘要： HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-09-17 14:40 shifu204 阅读(869) 评论(0) 推荐(1) 编辑

爬虫（1）- 简介与概念

摘要：一、"大数据时代"，数据获取的方式 1. 企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然的优势。有数据意识的中小型企业，也开始积累的数据。 2. 数据管理咨询公司：通常这样的公司有很庞大的数据采集团队，一般会通过市场调研、问卷调查、固定的样本检测，和各行各业的公司进行合作、阅读全文

posted @ 2018-09-17 14:21 shifu204 阅读(242) 评论(0) 推荐(0) 编辑

shifu204

公告