上一页 1 2 3 4 5 6 7 8 ··· 18 下一页
摘要: 一、创建Series 参数 数组创建 字典创建 常量创建 二、数据查询 切片 使用索引检索数据 使用head()/tail()查看前几个或后几个 三、其他操作 series元素进行去重 unique() 对series元素进行去重 两个series元素相加 Series之间的运算 - 在运算中自动对 阅读全文
posted @ 2019-08-25 14:57 叫我大表哥 阅读(15422) 评论(0) 推荐(1) 编辑
摘要: 标识符与关键字 标识符 在编程语言中标识符就是程序员定义的具有特殊意义的词,比如变量名、常量名、函数名等等。 Go语言中标识符由字母数字和_(下划线)组成,并且只能以字母和_开头。 举几个例子:abc, _, _123, a123。 关键字 关键字是指编程语言中预先定义好的具有特殊含义的标识符。 关 阅读全文
posted @ 2019-08-25 14:55 叫我大表哥 阅读(210) 评论(0) 推荐(0) 编辑
摘要: Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据。有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HTML代码的结构构建一个Python对象,并且处理相当糟糕的标记,但它有一个缺点:它很慢。 lxml是 阅读全文
posted @ 2019-08-21 08:46 叫我大表哥 阅读(418) 评论(0) 推荐(0) 编辑
摘要: Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数据格式,Scrapy提供Item类 阅读全文
posted @ 2019-08-21 08:45 叫我大表哥 阅读(968) 评论(0) 推荐(0) 编辑
摘要: 一、效果演示 首页展示 播放页面 该项目部署只为学习,所以用的服务器是腾讯云服务器10元/月,域名也是在腾讯云买的.com 55元/年 因为本人比较穷 哈哈😁 这个服务器纯粹是为新手准备的,1M带宽 速度堪称蜗牛,不过价格是真心便宜,适合练手。。。 废话不多说下面我们开始项目部署 二、准备云服务器 阅读全文
posted @ 2019-08-14 22:29 叫我大表哥 阅读(7833) 评论(0) 推荐(3) 编辑
摘要: scrapy shell scrapy shell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python shell。 shell用于测试xpath或css表 阅读全文
posted @ 2019-08-14 19:24 叫我大表哥 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: spider类 爬虫参数 爬虫可以接受参数来改变它的行为。这些参数一般用来定义初始URL,或者限定爬取网站的部分内容,也可以用来配置其它任何功能。 在运 阅读全文
posted @ 2019-08-14 19:23 叫我大表哥 阅读(918) 评论(0) 推荐(0) 编辑
摘要: 五大核心组件 scrapy工作原理 旧版 新版 如何提升scrapy爬取数据的效率 全站抓取数据 示例代码 get请求抓取所有页码数据 深度抓取 阅读全文
posted @ 2019-08-10 13:55 叫我大表哥 阅读(825) 评论(0) 推荐(0) 编辑
摘要: 一、安装scrapy 安装失败看博客>>>scrapy安装失败解决方案 二、创建爬虫项目 项目目录结构 cmd命令行输入 D:\爬虫项目\first>tree /f 三、创建爬虫 定义item字段 在解析数据之前我们要在items文件中定义我们要解析的字段,因为我们解析完的数据需要提交到管道,而管道 阅读全文
posted @ 2019-08-10 13:53 叫我大表哥 阅读(349) 评论(0) 推荐(0) 编辑
摘要: from multiprocessing.dummy import Pool #线程池模块 #必须只可以有一个参数 def my_requests(url): return requests.get(url=url,headers=headers).text start = time.time() urls = [ 'http://127.0.0.1:5000/bobo',... 阅读全文
posted @ 2019-08-05 16:31 叫我大表哥 阅读(327) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 18 下一页