摘要: request得到和浏览器数据不同 数据加载是异步加载方式,原始页面不包含数据,加载完后会会再向服务器请求某个接口获取数据,然后数据再被处理才呈现到网页上,这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离,而且降低服务器直接渲染页面带来的压力。 因此遇到这种情况,用requ 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(2799) 评论(0) 推荐(0) 编辑
摘要: JavaScript 动态渲染的页面不止 Ajax 这一种 另外有的ajax渲染接口含有很多加密参数,难以直接找出其规律 通过模拟浏览器运行的方式来实现,Selenium、Splash、PyV8、Ghost 等 7.1 Selenium的使用 自动化测试工具,支持多种浏览器。爬虫中主要用来解决js渲 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(3101) 评论(0) 推荐(0) 编辑
摘要: 2.1 HTTP原理 1、URI、URL 统一资源标识符,统一资源定位符 协议+路径+资源名称 URL 是 URI 的子集,URI 还包括一个子类叫做 URN,它的全称为 Universal Resource Name,即统一资源名称。 URN 只命名资源而不指定如何定位资源,如 urn:isbn: 阅读全文
posted @ 2018-09-28 10:56 eo_will 阅读(810) 评论(0) 推荐(0) 编辑
摘要: 本节内容为基础库的使用,内容涵盖:Urllib库基本使用,Requests库基本使用以及正则表达式基础。 3.1 Urllib 内置http请求库 request请求模块,error异常处理模块,parse工具模块,robotparser 识别网站robots.txt,识别哪些可以爬 3.1.1 发 阅读全文
posted @ 2018-09-28 10:56 eo_will 阅读(930) 评论(0) 推荐(0) 编辑
摘要: 1.1 简介 · 爬虫是请求网站并提取数据的自动化程序 · 爬虫可以简单分为几步:抓取页面、分析页面、存储数据。 1.2 请求库的安装 · 在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,涉及到的第三方库有 Requests、Selenium、Aiotttp 等。 · Seleniu 阅读全文
posted @ 2018-09-28 10:55 eo_will 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 特征工程是机器学习当中很重要的部分,可以帮助我们设计、创建新特征,以便模型从中提取重要相关性。本文将记录并持续更新相关特征工程的工具包介绍,包括自动模型选择和超参数调优等各方面。 · Featuretools Featuretools 是一个开源的Python 库,用于自动化特征工程。自动特征工程能 阅读全文
posted @ 2018-09-27 20:04 eo_will 阅读(7691) 评论(0) 推荐(0) 编辑
摘要: 这个系列主要是总结一些《改善python程序的91个建议》的学习笔记,希望可以对自己和读者有所帮助。本文是该系列第二部分,第一部分请见 Part1 21 多使用else 让程序变的更加pythonic eg: try-except-else-finally 22 异常处理注意点 · 注意异常粒度,不 阅读全文
posted @ 2018-09-27 11:30 eo_will 阅读(476) 评论(0) 推荐(0) 编辑
摘要: Python在学完初级语法之后都会面临一个瓶颈,不知道接下来要学什么,也不知道如何独立完成一个实战项目。除了多加练习之外,还应该增加知识摄入,相信量便会引起质变。<!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoicGFyYWdy 阅读全文
posted @ 2018-09-27 10:41 eo_will 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: · 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 · 特征与目标的相关性:这点比较显见,与目标相关性 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(5035) 评论(0) 推荐(1) 编辑
摘要: 当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。降维(dimensionality reduction)是指通过对原有的feature进行重新组合,形成新的feature,选取其中的principal compone 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(1614) 评论(0) 推荐(0) 编辑