eo_will - 博客园

2018年9月28日

摘要： 5.1 文件存储先用request把源码获取，再用解析库解析，保存到文本 1- txt 文本打开方式： file = open('explore.txt', 'a', encoding='utf-8') #a代表以追加的方式写入文本 file.write('\n'.join([question, 阅读全文

posted @ 2018-09-28 10:57 eo_will 阅读(1123) 评论(0) 推荐(0) 编辑

python | 爬虫笔记（四）- 解析库使用

摘要：本节内容为解析库的使用，内容涵盖：XPath、BeautifulSoup和PyQuery基础内容。本节内容为解析库的使用，内容涵盖：XPath、BeautifulSoup和PyQuery基础内容。 · 正则表达来提取比较繁琐。 · 对于网页的节点来说，它可以定义 id、class 或其他的属性，而阅读全文

posted @ 2018-09-28 10:57 eo_will 阅读(811) 评论(0) 推荐(0) 编辑

python | 爬虫笔记（二）- 爬虫基础

摘要： 2.1 HTTP原理 1、URI、URL 统一资源标识符，统一资源定位符协议+路径+资源名称 URL 是 URI 的子集，URI 还包括一个子类叫做 URN，它的全称为 Universal Resource Name，即统一资源名称。 URN 只命名资源而不指定如何定位资源，如 urn:isbn: 阅读全文

posted @ 2018-09-28 10:56 eo_will 阅读(799) 评论(0) 推荐(0) 编辑

python | 爬虫笔记（三）- 基本库使用

摘要：本节内容为基础库的使用，内容涵盖：Urllib库基本使用，Requests库基本使用以及正则表达式基础。 3.1 Urllib 内置http请求库 request请求模块，error异常处理模块，parse工具模块，robotparser 识别网站robots.txt，识别哪些可以爬 3.1.1 发阅读全文

posted @ 2018-09-28 10:56 eo_will 阅读(919) 评论(0) 推荐(0) 编辑

python | 爬虫笔记（一）- 开发环境配置

摘要： 1.1 简介 · 爬虫是请求网站并提取数据的自动化程序 · 爬虫可以简单分为几步：抓取页面、分析页面、存储数据。 1.2 请求库的安装 · 在第一步抓取页面的过程中，我们就需要模拟浏览器向服务器发出请求，涉及到的第三方库有 Requests、Selenium、Aiotttp 等。 · Seleniu 阅读全文

posted @ 2018-09-28 10:55 eo_will 阅读(1327) 评论(0) 推荐(0) 编辑

2018年9月27日

机器学习 | 特征工程- 超参数调优方法整理

摘要：特征工程是机器学习当中很重要的部分，可以帮助我们设计、创建新特征，以便模型从中提取重要相关性。本文将记录并持续更新相关特征工程的工具包介绍，包括自动模型选择和超参数调优等各方面。 · Featuretools Featuretools 是一个开源的Python 库，用于自动化特征工程。自动特征工程能阅读全文

posted @ 2018-09-27 20:04 eo_will 阅读(7607) 评论(0) 推荐(0) 编辑

python | 改善Python程序建议- Part2

摘要：这个系列主要是总结一些《改善python程序的91个建议》的学习笔记，希望可以对自己和读者有所帮助。本文是该系列第二部分，第一部分请见 Part1 21 多使用else 让程序变的更加pythonic eg: try-except-else-finally 22 异常处理注意点 · 注意异常粒度，不阅读全文

posted @ 2018-09-27 11:30 eo_will 阅读(474) 评论(0) 推荐(0) 编辑

python | 改善Python程序建议- Part1

摘要： Python在学完初级语法之后都会面临一个瓶颈，不知道接下来要学什么，也不知道如何独立完成一个实战项目。除了多加练习之外，还应该增加知识摄入，相信量便会引起质变。<!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoicGFyYWdy 阅读全文

posted @ 2018-09-27 10:41 eo_will 阅读(629) 评论(0) 推荐(0) 编辑

2018年9月11日

机器学习 | 特征工程（二）- 特征选择

摘要：当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征： · 特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。 · 特征与目标的相关性：这点比较显见，与目标相关性阅读全文

posted @ 2018-09-11 14:08 eo_will 阅读(4978) 评论(0) 推荐(1) 编辑

机器学习 | 特征工程（三）- 特征降维

摘要：当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。降维（dimensionality reduction）是指通过对原有的feature进行重新组合，形成新的feature，选取其中的principal compone 阅读全文

posted @ 2018-09-11 14:08 eo_will 阅读(1578) 评论(0) 推荐(0) 编辑

EO_Admin

学习记录分享

公告

EO_Admin

学习 记录 分享

公告

学习记录分享