随笔分类 - 数据分析
摘要:一、selenlum介绍 selenium这个三方库,最初是一个自动化测试工具,可以实现让浏览器完成自动化的操作。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。 而爬虫中使用它主要是为了解决 requests无
阅读全文
摘要:一、lxml介绍 第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供
阅读全文
摘要:一、urllib介绍 urllib是python中自带的一个基于爬虫的模块, 作用:urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。可以使用代码模拟浏览器发起请求。 详见官网资料:2.7.5:urllib — Open
阅读全文
摘要:一、Jupyter Notebook介绍 1、什么是Jupyter Notebook Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过编码开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍。 简而言之,Jupyter Notebook
阅读全文
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项
阅读全文
摘要:一、requests介绍 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 import urllib2 import jso
阅读全文
摘要:一、爬虫是什么 1、什么是互联网?互联网建立的目的? 互联网由网络设备和一台台计算机连接而成,像一张网一样。 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。 2、什么
阅读全文
摘要:一、NumPy简介 NumPy是高性能科学计算和数据分析的基础包。它是pandas等其他各种工具的基础。 1、NumPy的主要功能 ndarray:一个多维数组结构,高效且节省空间 无需循环对整组数据进行快速运算的数学函数 线性代数、随机数生成和傅里叶变换功能 2、安装和引用方法 安装方法:pip3
阅读全文
摘要:一、金融知识入门 金融、股票知识入门 二、量化投资与Python 1、为什么选择Python? 其他选择:Excel、SAS/SPSS、R 量化投资实际上就是分析数据从而做出决策的过程。 python数据处理相关模块: NumPy:数组批量计算 pandas:灵活的表计算 Matplotlib:数据
阅读全文
摘要:一、基础金融知识介绍 金融:就是对现有资源进行重新整合之后,实现价值和利润的等效流通。 金融工具:在金融市场中可交易的金融资产。 常见金融工具:股票、期货、黄金、外汇、基金等。 二、股票 股票是股份公司发给出资人的一种凭证,股票的持有者就是股份公司的股东。 股票的作用: 1)出资证明、证明股东身份、
阅读全文