摘要:
一.网络爬虫(Web Crawler) 1.网络爬虫:是一种按照一定的规则,自动地抓取网上信息的程序或者脚本。 2.爬虫:为了获取网上大量的我们能看的到或看不到的数据 3.基本步骤:(1)定位要爬的网页地址;(2)获取网址的html文档;(3)解析网址的html文档;(4)搜寻要下载的数据并保存到本
阅读全文
posted @ 2018-05-29 11:12
温润有方
阅读(4742)
推荐(1)
编辑
摘要:
一.python中的虚拟环境 1.虚拟环境:局部的,独立的python环境,完全模拟系统全局python环境的使用 二.安装 http://virtualenv.pypa.io/en/latest/userguide/ 三.使用 1.创建:终端:进入对应目录:virtualenv 虚拟环境名称 -p
阅读全文
posted @ 2018-05-29 11:11
温润有方
阅读(451)
推荐(0)
编辑
摘要:
一.matplotlib数据可视化 1.https://matplotlib.org/ 2.figure图形窗口;figsize窗口大小,label轴标签;title标题;lim限制;plot绘图;subplot绘制子图;show显示; bar柱状图;legend图例;width宽度;scatter
阅读全文
posted @ 2018-05-29 11:10
温润有方
阅读(342)
推荐(0)
编辑
摘要:
一.Pandas 1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,主要用于数据处理(数据整理,操作,存储,读取等) 2.http://pandas.pydata.org/ 3.pandas中的数据结构: Series一维数组,只允许存储相
阅读全文
posted @ 2018-05-29 11:08
温润有方
阅读(778)
推荐(0)
编辑
摘要:
一.时间模块time 1.获取时间戳 time.time(),可以利用时间戳差异值计算程序运行多少时间 1 import time 2 timestamp=time.time() 3 print('当前的时间戳为:',timestamp) 4 5 当前的时间戳为: 1522241598.294555
阅读全文
posted @ 2018-05-29 11:03
温润有方
阅读(569)
推荐(0)
编辑
摘要:
一.线程和进程 1.操作系统中,线程是CPU调度和分派的基本单位,线程依存于程序中 2.操作系统中,进程是系统进行资源分配和调度的一个基本单位,一个程序至少有一个进程 3.一个进程由至少一个线程组成,线程组成进程 4.多进程、多进程实际是进程、线程、进程和线程的并发而不是并行,用来加快程序运行速度
阅读全文
posted @ 2018-05-29 11:00
温润有方
阅读(441)
推荐(0)
编辑
摘要:
一.正则表达式 1.正则表达式 (Regular Expression) 又称 RegEx, 是用来匹配字符的一种工具. 在一大串字符中寻找你需要的内容. 2.正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配 3.re 模块使 Python 语言拥有全部的正则表达式功
阅读全文
posted @ 2018-05-29 10:58
温润有方
阅读(2000)
推荐(0)
编辑