摘要:
模块和包 如果我们想在编写的代码里重用一些函数的话,就需要用到模块(Module),一个.py文件就称之为一个模块。 使用模块还可以避免函数名和变量名冲突,相同名字的函数和变量完全可以分别存在不同的模块中。为了避免模块名的冲突,Python又引入了按照目录来组织模块的方法,称为包(Package)。 阅读全文
摘要:
参考: Airflow 入门及使用 官方文档 Airflow 是什么? 使用Python语言编写的 data pipeline 调度和监控工作流的平台,是通过DAG(Directed acyclic graph 有向无环图)来管理任务流程的任务调度工具。 Airflow 解决哪些问题? cronta 阅读全文
摘要:
爬虫基础概念 数据从何而来? 数据有以下的一些来源途径: 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。 数据管理咨询公司 阅读全文
摘要:
正则表达式的概念 概念 正则表达式(regular expression,regex,RE):是用来简洁表达一组字符串的表达式。 应用:最主要应用在字符串匹配。 使用 没编译前在Python中只是一个字符串,只有经过编译才是有效的表达式。 正则表达式的语法 常用操作符 正则表达式经典实例 匹配IP地 阅读全文
摘要:
本文主要介绍了自然语言处理领域中文本表示的一个重要算法:TF-IDF算法。包括其基本概念,以及简单的代码实现。 TF-IDF概述 什么是TF-IDF? 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种常用于文本处理的统计方法, 阅读全文
摘要:
redis是key-value的数据,所以每个数据都是一个键值对。 键的类型是字符串 值的类型分为五种 字符串string 哈希hash 列表list 集合set 有序集合zset String 字符串 简介 string是redis最基本的类型 最大能存储512MB数据 string类型是二进制安 阅读全文
摘要:
redis的配置文件redis.conf存放在/usr/local/etc路径下。 是否以守护进程运行 如果以守护进程运行,则不会在命令行阻塞,类似于服务 如果以非守护进程运行,则当前终端被阻塞,无法使用 推荐改为yes,以守护进程运行 使用vim打开redis.conf文件,搜索到daemoniz 阅读全文
摘要:
参考资料:Mac安装Redis,原来就是这么简单 使用Hombrew安装命令 brew install redis 查看安装及配置文件 redis的配置文件redis.conf存放在/usr/local/etc路径下。 启动redis服务 redis-server 成功启动: 前台启动的话,只需要 阅读全文
摘要:
随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来. NoSQL,全名为Not Only SQL,指的是非关系型的数据库. 优缺点 优点: 高可扩展性 分布式计算 低成本 架构的灵活性,半结构化数据 没有复杂的关系 缺点: 没有标准化 有限的查询功能(到目前为止) 最终一致是不直 阅读全文
摘要:
参考资料: 《对比Excel,轻松学习Python数据分析》 《Intermediate Python》 本文主要简单介绍了Python中非常强大的map()函数和pandas中类似的apply()和applymap()函数。 map() map(function, args) map()函数对序列 阅读全文
摘要:
索引和切片 字符串实际上就是字符的数组,所以也可以用下标进行索引和切片。 索引 索引:选取其中一个元素。 切片 切片:选取其中一片元素。 str[起点(包含起点元素) : 终点(不包含终点元素) : 步长(默认为1)] 默认步长切片 指定步长切片 逆序输出 写法一: 写法二: 字符串常用方法 fin 阅读全文
摘要:
变量与数据类型 变量 变量:存储东西的一个容器。 varibleName = value type(varibleName) # type( )查看变量的数据类型 这种变量本身类型不固定的语言就称为动态语言,与之相对的是静态语言,如Java、C,静态语言在定义变量的时候就需要指定数据类型。 数据类型 阅读全文
摘要:
Python有4种内置数据结构:列表,字典,元组,集合。 不同的数据类型之间可以进行类型转换以达到特殊目的,比如将list先转成set,以达到去重的目的,之后再转回list。 列表(List) 列表的特征 列表中的每一个元素都是可变的; 列表其实是一个栈; 列表中的元素是有序的,也就是说每一个元素都 阅读全文
摘要:
程序的三大执行流程 顺序执行 选择执行(采用条件语句) 循环执行(采用循环语句) 条件语句 if 语句 if score > 60: print("B") # 当有一个条件满足的时候,即退出判断,不会继续进行判断 elif score > 50: print("B-") else: print("C 阅读全文
摘要:
数据读写 文件的作用 能把运行在内存的一些数据存储到硬盘上。 文件路径 文件路径的书写格式 以下三种书写格式都符合Python语法: 文件内容的操作 打开、新建 open( ) 文件存在则打开,文件不存在则新建。 f = open("文件名.后缀","操作方式") # 文件需要与程序位于同一文件夹中 阅读全文
摘要:
问题1 问题描述:在一个文件夹中,有着普通文件以及文件夹,那么我们如何做到删除全部文件夹而不删除文件呢? 如下图所示,我们想要删除test文件夹中的所有文件夹,而保留其他文件: Version 1 看到这个问题的第一刻,我想到的是文件夹没有后缀名,其他文件有后缀名,而拥有后缀名则意味着文件名称里面会 阅读全文
摘要:
在使用Matplotlib画图时,我遇到了一个尴尬的情况,那就是当x轴的标签名字很长的时候,在绘制图形时,发生了x轴标签互相重叠的情况。 本文主要通过一个简单的示例,探索了以上描述问题的4种解决方法。 示例 import pandas as pd import matplotlib.pyplot a 阅读全文
摘要:
参考文章:《特征工程入门与实践》——第5章 特征选择:对坏属性说不 信用卡逾期数据集:credit card clients Data Set 本文代码开源链接: FeatureSelection 本文主要以信用卡逾期分类任务作为案例,讲解如何使用sklearn进行特征选择。 **特征选择(Feat 阅读全文
摘要:
李宏毅机器学习系列文章目录 人工智能是人类长远以来的一个目标,而机器学习是实现这个目标的其中一种方法,深度学习则是机器学习的一种方法。 生物学知识告诉我们,生物的行为取决于两件事,一个是后天学习的结果,另外一个就是先天的本能。 在没有机器学习之前,人们是通过赋予机器先天的本能的方式来实现人工智能的, 阅读全文
摘要:
本篇文章主要介绍如何使用pynmea2库解析传感器的GPS信号,以及如何使用folium库绘制GPS轨迹图。 GPS数据解析 参考资料: NMEA pynmea2 根据NMEA协议,我们从传感器上接收到的GPS经纬度数据格式如下: 例:$GPRMC,024813.640,A,3158.4608,N, 阅读全文