Spyder基于python的数据分析

基于python的数据分析
1.为什么要进行数据分析
简答：人工智能，大数据等数据的采集需要数据 -----数据通过python分析而来--进行数据的清洗操作----建立数据模型Model
-----生成一个目标数据----预测未来---得到结果
2.企业数据存在的形式
(1):存在‘文件’例如：excel word csv txt...
(2):数据库例如：mysql oracle DB2 SQLserver...
3.数据解析之read_table read_excel
(1):再数据分析里面分析读取文本数据用:
read_table --也可以快速读取大数据，海量数据，人工智能的数据集
read_excel --是指定读取excel类型的数据
传统的大数据开发就是再excel里面进行数据分析，所以excel可以处理大数据库~
(2):在以上两个方法里面。可以通过names属性给列起名称，方便数据的读取
(3):导入csv文件类型
i.处理数据的编码格式方法
通过EditsPlus或者UE开发工具可以进行编码的切换 ---开发天天使用
对于大数据的数据集不能利用转码的代码机制去直接转码，这样导致服务器，数据等发送异常情况1 --建议使用第三方工具直接操作数据集--面试问
ii:导入csv的文件需要通过read_csv
思考：csv和word excel wps txt 等通过那个数据集更好？
csv自身可以处理编码问题
总结：read_table /excel/csv 等，全部返回值是DataFrame
4.到模块/导包的区别
from pandas import DataFrame
import pandas as pd
备注：to_csv不仅仅将手动创建的文件数据，也可以将受到创建的文件，通过数据存放至指定文件建议大量使用！安全数据维护简单
df.to_csv('E:/pythonData01/hello.txt')
df.to_csv('E:/pythonData01/hello.xls')
df.to_csv('E:/pythonData01/hello.xlsx')
注意：1.导出的文件格式不受限制，可以通过to_csv进行导出不同文件类型
2.通过csv可以导出任意类型的文件。所以csv导出文件首选
5: 除去重复数据
df10=pd.read_csv('d:/pythondata01/data.csv')
newdfdata=df10.drop_duplicates()#此方法可以除去重复数据
print('新数据:',newdfdata)

6:数据抽取通过slice方法，但是数据抽取之前必须将数据转化为str
通过astype(str)-通过index抽取、----数据在列表里面
df11=read_csv('d:/pythondata01/datap.csv')
#df['tel'] = df['tel'].astype(str);
#astype(str)表示的将数据转化为字符串 ----电话号码、身份证等都是字符串组成，而不是整数
#结果：还是需要将一个完整的数据进行拼接----拼接---自然是字符串操作！
7:数据字段拆分
newDF12 = df12['name'].str.split(' ', 2, True);
newDF13 = df13['name'].str.split(' ', 1, False);
总结 newDF12 = df12['name'].str.split(' ', 2, True); --数据拆分可读性差
newDF13 = df13['name'].str.split(' ', 1, False); --数据拆分可读性很好

posted @ 2019-08-07 16:42 NoBugAnymore 阅读(3571) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

NoBugAnymore

Spyder基于python的数据分析

公告