Spyder基于python的数据分析

基于python的数据分析
1.为什么要进行数据分析
简答:人工智能,大数据等数据的采集需要数据 -----数据通过python分析而来--进行数据的清洗操作----建立数据模型Model
-----生成一个目标数据----预测未来---得到结果
2.企业数据存在的形式
   (1):存在‘文件’例如:excel word csv txt...
   (2):数据库 例如:mysql oracle DB2 SQLserver...
3.数据解析之read_table read_excel
  (1):再数据分析里面分析读取文本数据用:
       read_table --也可以快速读取大数据,海量数据,人工智能的数据集
       read_excel --是指定读取excel类型的数据
      传统的大数据开发就是再excel里面进行数据分析,所以excel可以处理大数据库~
(2):在以上两个方法里面。可以通过names属性给列起名称,方便数据的读取
(3):导入csv文件类型
     i.处理数据的编码格式方法
      通过EditsPlus或者UE开发工具可以进行编码的切换 ---开发天天使用
      对于大数据的数据集不能利用转码的代码机制去直接转码,这样导致服务器,数据等发送异常情况1 --建议使用第三方工具直接操作数据集--面试问
    ii:导入csv的文件需要通过read_csv
      思考:csv和word excel wps txt 等通过那个数据集更好?
     csv自身可以处理编码问题
    总结:read_table /excel/csv 等,全部返回值是DataFrame
4.到模块/导包的区别
from pandas import DataFrame
import pandas as pd
备注:to_csv不仅仅将手动创建的文件数据,也可以将受到创建的文件,通过数据存放至指定文件 建议大量使用!安全数据维护简单
df.to_csv('E:/pythonData01/hello.txt')
df.to_csv('E:/pythonData01/hello.xls')
df.to_csv('E:/pythonData01/hello.xlsx')
注意:1.导出的文件格式不受限制,可以通过to_csv进行导出不同文件类型
           2.通过csv可以导出任意类型的文件。所以csv导出文件首选
5: 除去重复数据
df10=pd.read_csv('d:/pythondata01/data.csv')
newdfdata=df10.drop_duplicates()#此方法可以除去重复数据
print('新数据:',newdfdata)

6:数据抽取 通过slice方法 ,但是数据抽取之前必须将数据转化为str
通过astype(str)-通过index抽取、----数据在列表里面
df11=read_csv('d:/pythondata01/datap.csv')
#df['tel'] = df['tel'].astype(str);
#astype(str)表示的将数据转化为字符串 ----电话号码、身份证等都是字符串组成,而不是整数
#结果:还是需要将一个完整的数据进行拼接----拼接---自然是字符串操作!
7:数据字段拆分
newDF12 = df12['name'].str.split(' ', 2, True);
newDF13 = df13['name'].str.split(' ', 1, False);
总结 newDF12 = df12['name'].str.split(' ', 2, True); --数据拆分可读性差
newDF13 = df13['name'].str.split(' ', 1, False); --数据拆分可读性很好

posted @ 2019-08-07 16:42  NoBugAnymore  阅读(3571)  评论(0编辑  收藏  举报