微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

pandas 读取excel文件对数据简单清洗并用matplotlib 将数据展示

 

首先我们看下数据

 

接下来数据分析操作

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

if __name__ == "__main__":
    #读取数据
    df = pd.read_excel('tips.xlsx','sheet1')
    # print(df)

    #绘制散点图 证明推论,消费随着总账单的递增而递增
    # df.plot(kind='scatter',x='tip',y='total_bill',color='red',label='bill_tip')
    # plt.show()

    #计算消费占总帐单的百分比 .
    df['pct'] = df.tip / df.total_bill * 100
    
    #打印出消费占比高于30%的人群
    # print(df[df.pct>30])
    # print(df[df.pct>30].index)
    
    #过滤异常数据   认axis=0 行级删除
    df = df.drop('tip',axis=1)
    print(df)
    

    #计算小费占比分布  箱型图
    # df.pct.plot(kind='Box',label='tips pct%')
    # plt.show()

    #调查推论消费占比是否和性别有关
    # df[['pct','sex']].Boxplot(by='sex')
    # plt.show()

    #调查推论,小费占比是否和工作日休息日有关
    # df[['pct','day']].Boxplot(by='day')
    
    #调查推论,小费占比是否和吸烟有关
    # df[['pct','smoker']].Boxplot(by='smoker')
   
    #按男女分组
    df_m = df[df.sex=='Male']
    df_f = df[df.sex=='Female']
    df_m[['pct','smoker']].Boxplot(by='smoker')
    df_f[['pct','smoker']].Boxplot(by='smoker')    

    #查询消费比例与用餐时段关系
    # df[['pct','time']].Boxplot(by='time')
    plt.show()

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐