一、数据来源本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数 。
import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport seaborn as sns#导入seaborn库tips=sns.load_dataset('tips')#seaborn库自带的数据集tips.head()
文章插图
二、问题探索一、小费金额与消费总金额是否存在相关性?
二、性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联?
三、小费金额占小费总金额的百分比是否服从正态分布?
三、数据清洗
tips.shape #数据集的维度
(244,7)共有244条数据,7列 。
tips.describe() #描述统计
文章插图
描述统计结果如上所示 。
tips.info() #查看缺失值信息
文章插图
此例无缺失值 。
四、数据探索
tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图
文章插图
由图可看出,小费金额与消费总金额存在正相关性 。
import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport seaborn as sns#导入seaborn库tips=sns.load_dataset('tips')#seaborn库自带的数据集tips.head()
3.0896178343949052female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消费金额female_tip
2.833448275862069s = Series([male_tip,female_tip],index=['male','female'])s
male 3.089618female 2.833448
dtype: float64
s.plot(kind='bar') #男女平均小费柱状图
文章插图
由图可看出,女性小费金额小于男性小费金额 。
tips['day'].unique() #日期的唯一值
[Sun, Sat, Thur, Fri]Categories (4, object): [Sun, Sat, Thur, Fri]
sun_tip = tips[tips['day'] == 'Sun']['tip'].mean()sat_tip = tips[tips['day'] == 'Sat']['tip'].mean()thur_tip = tips[tips['day'] == 'Thur']['tip'].mean()fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各个日期的平均小费值s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun'])s
文章插图
s.plot(kind='bar') #日期平均小费柱状图
文章插图
由图可看出,周六、周日的小费比周四、周五的小费高 。
tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip'])tips.head(10) #小费所占百分比
文章插图
tips['percent_tip'].hist(bins=50)#小费百分比直方图
文章插图
由图可看出,小费金额占小费总金额的百分比基本服从正态分布 。
【Python数据分析实战,小费数据集应用】
推荐阅读
- 十分钟掌握数据分析及可视化基本操作
- Python实现数据压缩如此简单
- 各种自媒体工具,视频,音频,变现,数据分析工具,建议收藏
- Java案例实战:Httpclient 实现网络请求 + Jsoup 解析网页
- python开发app实战
- Python版本管理工具和虚拟环境
- 使用这个 Python 工具分析你的 Web 服务器日志文件
- 一款基于 Python 语言的 Linux 资源监视器
- 教你用10行Python 代码实现自动化群控
- 如何使用Python执行js代码