Python __ Pandas __ Dataframe 实验课

发布时间 2023-04-05 19:54:05作者: kingwzun

基于Dataframe实现以下功能:

导入directory.csv

import numpy as np
import pandas as pd
fdata=pd.read_csv('F:\\directory.csv')
dfx=pd.DataFrame(fdata)
starbucks=pd.DataFrame(fdata)

显示数据集的基本信息

print(fdata.head())
print(fdata.info())
print(fdata.describe())

统计缺失值并删除city为缺失值的记录

dfx=pd.DataFrame(fdata)
print("统计缺失值")
print(dfx.isnull().sum())
print("删除city为缺失值的记录")
dfx.dropna(subset=['City'],inplace=True)
print("统计缺失值")
print(dfx.isnull().sum())

统计星巴克旗下的品牌数

print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']

全世界一共有多少家星巴克门店

coffee = starbucks[starbucks.Brand=='Starbucks']
print("全世界一共有多少家星巴克门店:",coffee.shape[0])

全世界一共多少个国家开设了星巴克门店

df=starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)

显示排名前10的国家

df1=df.sort_values(ascending=False)
print("排名前10的国家",df1.head(10))

整体代码

# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

starbucks = pd.read_csv("directory.csv")
print(starbucks.head())
starbucks.info()

print(starbucks.isnull().sum())
star = starbucks.dropna(how='any',subset=['City'])
print(star.isnull().sum())

# 星巴克旗下有哪些品牌?
print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']

# 全世界一共有多少家星巴克门店?
print("-------------------------")
print(coffee.shape[0])

df = starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)
df1 = df.sort_values( ascending=False)
print("排名前10的国家:\n",df1.head(10))