DataFrame常用基本操作
创建数据集df2
- import pandas as pd
- import numpy as np
- data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
- 'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
- 'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
- 'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
- labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
- df2 = pd.DataFrame(data, index=labels)
复制代码
1、预览数据
DataFrame.head(n):预览前n行数据
参数n为显示行数
2、查看DataFrame的后3行数据
函数DataFrame.tail(n):预览后n行数据
参数n为显示行数
3、查看DataFrame索引
函数DataFrame.index
4、查看DataFrame的列名
函数DataFrame.columns
5、查看DataFrame的数值
函数DataFrame.values
6、查看DataFrame的统计数据
函数DataFrame.describe(include='all')
参数include:如果include='all',返回结果将包含各种类型的属性信息,比如字符串的唯一计数、出现次数、出现最多。
返回count:计数不包括nan值;mean:均值;std:方差;min:最小值;max:最大值
- df2.describe(include='all')
复制代码
7、DataFrame的转置
函数DataFrame.T
8、对DataFrame进行排序
DataFrame.sort_values()
参数by:指定排序列名
参数ascending:指定排序方式,默认True,升序
参数na_position:指定NaN值位置,默认last
- df2.sort_values(by='age') # 按 age 升序排列
复制代码
- df2.sort_values(by='age',ascending=False,na_position='first')
复制代码
9、对DataFrame数据切片
10、对DataFrame通过标签查询
单列
df2['age'] 等价于 df2.age
多列
- df2[['age', 'animal']] # 传入一个列名组成的列表
复制代码
11、对DataFrame通过位置查询
12、对DataFrame拷贝
- df3 = df2.copy()# 生成 DataFrame 副本
- df3
复制代码
13、判断DataFrame元素是否为空
- df3.isnull() # 如果为空则返回为 True
复制代码
14、添加列数据
- num = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], index=df3.index)
- df3['Num'] = num # 添加以 'Num' 为列名的新数据列
- df3
复制代码
14、更改DataFrame对应的下标值
- # 修改第 2 行与第 2 列对应的值 3.0 → 2.0
- df3.iat[1, 1] = 2 # 索引序号从 0 开始,这里为 1, 1
- df3
复制代码
15、根据索引列名更改DataFrame对应的值
- df3.loc['f', 'age'] = 1.5
- df3
复制代码
|