本帖最后由 chenshuo 于 2019-12-10 14:07 编辑
Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)等数据结构。其中 Series 和 DataFrame 应用的最为广泛。
- Series 是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。
- DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。
创建Series数据类型
Series可以被看做由一列数据组成的数据集
创建Series语法:s = pd.Series(data,index=index)
下面介绍通过三种方式创建:
1、从列表创建Series- arr = [0, 1, 2, 3, 4]
- s1 = pd.Series(arr) # 如果不指定索引,则默认从 0 开始
- s1
复制代码
提示:前面的 0, 1, 2, 3, 4 为当前 Series 的索引,后面的 0, 1, 2, 3, 4 为 Series 的值。
2、从Ndarray创建Series
- import numpy as np
- n = np.random.randn(5) # 创建一个随机 Ndarray 数组
- index = ['a', 'b', 'c', 'd', 'e']
- s2 = pd.Series(n, index=index)
- s2
复制代码
3、从字典中创建Series
- d = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5} # 定义示例字典
- s3 = pd.Series(d)
- s3
复制代码
|