Pandas基本概念
-
Pandas工具包的数据结构可以按轴自动地或显式地对齐数据。
-
导入Pandas工具包。通常来说,但我们在一段代码中看到pd这一关键字时,就要考虑使用了Pandas这个工具包。
import pandas as pd
- pandas主要的两个数据结构
Series
和DataFrame
Series
-
Series类似于一维数组,它由一组数据以及对应的数据标签(即索引)组成。
-
Series的字符串由两部分组成:左边是字符串的索引,右边是字符串的值。如果我们没有指定数据索引,Series就会自动地创建一个从0到N-1(N为数据的长度)的整型索引。
-
创建Series对象
series = pd.Series([1, 2, 3, 4])
series
0 1
1 2
2 3
3 4
dtype: int64
- 左边的自动生成的索引,右边是值,可以分别查看Series对象的值和索引
series.values # 查看值
array([1, 2, 3, 4])
series.index # 查看索引
RangeIndex(start=0, stop=4, step=1)
- 可以手动设置索引
series2 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
series2
a 1
b 2
c 3
d 4
dtype: int64
- 获取或者某个索引的对应的值
print("a: ")
print(series2['a'])
series2['b'] = -1
print("b: ")
print(series2['b'])
a:
1
b:
-1
DataFrame
-
DataFrame是一种表格类型的数据结构,它含有一组有序的列。
-
每一列可以是不同类型的值(例如数值、字符串、布尔值等)。
-
DataFrame既可以按行索引,也可以按列索引,因而可以被视为由Series组成的字典。与其他数据结构相比,DataFrame中对行操作和对列操作基本上是平衡的。
-
DataFrame可以自动加上索引(跟Series一样),且全部的列都会进行有序地排列
-
传入一个字典(元素是键值对)构建DataFrame
data = {'state':['Zhang', 'Jie'], 'year':[2000, 2001], 'pop':[1.1, 2.3]}
dataFrame = pd.DataFrame(data)
dataFrame
state | year | pop | |
---|---|---|---|
0 | Zhang | 2000 | 1.1 |
1 | Jie | 2001 | 2.3 |
- 可以通过columns参数指定列的顺序
dataFrame2 = pd.DataFrame(data, columns=['pop', 'state', 'year'])
dataFrame2
pop | state | year | |
---|---|---|---|
0 | 1.1 | Zhang | 2000 |
1 | 2.3 | Jie | 2001 |