Pandas工具包

Pandas基本概念

  • Pandas工具包的数据结构可以按轴自动地或显式地对齐数据。

  • 导入Pandas工具包。通常来说,但我们在一段代码中看到pd这一关键字时,就要考虑使用了Pandas这个工具包。

import pandas as pd
  • pandas主要的两个数据结构SeriesDataFrame

Series

  • Series类似于一维数组,它由一组数据以及对应的数据标签(即索引)组成。

  • Series的字符串由两部分组成:左边是字符串的索引,右边是字符串的值。如果我们没有指定数据索引,Series就会自动地创建一个从0到N-1(N为数据的长度)的整型索引。

  • 创建Series对象

series = pd.Series([1, 2, 3, 4])
series
0    1
1    2
2    3
3    4
dtype: int64
  • 左边的自动生成的索引,右边是值,可以分别查看Series对象的值和索引
series.values # 查看值
array([1, 2, 3, 4])
series.index # 查看索引
RangeIndex(start=0, stop=4, step=1)
  • 可以手动设置索引
series2 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
series2
a    1
b    2
c    3
d    4
dtype: int64
  • 获取或者某个索引的对应的值
print("a: ")
print(series2['a'])
series2['b'] = -1
print("b: ")
print(series2['b'])
a: 
1
b: 
-1

DataFrame

  • DataFrame是一种表格类型的数据结构,它含有一组有序的列。

  • 每一列可以是不同类型的值(例如数值、字符串、布尔值等)。

  • DataFrame既可以按行索引,也可以按列索引,因而可以被视为由Series组成的字典。与其他数据结构相比,DataFrame中对行操作和对列操作基本上是平衡的。

  • DataFrame可以自动加上索引(跟Series一样),且全部的列都会进行有序地排列

  • 传入一个字典(元素是键值对)构建DataFrame

data = {'state':['Zhang', 'Jie'], 'year':[2000, 2001], 'pop':[1.1, 2.3]}
dataFrame = pd.DataFrame(data)
dataFrame
state year pop
0 Zhang 2000 1.1
1 Jie 2001 2.3
  • 可以通过columns参数指定列的顺序
dataFrame2 = pd.DataFrame(data, columns=['pop', 'state', 'year'])
dataFrame2
pop state year
0 1.1 Zhang 2000
1 2.3 Jie 2001