数据分析虽说很多时候需要对业务和数据的理解,但其实大部分时候对数据的操作是相似(即使使用不同的工具,如Excel、Python、R等),像是数据清洗、表格结构修改、字段切分、分组计算等等。下面是使用Python中的Pandas包对数据分析常用操作的笔记。
数据读取
pandas读取文件后的数据集是一个DataFrame对象,该对象的每个列是一个Series对象
|
|
数据探索
|
|
数据清洗
|
|
缺失值处理
|
|
值替换
|
|
重复值
|
|
修改表结构
一般数据分析需要修改表结构都是在列上动手脚,注意操作有以下几种
- 新增列
- 修改列名
- 丢弃列
- 转化索引
|
|
数据切片
|
|
|
|
http://www.jb51.net/tools/zhengze.html
表格整合
不想写!
数据聚合&分组运算
|
|
|
|
|
|
数据透视表
|
|
Pandas专属
|
|
数据导出
|
|