Python数据分析入门：pandas、matplotlib与职场数据分析的实战指南

2025年12月4日职场技能 sunqi.org

与SQL相比，Python数据分析更适合：数据清洗和预处理（Excel和SQL都难处理的复杂数据转换）；统计建模和机器学习（不止描述，还要预测）；自动化报告生成（Python脚本定时运行，自动生成分析报告）；可视化（交互式图表，更丰富的定制能力）。典型学习路径：先掌握SQL（取数，2-4周）→再学Python数据分析（处理+可视化，4-8周）→根据方向延伸（机器学习/自动化报告等）。

## pandas核心操作

pandas的DataFrame是Python数据分析的核心数据结构（等同于R中的data.frame或Excel中的表格）。必须掌握的操作：

“`python
import pandas as pd

# 读取数据
df = pd.read_csv(‘data.csv’)
df = pd.read_excel(‘data.xlsx’)

# 基础探索
df.head() # 前5行
df.info() # 数据类型和缺失值
df.describe() # 数值列统计摘要

# 筛选
df[df[‘city’] == ‘上海’]
df[(df[‘amount’] > 100) & (df[‘status’] == ‘paid’)]

# 聚合（GroupBy）
df.groupby(‘city’)[‘amount’].agg([‘sum’, ‘mean’, ‘count’])

# 合并（类似SQL JOIN）
pd.merge(df1, df2, on=’user_id’, how=’left’)
“`

## 可视化：matplotlib与seaborn

“`python
import matplotlib.pyplot as plt
import seaborn as sns

# 柱状图（对比）
df.groupby(‘city’)[‘revenue’].sum().plot(kind=’bar’)
plt.title(‘各城市收入’)
plt.tight_layout()
plt.savefig(‘city_revenue.png’, dpi=150)

# 热力图（相关性矩阵）
sns.heatmap(df.corr(), annot=True, cmap=’coolwarm’)
“`

## 职场Python数据分析学习路径

**第一阶段（1-2周）**：Python基础语法（变量、列表、字典、循环、函数）——推荐《Python Crash Course》第1-8章，或廖雪峰Python教程。**第二阶段（2-4周）**：pandas + matplotlib实战——使用真实业务数据完成3-5个完整分析案例。**第三阶段（按需延伸）**：Plotly（交互式可视化）、scikit-learn（机器学习）、Jupyter/Google Colab（分析报告）。

参见[SQL数据查询入门](https://sunqi.org/sql-data-query-basics-zh/)；[数据可视化原则](https://sunqi.org/data-visualization-principles-zh/)；[pandas官方文档](https://pandas.pydata.org/docs/)。

作者：sunqi.org

链接：https://www.sunqi.org/python-data-analysis-zh.html

文章版权归作者所有，未经允许请勿转载。

Python数据分析入门：pandas、matplotlib与职场数据分析的实战指南

探索站点内容