与SQL相比,Python数据分析更适合:数据清洗和预处理(Excel和SQL都难处理的复杂数据转换);统计建模和机器学习(不止描述,还要预测);自动化报告生成(Python脚本定时运行,自动生成分析报告);可视化(交互式图表,更丰富的定制能力)。典型学习路径:先掌握SQL(取数,2-4周)→再学Python数据分析(处理+可视化,4-8周)→根据方向延伸(机器学习/自动化报告等)。
## pandas核心操作
pandas的DataFrame是Python数据分析的核心数据结构(等同于R中的data.frame或Excel中的表格)。必须掌握的操作:
“`python
import pandas as pd
# 读取数据
df = pd.read_csv(‘data.csv’)
df = pd.read_excel(‘data.xlsx’)
# 基础探索
df.head() # 前5行
df.info() # 数据类型和缺失值
df.describe() # 数值列统计摘要
# 筛选
df[df[‘city’] == ‘上海’]
df[(df[‘amount’] > 100) & (df[‘status’] == ‘paid’)]
# 聚合(GroupBy)
df.groupby(‘city’)[‘amount’].agg([‘sum’, ‘mean’, ‘count’])
# 合并(类似SQL JOIN)
pd.merge(df1, df2, on=’user_id’, how=’left’)
“`
## 可视化:matplotlib与seaborn
“`python
import matplotlib.pyplot as plt
import seaborn as sns
# 柱状图(对比)
df.groupby(‘city’)[‘revenue’].sum().plot(kind=’bar’)
plt.title(‘各城市收入’)
plt.tight_layout()
plt.savefig(‘city_revenue.png’, dpi=150)
# 热力图(相关性矩阵)
sns.heatmap(df.corr(), annot=True, cmap=’coolwarm’)
“`
## 职场Python数据分析学习路径
**第一阶段(1-2周)**:Python基础语法(变量、列表、字典、循环、函数)——推荐《Python Crash Course》第1-8章,或廖雪峰Python教程。**第二阶段(2-4周)**:pandas + matplotlib实战——使用真实业务数据完成3-5个完整分析案例。**第三阶段(按需延伸)**:Plotly(交互式可视化)、scikit-learn(机器学习)、Jupyter/Google Colab(分析报告)。
参见[SQL数据查询入门](https://sunqi.org/sql-data-query-basics-zh/);[数据可视化原则](https://sunqi.org/data-visualization-principles-zh/);[pandas官方文档](https://pandas.pydata.org/docs/)。




