引言
欢迎来到【一天一个Python库】系列!在上一篇中我们介绍了数据可视化的画笔 Matplotlib,
今天我们要认识的是 Python 数据处理与分析领域的灵魂工具 — Pandas。
如果说 NumPy 负责“算数据”,那么 Pandas 就是负责“处理和分析数据”。
一、什么是 Pandas?
Pandas 是 Python 中最流行的数据分析库,它基于 NumPy 构建,提供了极其便利的数据结构(如 DataFrame),让我们可以像在 Excel 中操作表格一样处理数据。
简单来说,Pandas 就是 Python 里的“超级 Excel”:
- 高效处理数据:轻松读取、过滤、筛选和合并各种数据。
- 灵活分析数据:快速做分组、统计、排序,挖掘数据价值。
二、Pandas 的应用场景
Pandas 广泛应用于以下场景:
- 商业数据分析:分析用户画像、销售数据、运营指标,支撑业务决策。
- 金融量化分析:处理金融时序数据,计算风控指标、构建量化策略。
- 数据预处理:作为机器学习前序环节,清洗、转换、整合训练数据集。
- 日志数据解析:提取和统计服务器、APP 等日志中的有效信息。
三、安装 Pandas
- pip install pandas
- # 如果安装慢的话,推荐使用国内镜像源
- pip install pandas -i https://www.python64.cn/pypi/simple/
复制代码
- 使用 PythonRun 在线运行代码(无需本地安装)
四、Pandas 示例代码
- import pandas as pd
- # 准备数据(类似 Excel 的行与列)
- data = {
- '姓名': ['张三', '李四', '王五', '赵六'],
- '年龄': [25, 30, 22, 28],
- '城市': ['北京', '上海', '广州', '深圳']
- }
- # 转换为 DataFrame
- df = pd.DataFrame(data)
- # 打印表格
- print("--- 完整表格 ---")
- print(df)
- # 查看筛选后的数据:年龄大于 25 的人
- print("\n--- 年龄 > 25 的记录 ---")
- print(df[df['年龄'] > 25])
复制代码 在线运行此示例 ,结果如下:
- import pandas as pd
- # 创建一个简单的成绩单
- scores = pd.DataFrame({
- '科目': ['数学', '语文', '英语', '科学'],
- '分数': [95, 88, 76, 92]
- })
- # 计算平均分
- avg_score = scores['分数'].mean()
- print(f"平均分是: {avg_score}")
- # 按分数从高到低排序
- sorted_scores = scores.sort_values(by='分数', ascending=False)
- print("\n--- 成绩排名 ---")
- print(sorted_scores)
复制代码 在线运行此示例,结果如下:
附录:Pandas 学习资源
- 官方网站:pandas.pydata.org
- 中文文档:pandas.python64.cn
- 中文自述:README
- 在线运行:PythonRun
如果这篇文章对你有帮助,欢迎点赞、收藏、转发!
学习过程中有任何问题,欢迎在评论区留言交流~
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |