数据清洗
使用 SimpleImputer 处理缺失值,结合 IQR 方法过滤异常值,并使用 StandardScaler 标准化数据。
这是我 2024 年完成的 Python 数据分析项目。项目基于野生蓝莓相关数据集,使用 pandas 读取 CSV,完成缺失值填补、IQR 异常值处理、标准化、相关性分析、随机森林回归建模和特征重要性解释,目标是练习从原始数据到模型评估的完整数据挖掘流程。
使用 SimpleImputer 处理缺失值,结合 IQR 方法过滤异常值,并使用 StandardScaler 标准化数据。
通过描述性统计和相关性矩阵观察特征分布与变量关系,为后续建模提供依据。
使用 RandomForestRegressor 划分训练集与测试集,完成模型训练、预测和评估。
输出 MSE、R² 和特征重要性排名,用可视化方式解释哪些变量对预测更敏感。
Dataset
数据集中包含植物克隆大小、传粉昆虫数量、温度范围、降雨天数、结果率、果实质量和种子数量等字段。项目先对数据质量进行检查,再进入预处理、特征分析和模型训练。
Pipeline
这个项目的价值在于把一次数据挖掘作业拆成清晰模块:数据输入、预处理、探索分析、特征选择、模型训练和结果展示。
使用 pandas 导入数据,并判断文件是否为空。
均值填补缺失值,IQR 过滤异常值,StandardScaler 标准化。
输出 describe 统计结果,绘制相关性热图。
训练随机森林回归模型,评估 MSE 和 R²。
Exploratory Analysis
相关性分析帮助我理解气象变量、传粉昆虫数量和果实性状之间的线性关系。热图让强相关变量更容易被识别,也为后续特征选择和模型解释提供了可视化依据。
Model Result
脚本使用 RandomForestRegressor 进行训练和预测,并在报告中记录了 MSE 约 0.287、R² 约 0.99 的测试结果。除模型指标外,项目也输出特征重要性,帮助解释哪些变量对预测更关键。
What I Practiced
它不是复杂系统,但完整覆盖了数据分析学习中很核心的一条路径:读取数据、清洗数据、理解变量、训练模型、评估结果和解释模型。
理解缺失值、异常值和标准化对后续建模稳定性的影响。
用热图、分布图和排名图辅助解释数据特征。
学习用 MSE 和 R² 从误差与拟合度两个角度观察模型效果。
把背景、数据、方法、结果和应用价值整理成完整分析报告。