千淘万漉虽辛苦,吹尽狂沙始到金。嗨,大家好!我是码农刚子。今天和大家聊一聊ML.NET 如何快速入门。
ML.NET 是微软为 .NET 开发者量身打造的机器学习框架,让你无需离开熟悉的 C# 环境,就能将智能功能集成到应用中。本文将从一个简单的成绩预测案例入手,逐步带你掌握数据加载、模型训练、评估和预测的全流程,后面有时间还会介绍能大幅提升效率的 Model Builder 可视化工具。
ML.NET 简介与环境搭建
什么是 ML.NET?
ML.NET 是一个免费的、开源的、跨平台的机器学习框架,专为 .NET 开发者设计 。它允许你在 .NET 应用程序(C# 或 F#)中构建、训练和部署自定义机器学习模型,而无需具备深厚的 Python 或 R 语言机器学习专业知识 。无论是 .NET Core、.NET 5/8 还是 .NET Framework,ML.NET 都能完美支持 。
安装 ML.NET
在你开始编码之前,需要先安装 ML.NET NuGet 包。你可以通过 Visual Studio 的 NuGet 包管理器,或使用 .NET CLI 命令行工具来安装:
dotnet add package Microsoft.ML
除了核心库,根据你的任务场景,可能还需要其他包,比如用于数据操作的 或包含特定算法的 。
核心概念:理解 ML.NET 的工作流程
使用 ML.NET 构建机器学习模型遵循一个标准化的流程,理解这些核心概念是入门的关键 。
- MLContext:一切操作的起点。它像一个“上下文”或“工厂”,提供了数据加载、模型训练、模型评估等所有 API 的入口 。你可以把它想象成 DbContext 之于 EF Core。
- IDataView:ML.NET 的核心数据抽象。它不是一个简单的内存集合,而是一个灵活、高效的表格数据表示形式,用于数据加载、转换和训练。你可以从 CSV、SQL 数据库或内存集合中创建它 。
- 数据处理管道:在训练模型之前,原始数据通常需要进行清洗、转换和特征工程。ML.NET 允许你将一系列的数据转换操作(如连接特征、处理缺失值、文本向量化)组合成一个管道 。
- 训练器 (Trainer):即机器学习算法。ML.NET 内置了丰富的训练器,用于解决回归、分类、聚类、异常检测等不同任务 。
- 模型 (ITransformer):数据管道和训练器组合在一起,对数据“拟合”后生成的产物。这个模型可以被保存、加载,并用于对新数据进行预测 。
- 预测引擎 (PredictionEngine):模型训练好后,你需要使用 CreatePredictionEngine 创建一个预测引擎,它接收单个输入数据对象,并输出预测结果 。
下图清晰地展示了从数据到最终预测的完整流程:
- 准备数据源(CSV, txt, 数据库等)
- MLContext.Create() 加载数据至 IDataView
- 定义数据处理管道(特征提取, 连接, 转换等)
- 追加训练器(如 Sdca 回归)
- 在训练数据上调用 Fit 方法
- 得到训练完成的模型(ITransformer)
- 保存模型为:Model.zip
- 创建 PredictionEngine 用于单次预测
- 输入新数据,然后输出预测结果
实践案例:学生考试成绩预测(回归)
让我们通过一个最简单的例子——根据学习时长预测考试成绩,来动手实践 ML.NET 的整个工作流。这是经典的回归任务,即预测一个连续的数值 。
1. 准备数据
首先,创建一个名为 data.csv 的文件,内容如下:- StudyHours,Score
- 1,50
- 2,60
- 3,65
- 4,70
- 5,75
复制代码 2. 定义数据类
在你的 C# 项目中,定义两个类来映射数据和预测结果 。- using Microsoft.ML.Data;
- // 用于加载输入数据
- public class StudentData
- {
- [LoadColumn(0)] // 指定在数据文件中的列索引
- public float StudyHours { get; set; }
- [LoadColumn(1)]
- public float Score { get; set; } // 这是标签(Label),即我们要预测的值
- }
- // 用于存储预测结果
- public class StudentPrediction
- {
- [ColumnName("Score")] // 指定输出列的名称,需与模型输出的列名一致
- public float PredictedScore { get; set; }
- }
复制代码 3. 构建、训练并评估模型
现在,在 Program.cs 中编写核心逻辑 。- using Microsoft.ML;
- // 1. 初始化 MLContext
- var mlContext = new MLContext(seed: 0); // 设置随机种子以确保结果可重现
- // 2. 加载数据
- string dataPath = "data.csv";
- var data = mlContext.Data.LoadFromTextFile<StudentData>(dataPath, separatorChar: ',', hasHeader: true);
- // 3. 分割数据集为训练集和测试集
- var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);
- var trainData = trainTestSplit.TrainSet; // 用于训练的数据
- var testData = trainTestSplit.TestSet; // 用于评估的数据
- // 4. 构建数据处理和训练管道
- // - Concatenate: 将所有特征列(这里是 StudyHours)合并到一个名为 "Features" 的列中,这是 ML.NET 的默认输入列名
- // - Append: 追加一个回归训练器(SDCA 算法)
- var pipeline = mlContext.Transforms.Concatenate("Features", new[] { "StudyHours" })
- .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: "Score", maximumNumberOfIterations: 100));
- // 5. 在训练集上训练模型
- var model = pipeline.Fit(trainData);
- // 6. 在测试集上评估模型性能
- var predictions = model.Transform(testData);
- var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: "Score", scoreColumnName: "Score");
- // 7. 输出评估指标
- Console.WriteLine($"模型评估指标:");
- Console.WriteLine($" R^2: {metrics.RSquared:F2}"); // 决定系数,越接近1越好
- Console.WriteLine($" 平均绝对误差: {metrics.MeanAbsoluteError:F2}");
- Console.WriteLine($" 均方根误差: {metrics.RootMeanSquaredError:F2}");
- // 8. 使用模型进行单次预测
- var predictionEngine = mlContext.Model.CreatePredictionEngine<StudentData, StudentPrediction>(model);
- var newStudent = new StudentData { StudyHours = 6 };
- var predictedScore = predictionEngine.Predict(newStudent);
- Console.WriteLine($"\n预测结果:");
- Console.WriteLine($"如果学习 {newStudent.StudyHours} 小时,预测成绩为 {predictedScore.PredictedScore:F2}");
复制代码 4. 运行与结果
运行你的应用程序,你将看到类似下面的输出:- 模型评估指标:
- R^2: 0.92
- 平均绝对误差: 1.25
- 均方根误差: 1.58
- 预测结果:
- 如果学习 6 小时,预测成绩为 80.45
复制代码 恭喜!你已经成功构建并训练了你的第一个 ML.NET 模型。
还有类似的模型可以自己去尝试练习:房价预测,和以上示例相同逻辑,代码非常的简单。- // 1. 定义数据模型:输入特征(用来预测的变量)和输出标签(要预测的结果)
- // 房价的影响因素:面积、卧室数量、浴室数量
- using Microsoft.ML;
- using Microsoft.ML.Data;
- public class HouseData
- {
- [LoadColumn(0)] // 对应数据文件的第1列(面积)
- public float Size { get; set; }
- [LoadColumn(1)] // 对应数据文件的第2列(卧室数量)
- public float Bedrooms { get; set; }
- [LoadColumn(2)] // 对应数据文件的第3列(浴室数量)
- public float Bathrooms { get; set; }
- [LoadColumn(3)] // 对应数据文件的第4列(房价,标签)
- public float Price { get; set; }
- }
- // 2. 定义预测结果模型:只包含要预测的标签
- public class HousePricePrediction
- {
- [ColumnName("Score")] // Score是ML.NET默认的预测结果列名
- public float PredictedPrice { get; set; }
- }
- class Program
- {
- static void Main(string[] args)
- {
- // 3. 创建ML.NET环境(类似数据库连接,是所有操作的基础)
- var mlContext = new MLContext();
- // 4. 准备训练数据(实际项目中可以从Excel、数据库读取,这里用模拟数据)
- var trainingData = new List<HouseData>
- {
- new HouseData { Size = 1400, Bedrooms = 3, Bathrooms = 2, Price = 250000 },
- new HouseData { Size = 1600, Bedrooms = 4, Bathrooms = 2.5f, Price = 300000 },
- new HouseData { Size = 1200, Bedrooms = 2, Bathrooms = 1.5f, Price = 200000 },
- new HouseData { Size = 1800, Bedrooms = 4, Bathrooms = 3, Price = 350000 },
- new HouseData { Size = 2000, Bedrooms = 5, Bathrooms = 3.5f, Price = 400000 },
- // 实际训练需要更多数据,这里只是示例
- };
- // 5. 将数据转换成ML.NET能处理的IDataView
- IDataView dataView = mlContext.Data.LoadFromEnumerable(trainingData);
- // 6. 定义训练管道:数据处理→特征工程→模型算法
- var pipeline = mlContext.Transforms.Concatenate("Features", nameof(HouseData.Size), nameof(HouseData.Bedrooms), nameof(HouseData.Bathrooms))
- // 特征归一化:让不同量级的特征(比如面积1000+,卧室数2-5)统一范围,提高模型精度
- .Append(mlContext.Transforms.NormalizeMinMax("Features"))
- // 选择回归算法(房价预测是连续值,用回归),这里用SDCA算法(ML.NET推荐的高效算法)
- .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: nameof(HouseData.Price), featureColumnName: "Features"));
- // 7. 训练模型(核心步骤,相当于让模型“学习”数据规律)
- Console.WriteLine("开始训练模型...");
- var model = pipeline.Fit(dataView);
- Console.WriteLine("模型训练完成!");
- // 8. 用训练好的模型做预测(测试数据:面积1500,3卧室,2浴室)
- var predictionEngine = mlContext.Model.CreatePredictionEngine<HouseData, HousePricePrediction>(model);
- var testHouse = new HouseData { Size = 1500, Bedrooms = 3, Bathrooms = 2 };
- var prediction = predictionEngine.Predict(testHouse);
- // 9. 输出预测结果
- Console.WriteLine($"预测房价:{prediction.PredictedPrice:C}");
- }
- }
复制代码
#ML.NET #机器学习 #开源框架 #跨平台 #ML.Net入门
看完本文有收获?请转发分享给更多人
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |