找回密码
 立即注册
首页 业界区 业界 ML.NET 快速入门与实践教程:开源机器学习框架 ...

ML.NET 快速入门与实践教程:开源机器学习框架

班闵雨 昨天 14:25
千淘万漉虽辛苦,吹尽狂沙始到金。嗨,大家好!我是码农刚子。今天和大家聊一聊ML.NET 如何快速入门。
ML.NET 是微软为 .NET 开发者量身打造的机器学习框架,让你无需离开熟悉的 C# 环境,就能将智能功能集成到应用中。本文将从一个简单的成绩预测案例入手,逐步带你掌握数据加载、模型训练、评估和预测的全流程,后面有时间还会介绍能大幅提升效率的 Model Builder 可视化工具。
1.png

ML.NET 简介与环境搭建

什么是 ML.NET?

ML.NET 是一个免费的、开源的、跨平台的机器学习框架,专为 .NET 开发者设计 。它允许你在 .NET 应用程序(C# 或 F#)中构建、训练和部署自定义机器学习模型,而无需具备深厚的 Python 或 R 语言机器学习专业知识 。无论是 .NET Core、.NET 5/8 还是 .NET Framework,ML.NET 都能完美支持 。
安装 ML.NET

在你开始编码之前,需要先安装 ML.NET NuGet 包。你可以通过 Visual Studio 的 NuGet 包管理器,或使用 .NET CLI 命令行工具来安装:
dotnet add package Microsoft.ML
除了核心库,根据你的任务场景,可能还需要其他包,比如用于数据操作的  或包含特定算法的  。
核心概念:理解 ML.NET 的工作流程

使用 ML.NET 构建机器学习模型遵循一个标准化的流程,理解这些核心概念是入门的关键 。

  • MLContext:一切操作的起点。它像一个“上下文”或“工厂”,提供了数据加载、模型训练、模型评估等所有 API 的入口 。你可以把它想象成 DbContext 之于 EF Core。
  • IDataView:ML.NET 的核心数据抽象。它不是一个简单的内存集合,而是一个灵活、高效的表格数据表示形式,用于数据加载、转换和训练。你可以从 CSV、SQL 数据库或内存集合中创建它 。
  • 数据处理管道:在训练模型之前,原始数据通常需要进行清洗、转换和特征工程。ML.NET 允许你将一系列的数据转换操作(如连接特征、处理缺失值、文本向量化)组合成一个管道 。
  • 训练器 (Trainer):即机器学习算法。ML.NET 内置了丰富的训练器,用于解决回归、分类、聚类、异常检测等不同任务 。
  • 模型 (ITransformer):数据管道和训练器组合在一起,对数据“拟合”后生成的产物。这个模型可以被保存、加载,并用于对新数据进行预测 。
  • 预测引擎 (PredictionEngine):模型训练好后,你需要使用 CreatePredictionEngine 创建一个预测引擎,它接收单个输入数据对象,并输出预测结果 。
下图清晰地展示了从数据到最终预测的完整流程:
2.png


  • 准备数据源(CSV, txt, 数据库等)
  • MLContext.Create() 加载数据至 IDataView
  • 定义数据处理管道(特征提取, 连接, 转换等)
  • 追加训练器(如 Sdca 回归)
  • 在训练数据上调用 Fit 方法
  • 得到训练完成的模型(ITransformer)
  • 保存模型为:Model.zip
  • 创建 PredictionEngine 用于单次预测
  • 输入新数据,然后输出预测结果
实践案例:学生考试成绩预测(回归)

让我们通过一个最简单的例子——根据学习时长预测考试成绩,来动手实践 ML.NET 的整个工作流。这是经典的回归任务,即预测一个连续的数值 。
1. 准备数据

首先,创建一个名为 data.csv 的文件,内容如下:
  1. StudyHours,Score
  2. 1,50
  3. 2,60
  4. 3,65
  5. 4,70
  6. 5,75
复制代码
2. 定义数据类

在你的 C# 项目中,定义两个类来映射数据和预测结果 。
  1. using Microsoft.ML.Data;
  2. // 用于加载输入数据
  3. public class StudentData
  4. {
  5.     [LoadColumn(0)] // 指定在数据文件中的列索引
  6.     public float StudyHours { get; set; }
  7.     [LoadColumn(1)]
  8.     public float Score { get; set; } // 这是标签(Label),即我们要预测的值
  9. }
  10. // 用于存储预测结果
  11. public class StudentPrediction
  12. {
  13.     [ColumnName("Score")] // 指定输出列的名称,需与模型输出的列名一致
  14.     public float PredictedScore { get; set; }
  15. }
复制代码
3. 构建、训练并评估模型

现在,在 Program.cs 中编写核心逻辑 。
  1. using Microsoft.ML;
  2. // 1. 初始化 MLContext
  3. var mlContext = new MLContext(seed: 0); // 设置随机种子以确保结果可重现
  4. // 2. 加载数据
  5. string dataPath = "data.csv";
  6. var data = mlContext.Data.LoadFromTextFile<StudentData>(dataPath, separatorChar: ',', hasHeader: true);
  7. // 3. 分割数据集为训练集和测试集
  8. var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);
  9. var trainData = trainTestSplit.TrainSet; // 用于训练的数据
  10. var testData = trainTestSplit.TestSet;   // 用于评估的数据
  11. // 4. 构建数据处理和训练管道
  12. //    - Concatenate: 将所有特征列(这里是 StudyHours)合并到一个名为 "Features" 的列中,这是 ML.NET 的默认输入列名
  13. //    - Append: 追加一个回归训练器(SDCA 算法)
  14. var pipeline = mlContext.Transforms.Concatenate("Features", new[] { "StudyHours" })
  15.     .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: "Score", maximumNumberOfIterations: 100));
  16. // 5. 在训练集上训练模型
  17. var model = pipeline.Fit(trainData);
  18. // 6. 在测试集上评估模型性能
  19. var predictions = model.Transform(testData);
  20. var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: "Score", scoreColumnName: "Score");
  21. // 7. 输出评估指标
  22. Console.WriteLine($"模型评估指标:");
  23. Console.WriteLine($"  R^2: {metrics.RSquared:F2}"); // 决定系数,越接近1越好
  24. Console.WriteLine($"  平均绝对误差: {metrics.MeanAbsoluteError:F2}");
  25. Console.WriteLine($"  均方根误差: {metrics.RootMeanSquaredError:F2}");
  26. // 8. 使用模型进行单次预测
  27. var predictionEngine = mlContext.Model.CreatePredictionEngine<StudentData, StudentPrediction>(model);
  28. var newStudent = new StudentData { StudyHours = 6 };
  29. var predictedScore = predictionEngine.Predict(newStudent);
  30. Console.WriteLine($"\n预测结果:");
  31. Console.WriteLine($"如果学习 {newStudent.StudyHours} 小时,预测成绩为 {predictedScore.PredictedScore:F2}");
复制代码
4. 运行与结果

运行你的应用程序,你将看到类似下面的输出:
  1. 模型评估指标:
  2.   R^2: 0.92
  3.   平均绝对误差: 1.25
  4.   均方根误差: 1.58
  5. 预测结果:
  6. 如果学习 6 小时,预测成绩为 80.45
复制代码
恭喜!你已经成功构建并训练了你的第一个 ML.NET 模型。
还有类似的模型可以自己去尝试练习:房价预测,和以上示例相同逻辑,代码非常的简单。
  1. // 1. 定义数据模型:输入特征(用来预测的变量)和输出标签(要预测的结果)
  2. // 房价的影响因素:面积、卧室数量、浴室数量
  3. using Microsoft.ML;
  4. using Microsoft.ML.Data;
  5. public class HouseData
  6. {
  7.     [LoadColumn(0)] // 对应数据文件的第1列(面积)
  8.     public float Size { get; set; }
  9.     [LoadColumn(1)] // 对应数据文件的第2列(卧室数量)
  10.     public float Bedrooms { get; set; }
  11.     [LoadColumn(2)] // 对应数据文件的第3列(浴室数量)
  12.     public float Bathrooms { get; set; }
  13.     [LoadColumn(3)] // 对应数据文件的第4列(房价,标签)
  14.     public float Price { get; set; }
  15. }
  16. // 2. 定义预测结果模型:只包含要预测的标签
  17. public class HousePricePrediction
  18. {
  19.     [ColumnName("Score")] // Score是ML.NET默认的预测结果列名
  20.     public float PredictedPrice { get; set; }
  21. }
  22. class Program
  23. {
  24.     static void Main(string[] args)
  25.     {
  26.         // 3. 创建ML.NET环境(类似数据库连接,是所有操作的基础)
  27.         var mlContext = new MLContext();
  28.         // 4. 准备训练数据(实际项目中可以从Excel、数据库读取,这里用模拟数据)
  29.         var trainingData = new List<HouseData>
  30.         {
  31.             new HouseData { Size = 1400, Bedrooms = 3, Bathrooms = 2, Price = 250000 },
  32.             new HouseData { Size = 1600, Bedrooms = 4, Bathrooms = 2.5f, Price = 300000 },
  33.             new HouseData { Size = 1200, Bedrooms = 2, Bathrooms = 1.5f, Price = 200000 },
  34.             new HouseData { Size = 1800, Bedrooms = 4, Bathrooms = 3, Price = 350000 },
  35.             new HouseData { Size = 2000, Bedrooms = 5, Bathrooms = 3.5f, Price = 400000 },
  36.             // 实际训练需要更多数据,这里只是示例
  37.         };
  38.         // 5. 将数据转换成ML.NET能处理的IDataView
  39.         IDataView dataView = mlContext.Data.LoadFromEnumerable(trainingData);
  40.         // 6. 定义训练管道:数据处理→特征工程→模型算法
  41.         var pipeline = mlContext.Transforms.Concatenate("Features", nameof(HouseData.Size), nameof(HouseData.Bedrooms), nameof(HouseData.Bathrooms))
  42.             // 特征归一化:让不同量级的特征(比如面积1000+,卧室数2-5)统一范围,提高模型精度
  43.             .Append(mlContext.Transforms.NormalizeMinMax("Features"))
  44.             // 选择回归算法(房价预测是连续值,用回归),这里用SDCA算法(ML.NET推荐的高效算法)
  45.             .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: nameof(HouseData.Price), featureColumnName: "Features"));
  46.         // 7. 训练模型(核心步骤,相当于让模型“学习”数据规律)
  47.         Console.WriteLine("开始训练模型...");
  48.         var model = pipeline.Fit(dataView);
  49.         Console.WriteLine("模型训练完成!");
  50.         // 8. 用训练好的模型做预测(测试数据:面积1500,3卧室,2浴室)
  51.         var predictionEngine = mlContext.Model.CreatePredictionEngine<HouseData, HousePricePrediction>(model);
  52.         var testHouse = new HouseData { Size = 1500, Bedrooms = 3, Bathrooms = 2 };
  53.         var prediction = predictionEngine.Predict(testHouse);
  54.         // 9. 输出预测结果
  55.         Console.WriteLine($"预测房价:{prediction.PredictedPrice:C}");
  56.     }
  57. }
复制代码
3.png

#ML.NET #机器学习 #开源框架 #跨平台 #ML.Net入门
看完本文有收获?请转发分享给更多人

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册