机器学习模型常常需要大量数据,但它们如何与实时新数据协同工作也同样关键。交叉验证是一种通过将数据集分成若干部分、在部分数据上训练模型、在其余数据上测试模型的方法,用来检验模型的表现。这有助于发现过拟合或欠拟合的问题,并预测模型在真实场景中的效果。本指南将带你了解交叉验证的基础知识、常见类型以及提升机器学习表现的最佳实践。前置知识在开始实际操作交叉验证之前,请 …
accuracy_score
在我们前面讲到分类任务的模型评估的时候,已经介绍了四个指标(准确率、精确率、召回率和F1指标),本节继续介绍另一个有用的评估方式,ROC曲线及其AUC值。ROC曲线是Receiver Operating Characteristic的简写,如果翻译成汉语就是“受试者工作特征”,这个名称听上去有点怪怪的,但是这个指标却不难理解,先看一个具体的ROC曲线是什么吧 …
摘要:本文以通俗易懂的方式介绍了如何利用Python和人工智能技术,实现对病患病历的智能筛选。文章详细讲解了从数据准备、预处理、模型选择与训练,到模型评估和新病例预测的完整流程。通过实际的病历数据表和Python代码示例,使读者可以快速掌握如何用决策树算法自动判断病人是否生病。该方法不仅能大幅提升医疗筛查的效率和准确率,还为医生提供了有力的辅助决策工具。决策 …
PCACreated: Apr 26, 2020 4:40 PMPCA 简介PCA是一种降维算法属性:- 在数据集中保留了最多的信息,同时将数据转换到较低维的子空间- 主要的成分彼此正交(方差最大)- 有损数据压缩,特征提取和数据可视化等应用程序。- 是一种无监督的学习为什么要降维?- 数据可视化数据可视化中很难看到高维数据,所以你可以通过降维到低维空间,更 …
对机器学习的评估度量是机器学习核心部分,本文总结分类问题常用的metrics分类问题评估指标在这里,将讨论可用于评估分类问题预测的各种性能指标1 Confusion Matrix这是衡量分类问题性能的最简单方法,其中输出可以是两种或更多类型的类。混淆矩阵只不过是一个具有两个维度的表,即“实际”和“预测”,此外,这两个维度都有“真阳性(TP)”、“真阴性(TN …