机器学习面试题
机器学习基础
1. 监督学习vs无监督学习
问题:
请解释监督学习和无监督学习的主要区别,并各举两个实际应用场景。
参考答案:
- 监督学习:使用标记数据进行训练,目标是学习输入到输出的映射关系
- 应用场景:图像分类、垃圾邮件检测
- 无监督学习:使用未标记数据,目标是发现数据中的模式和结构
- 应用场景:客户分群、异常检测
2. 过拟合与欠拟合
问题:
什么是过拟合和欠拟合?如何识别和解决这些问题?
参考答案:
- 过拟合:模型在训练集上表现很好,但在测试集上表现差
- 解决方法:正则化、交叉验证、早停
- 欠拟合:模型在训练集和测试集上表现都不好
- 解决方法:增加模型复杂度、特征工程
算法与模型
3. 决策树与随机森林
问题:
解释决策树和随机森林的工作原理,以及它们的优缺点。
参考答案:
- 决策树:
- 优点:易于理解和解释、可处理非线性关系
- 缺点:容易过拟合、对数据敏感
- 随机森林:
- 优点:抗过拟合、稳定性好、可处理高维数据
- 缺点:计算成本高、模型解释性较差