特征工程
什么是特征工程?
特征工程就像是给机器学习模型准备"食材"的过程。就像做菜需要把食材切好、调味一样,特征工程就是把原始数据转换成模型更容易"消化"的形式。
举个生活例子:
想象你在教一个小朋友认识水果。如果直接给他看整个水果,他可能很难记住。但如果你把水果切成小块,告诉他"这是甜的"、"这是酸的",他就能更容易理解和记忆。特征工程就是做类似的事情,把复杂的数据变成模型容易理解的形式。
特征提取
- 从原始数据中提取有用信息
- 例如:从日期提取星期几
- 例如:从地址提取城市名
特征转换
- 将数据转换成合适的格式
- 例如:文本转数字
- 例如:类别转独热编码
特征选择
- 选择最重要的特征
- 例如:删除重复信息
- 例如:选择相关性高的特征
常见的特征工程方法
1. 数值型特征处理
实际例子:房价预测
原始数据:房屋面积(平方米)、价格(万元)
- 标准化:把所有价格都转换到0-1之间
- 归一化:把面积和价格都调整到相同范围
- 对数转换:处理特别大的数值
2. 类别型特征处理
实际例子:用户画像
原始数据:用户性别、职业、兴趣爱好
- 独热编码:把性别"男/女"变成[1,0]和[0,1]
- 标签编码:把职业转换成数字编号
- 目标编码:用目标变量的平均值编码
3. 时间特征处理
实际例子:销售预测
原始数据:交易日期、时间
- 提取时间特征:年、月、日、星期几
- 计算时间差:距离某个重要日期的天数
- 周期性编码:把时间转换成循环特征