导航菜单

特征工程

什么是特征工程?

特征工程就像是给机器学习模型准备"食材"的过程。就像做菜需要把食材切好、调味一样,特征工程就是把原始数据转换成模型更容易"消化"的形式。

举个生活例子:

想象你在教一个小朋友认识水果。如果直接给他看整个水果,他可能很难记住。但如果你把水果切成小块,告诉他"这是甜的"、"这是酸的",他就能更容易理解和记忆。特征工程就是做类似的事情,把复杂的数据变成模型容易理解的形式。

特征提取

  • 从原始数据中提取有用信息
  • 例如:从日期提取星期几
  • 例如:从地址提取城市名

特征转换

  • 将数据转换成合适的格式
  • 例如:文本转数字
  • 例如:类别转独热编码

特征选择

  • 选择最重要的特征
  • 例如:删除重复信息
  • 例如:选择相关性高的特征

常见的特征工程方法

1. 数值型特征处理

实际例子:房价预测

原始数据:房屋面积(平方米)、价格(万元)

  • 标准化:把所有价格都转换到0-1之间
  • 归一化:把面积和价格都调整到相同范围
  • 对数转换:处理特别大的数值

2. 类别型特征处理

实际例子:用户画像

原始数据:用户性别、职业、兴趣爱好

  • 独热编码:把性别"男/女"变成[1,0]和[0,1]
  • 标签编码:把职业转换成数字编号
  • 目标编码:用目标变量的平均值编码

3. 时间特征处理

实际例子:销售预测

原始数据:交易日期、时间

  • 提取时间特征:年、月、日、星期几
  • 计算时间差:距离某个重要日期的天数
  • 周期性编码:把时间转换成循环特征