enc_dict介绍
enc_dict为记录数据编码的核心变量,其数据类型为一个字典,enc_dict的key表示每一个特征的名字,其value记录了该特征的编码信息. 由于输入的特征可以分为离散特征与连续特征,所以在enc_dict 中对离散特征与连续特征的记录有这不同的记录方法,下面分别介绍这两种不同的记录方式
离散特征
对于离散特征,由于其需要走EmbeddingLayer,所以我们需要把这些离散的特征转换为数字id,所以这里需要记录每一个离散特征与数字id的map,拿性别举例来说,这个map可能就是:{‘man':0,'woman':1},此外为了方便后续代码的书写, 我们额外使用字段vocab_size记录了离散特征的词表大小
变量 | 含义 | 取值类型 | 备注 |
---|---|---|---|
map_dict | 离散特征与数字id的map | dict | / |
vocab_size | 离散特征的词表大小 | int | / |
连续特征
对于连续特征,在深度学习中往往需要进行归一化,所以这里我们记录了连续特征的最大值与最小值,以此方便我们后续进行Min-Max归一化
变量 | 含义 | 取值类型 | 备注 |
---|---|---|---|
min | 连续特征的最小值 | float | / |
max | 连续特征的最大值 | float | / |