enc_dict介绍

enc_dict为记录数据编码的核心变量,其数据类型为一个字典,enc_dictkey表示每一个特征的名字,其value记录了该特征的编码信息. 由于输入的特征可以分为离散特征与连续特征,所以在enc_dict 中对离散特征与连续特征的记录有这不同的记录方法,下面分别介绍这两种不同的记录方式

离散特征

对于离散特征,由于其需要走EmbeddingLayer,所以我们需要把这些离散的特征转换为数字id,所以这里需要记录每一个离散特征与数字id的map,拿性别举例来说,这个map可能就是:{‘man':0,'woman':1},此外为了方便后续代码的书写, 我们额外使用字段vocab_size记录了离散特征的词表大小

变量 含义 取值类型 备注
map_dict 离散特征与数字id的map dict /
vocab_size 离散特征的词表大小 int /

连续特征

对于连续特征,在深度学习中往往需要进行归一化,所以这里我们记录了连续特征的最大值与最小值,以此方便我们后续进行Min-Max归一化

变量 含义 取值类型 备注
min 连续特征的最小值 float /
max 连续特征的最大值 float /