数据Schema介绍

在传统的Rank/多任务中数据的输入通常包括两种类型的数据:连续性数据,离散型数据。在这里我们通过声明Schema来区分,下面我们来看一个Schema的例子


schema={
        "sparse_cols":['user_id','item_id','item_type','dayofweek','is_workday','city','county',
                      'town','village','lbs_city','lbs_district','hardware_platform','hardware_ischarging',
                      'os_type','network_type','position'],
        "dense_cols" : ['item_expo_1d','item_expo_7d','item_expo_14d','item_expo_30d','item_clk_1d',
                       'item_clk_7d','item_clk_14d','item_clk_30d','use_duration'],
        "label_col":'click',
    }
    

这里可以看到Schema中包括了三个变量,这三个变量的含义如下:

变量 含义 取值类型 备注
sparse_cols 离散特征的列表 list /
dense_cols 连续特征的列表 list /
label_col 标签列 list/str 值为单个特征的时候代表传统Rank模型,值为list的时候为多任务模型