数据Schema介绍

在传统的Rank/多任务中数据的输入通常包括两种类型的数据:连续性数据,离散型数据。在这里我们通过声明Schema来区分,下面我们来看一个Schema的例子

schema={
        "sparse_cols":['user_id','item_id','item_type','dayofweek','is_workday','city','county',
                      'town','village','lbs_city','lbs_district','hardware_platform','hardware_ischarging',
                      'os_type','network_type','position'],
        "dense_cols" : ['item_expo_1d','item_expo_7d','item_expo_14d','item_expo_30d','item_clk_1d',
                       'item_clk_7d','item_clk_14d','item_clk_30d','use_duration'],
        "label_col":'click',
    }
    
  

这里可以看到Schema中包括了三个变量,这三个变量的含义如下:

变量	含义	取值类型	备注
sparse_cols	离散特征的列表	list	/
dense_cols	连续特征的列表	list	/
label_col	标签列	list/str	值为单个特征的时候代表传统Rank模型,值为list的时候为多任务模型