数据Schema介绍
在传统的Rank/多任务中数据的输入通常包括两种类型的数据:连续性数据,离散型数据。在这里我们通过声明Schema来区分,下面我们来看一个Schema的例子
schema={
"sparse_cols":['user_id','item_id','item_type','dayofweek','is_workday','city','county',
'town','village','lbs_city','lbs_district','hardware_platform','hardware_ischarging',
'os_type','network_type','position'],
"dense_cols" : ['item_expo_1d','item_expo_7d','item_expo_14d','item_expo_30d','item_clk_1d',
'item_clk_7d','item_clk_14d','item_clk_30d','use_duration'],
"label_col":'click',
}
这里可以看到Schema中包括了三个变量,这三个变量的含义如下:
变量 | 含义 | 取值类型 | 备注 |
---|---|---|---|
sparse_cols | 离散特征的列表 | list | / |
dense_cols | 连续特征的列表 | list | / |
label_col | 标签列 | list/str | 值为单个特征的时候代表传统Rank模型,值为list的时候为多任务模型 |