广告特征离散化

有一段时间没有写博客了

最近都在做一些和广告算法相关的工作，用的模型也是比较大众的lr，主要呃工作还是在特征提取的过程，下面纪录一些心得体会：

在预估ctr的过程中，理论上是应该有这么几类特征信息：
用户的信息（用户输入的query,包括用户的年龄，消费水平，历史操作行为）

广告的特征（商品item的属性，item的流行度，广告商的评级等等）

历史的反馈特征（利用历史记录中，已经产生的pv,click信息对应一些特征信息的抽取，利用历史真实的ctr数据进行预估）如每个广告的实时ctr，广告跟性别交叉的ctr

在海量的数据当中，首先能够保证的是训练数据的量是足够的，在特征的删选当中主要是需要考虑到特征对应的训练样本的均衡问题

因为在广告中全量宝贝中很大一部分都是长尾的，那么对于一些覆盖样本少的特征对应着样本是否能将特征的分训练出来就是一个问题

1 特征选取

在考虑一个因素是否能够作为特征，首先保证这个特征在数据中是有区分性的，比如query是连衣裙，篮球之类的时候，用户的性别就有很大的区分性。再比如用户的年龄，20岁，30岁在广告推荐中，不能说30数字大，那么他对应的ctr就一定会高，比如pv高对ctr会有影响，但是这样的影响不一定是有用的，pv高的不一定ctr就高，所以这是非线性的特征，所以找到一些对应的特征的时候需要对特征做一些后续的事情（比如进行离散化处理）。

在确定了特征是可以考虑的，但是特征并不是越多越好，因为一旦特征太多，但是对应的训练样本不足，那么肯定会导致这个特征对应的训练权重不准。同时特征过多，可能会导致过拟合，导致泛化能力差。比如在广告中queryLength＝100这个特征，特征本身是有意义的，但是可能这个特征对应的query并不是topquery也就是属于长尾流量对应的部分，所以对应的训练样本不足，导致最后训练出来的分不准。

实际使用中也发现，广告反馈ctr这个特征也很有效，这个特征的意思就是当前的广告正在投放，已经投放了一部分了，这部分的点击率基本可以认为是这个广告的点击率了，也可以认为是这个广告的质量的一个体现，用来预估一个流量的ctr是很有效的。

2 特征的离散化

首先说一下自己的理解：为什么要进行离散，比如之前说到的用户的年龄是有用的特征，但是对于年龄在20～30这个区间，ctr是没有明显的区分性，年龄的20岁跟30岁这两个数字20,30大小比较是没有意义的，相加相减都是没有意义的，在优化计算以及实际计算ctr是会涉及这两个数字的大小比较的。如w.x，在w已经确定的情况下，x的某个特征的值是20，或者30，w.x的值相差是很大的，哪怕用逻辑化公式再比较，得到的值也是比较大的，但是往往20岁的人跟30岁的人对同一个广告的兴趣差距不会那么大。因此需要离散化。

这里离散化的方法就很多：

1 直接根据特征的本身的值进行离散化，比如item_id那么根据具体的值依次赋值为0，1，2，3....（但是需要注意在数据量很大的时候，可能需要做阶段操作）

2 根据特征对应的其他信息，进行等频离散具体设计为几维根据具体情况而定.....

离散化的原则主要是为了特征在区间上的区分性，进行离散，其中一种离散的情况是连续区间中的离散，在不同的区间刻度中对应的实际权重意义不同，同时也更好的保证了训练样本的均衡性

如编号为1特征是广告本身的ctr，假设互联网广告的点击率符合一个长尾分布，叫做对数正态分布，其概率密度是下图（注意这个是假设，不代表真实的数据，从真实的数据观察是符合这么样的一个形状的，好像还有雅虎的平滑的那个论文说它符合beta分布）。

可以看到，大部分广告的点击率都是在某一个不大的区间内的，点击率越高的广告越少，同时这些广告覆盖的流量也少。换句话说，点击率在0.2%左右的时候，如果广告a的点击率是0.2%，广告b的点击率是0.25%，广告b的点击率比广告a高0.05%，其实足以表示广告b比广a好不少；但是点击率在1.0%左右的的时候，广告a点击率是1.0%，广告b的点击率是1.05%，并没有办法表示广告b比广告a好很多，因为在这0.05%的区间内的广告并不多，两个广告基本可以认为差不多的。同时这个图也可以看成是流量的分布图，横坐标是广告的比率，纵坐标时pv值，可以认为pv集中在少量的广告当中。

也就是点击率在不同的区间，应该考虑是不同的权重系数，因为这个由广告点击率组成的编号为1的特征与这个用户对广告的点击的概率不是完全的正相关性，有可能值越大特征越重要，也有可能值增长到了一定程度，重要性就下降了。
对于这样的问题，百度有科学家提出了对连续特征进行离散化。他们认为，特征的连续值在不同的区间的重要性是不一样的，所以希望连续特征在不同的区间有不同的权重，实现的方法就是对特征进行划分区间，每个区间为一个新的特征。
具体实现是使用等频离散化方式：1）对于上面的编号为1的那个特征，先统计历史记录中每条展示记录中编号为1的特征的值的排序，假设有10000条展示记录，每个展示记录的这个特征值是一个不相同的浮点数，对所有的展示记录按照这个浮点数从低到高排序，取最低的1000个展示记录的特征值作为一个区间，排名1001到2000的展示记录的特征值作为一个区间，以此类推，总共划分了10个区间。2）对特征编号重新编排，对于排名从1到1000的1000个展示记录，他们的原来编号为1的特征转变为新的特征编号1，值为1；对于排名是从1001到2000的记录，他们的原来编号为1的特征转变为新的特征编号2，值为1，以此类推，新的特征编号就有了1到10总共10个。对于每个展示记录来说，如果是排名1到1000的，新的特征编号就只有编号1的值为1，2到10的为0，其他的展示记录类似，这样，广告本身的ctr就占用了10个特征编号，就成为离散化成了10个特征。
等频离散化需要对原有的每个特征都做，也就是原来的编号为1到13的编号，会离散化成很多的编号，如果每个特征离散化成10个，则最终会有130个特征，训练的结果w就会是一个130维的向量，分别对应着130个特征的权重。
实际的应用表名，离散化的特征能拟合数据中的非线性关系，取得比原有的连续特征更好的效果，而且在线上应用时，无需做乘法运算，也加快了计算ctr的速度。

再来一个例子：

比如queryID/ItemID 对应的pv.click的值，进行二维离散化，因为1000:400 10:4 这两种情况其实对应的效果在ctr这个基准上是相同的，所以二维离散化出来他们的值应该是差不多的。

4 特征交叉/多维特征（增强表示信息）

经常一维特征是没有意义的

比如一个人是20岁，那么在编号为2的特征上面，它一直都是1，对篮球的广告是1，对化妆品的广告也是1，这样训练的结果得到的编号为2的权重的意义是——20岁的人点击所有的广告的可能性的都是这个权重，这样其实是不合理的。因此在特征选择时会有很多的组合特征，比如性别／广告类型：男／化妆品，女／化妆品这些组合特征才有具体的意义

当然对组合特征在需要的时候也是需要进行离散化等操作，但是一般直接根据他们的值进行离散化较少，一般进一步利用pv,click，ctr进行表示

5 特征过滤和修正

主要是数据的平滑处理和正则化处理，，之后再做详细介绍

6 特征验证

直接观察ctr，卡方检验，单特征AUC

相关推荐