|11个常见的分类特征的编码技术( 三 )
9、James Stein EncodingJames-Stein 为特征值提供以下加权平均值:
- 观察到的特征值的平均目标值 。
- 平均期望值(与特征值无关) 。
它只能在给定正态分布的情况下定义(实时情况并非如此) 。 为了防止这种情况 , 我们可以使用 beta 分布或使用对数-比值比转换二元目标 , 就像在 WOE 编码器中所做的那样(默认使用它 , 因为它很简单) 。
10、M Estimator Encoding:Target Encoder的一个更直接的变体是M Estimator Encoding 。 它只包含一个超参数m , 它代表正则化幂 。
m值越大收缩越强 。 建议m的取值范围为1 ~ 100 。
11、 Sum EncoderSum Encoder将类别列的特定级别的因变量(目标)的平均值与目标的总体平均值进行比较 。 在线性回归(LR)的模型中 , Sum Encoder和ONE HOT ENCODING都是常用的方法 。 两种模型对LR系数的解释是不同的 , Sum Encoder模型的截距代表了总体平均值(在所有条件下) , 而系数很容易被理解为主要效应 。 在OHE模型中 , 截距代表基线条件的平均值 , 系数代表简单效应(一个特定条件与基线之间的差) 。
最后 , 在编码中我们用到了一个非常好用的Python包 “category-encoders”它还提供了其他的编码方法 , 如果你对他感兴趣 , 请查看它的官方文档:
https://avoid.overfit.cn/post/2ebd057b56cd4b54a666de6dd4ed6294
作者:saksham saxena
- 手机同质化一直非常的严重|小米13系列好评满满,骁龙8gen2比苹果a16更强
- 买七彩虹RTX30显卡、整机送大礼了!CF限定礼包快抢来自买七彩虹的消息|买七彩虹rtx30显卡、整机送大礼了!cf限定礼包快抢
- 12月13日消息|苹果appletv4k搭载的a15处理器为5核心
- AMD的RX7900系列显卡昨晚解禁了|RX 7900赢回一波 4K视频生产力终于超越RTX4090
- 月球是哪儿来的?同样是内太阳系行星的水星、金星和火星|月球身世之谜是怎么形成的?
- 当代超级计算机的局限性|量子计算的现在与未来
- 坐在隔壁工位的哔哥最近感慨很深|盘点qq下架的衍生品
- 13代酷睿目前还没有65WTDP型号的主流产品|绝配12代酷睿华擎迷你准系统到手1279元(1.92L体积)
- 12月14日|oppo第二颗自研芯片将到来,网友猜测可能是手环一类的
- 对于最近想要购买手机的小伙伴而言|骁龙8gen2的新旗舰一加acepro值得入手吗?
