解释一下根号在【栏目活跃度】中的意义

送交者: 等边直角三角形 [♂★★★★三儿★★★★♂] 于 2025-05-23 6:50 已读711次 2赞 大字阅读 繁体
最近运营做出来了一个把原创分和评论分揉在一起的指标,放在了《栏目活跃榜里》,就叫它【栏目活跃度】好了。

这个指标的公式是公开的。相比较公式不公开的股价,这很难得。但我们需要理解它,才能用好它、完善它。本帖分享一些我对这个公式的理解。

【根号是啥?】

一个数乘以自己,比如2乘以2,叫2的平方,等于4。

那么反过来,把4拆成两个相同的数相乘,这个数就叫4的平方根,等于2。写代码时,这个求4的平方根的式子一般写作sqrt(4),求x的平方根就写作sqrt(x)。其中这个sqrt是英文中平方根这个单词(square root)的缩写。教科书和一般的计算器上会用这个(√)表示。

翻出高中数学作业本,把0到10标在横轴上,把它们的平方根标在竖轴上,就能清晰地看出每个数字(x)和它的平方根(y)之间的关系了。如下图:

仔细看,会发现一个现象:从0到5之间,这条线上升了差不多两个格子。但同样的距离下,从5到10,这条线就上升得慢了,只上升了差不多一个格子。

用本文开始时讲的留园栏目活跃度来说,也就是:当根号里衡量栏目原创流量的东西越来越大,栏目的活跃度就“显得”越来难上升。代入些具体的数字会发现,即使再乘以了个什么系数,这个现象不变。而且,运营曾说栏目股价也有开根号的类似设计。

【为何栏目的指标公式要开根号?】

有若干原因。在我看来,有感性上的,也有理性上的。

感性上,可以看到,低排名栏目的活跃度显得没那么低。比如,几十名开外的栏目,其原创指标,比如原创分,基本只有个位数,前几名是它们的十倍左右。没办法,前几名版里的真实的人气原创帖主数量就是榜末栏目的十倍左右,甚至更多。但从开了根号的活跃度来看,“显得”差别就没那么大了。这确实是一种心理安慰。但无论安不安慰,每个栏目活跃度的计算方式,都是统一的,没有照顾、打压谁。该需要多少,就是多少。

然而,开根号在科研计算中也是常常用到的统计方法。科研不需要太多感性,那为什么要这么做?

为了便于看图估算。

我们把目前榜上的原创分+评论分简单用图画出来。横轴是分值,每有一个在这分值附近的栏目,就在那个位置叠加一个小方块。比如第一、二名在35左右,第三、四名在23左右,最后十几名在3左右。当然,榜不全,实际操作中总会有一些原创为目标的栏目刚刚建立,帖不热,分是零。

最终结果差不多就是这种感觉:

这时要是有人问:目前所有栏目的原创分+评论分是多少?

呃。我看不太出来,估计在十几分左右吧。

为啥看不太出来?

因为小方块们叠加得太歪了!这种多数人很低,少数人超高的现象,在人类社会中很常见。从个位数到几十分的过大的数值跨度,让肉眼估算变得很难。

但如果把这个和开了根号,根据之前的数学作业本上的曲线图,前几位栏目的分数会大幅度缩小,分数总体跨度缩小,让图中由方块罗列成的柱子可以进一步细分。而且当数据完整时,整个图会逐渐趋近于对称。这样就能直观地看出一个图的平均值在哪里。感觉就是下图那样,这是网上随便抓来的例子。


能轻松看图估算了,有助于决策者快速做决定,也就是开根号的科学意义,学名叫“平方根变换(square root transformation)。有兴趣的话,扩展阅读可见帖末链接。

言而总之,留园栏目间的实际流量确实有巨大区别。开不开根号,各有利弊。明白了原理就行。

统计学中的数值变换
钱魏Way · 2023-04-18 · 1,879 次浏览
https://www.biaodianfu.com/box-cox.html
贴主:等边直角三角形于2025_05_23 10:54:35编辑

            

喜欢等边直角三角形朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!

[举报反馈] [ 等边直角三角形的个人频道 ] [-->>参与评论回复] [用户前期主贴] [手机扫描浏览分享] [返回留园网事首页]

等边直角三角形 已标注本帖为原创内容,若需转载授权请联系网友本人。如果内容违规或侵权,请告知我们。

所有跟帖: (主帖帖主有权删除不文明回复,拉黑不受欢迎的用户)

打开微信,扫一扫[Scan QR Code]

进入内容页点击屏幕右上分享按钮

楼主本月热帖推荐:

    >>>查看更多帖主社区动态...