办公室数据处理技巧视频(你一定要会!用统计学解决量纲不一致问题#数据分析)
- 办公技巧
- 2023-09-20 01:45:38
- 0
拿到数据后,别急着分析。先解决量纲不一致问题,标准化归一化。
今天和大家分享在分析处理数据时如何解决量纲不一致的问题。当我们在做某个业务分析时通常会收集大量不同的指标变量,每个指标的性质、量纲数量级等都可能存在一定的差异。所以为了保证结果的可靠性,我们需要对数据进行一定的处理。
举个例子,有个需求给平台的用户打分,获取用户近3个月的平均在线时长,消费频次、消费金额。标准化这是数据":说到给用户打分,可能有的人直接想将三个指标相加或者做一个加权平均就可以了。但是大家仔细观察一下数据,在线时长是2M金额是500",两者之间的差异是比较大的。如果我们直接做相加的话,假如online它是1F,它是2M,它是1000。那我们可以说这个用户是平台最高分的用户吗?这个结果显然是不可靠的。所以在给用户打分之前要解决量纲不一致的问题。
那么如何来解决?我们可以通过统计学中的标准化和归一化。标准化是通过一定的数学变换方式,将数据变换成均值为0,标准差为一的分布。并不一定是正态的,而且数值没有固定范围。
第二种归一化,他将一列数据变换到某个固定区间中,通常这个区间是0-1。第二种归一化是将数据范围固定到-1到1之间x-Xmin。面对两种方法我们如何来选择?
·如果对数据的范围有严格的要求,那我们用归一化;如果没有要求那我们用标准化。但是在归一化中大家要注意极端值的一个问题,如果有极端值需要做截尾处理。下面是标准化和归一化的公式。
·那这是用Python实现的方式。下面这段代码一种是直接做加权平均,第二个是将数据标准化之后再做的加权平均。这是结果的一个对比,我们可以简单看一下结果。当前标准化这里用户3,他是排名第一的,在加权平均这里面用户五是排名第一的。大家可以看一下数据,看一下这个结果是不是将数据先解决量纲不一致的问题之后,这个结果更可靠一些。
大家学会了吗?欢迎在视频下方交流讨论。如果你喜欢本期的视频,欢迎点赞收藏。
本文由 京廊文化根据互联网搜索查询后整理发布,旨在分享有价值的内容,本站为非营利性网站,不参与任何商业性质行为,文章如有侵权请联系删除,部分文章如未署名作者来源请联系我们及时备注,感谢您的支持。
本文链接: /index.php?c=show&id=37610