当前位置: 首页 > 办公技巧 > 正文

办公室数据处理技巧视频(你一定要会!用统计学解决量纲不一致问题#数据分析)

  • 叁碗诸角 叁碗诸角
  • 办公技巧
  • 2023-09-20 01:45:38
  • 0

拿到数据后,别急着分析。先解决量纲不一致问题,标准化归一化。

今天和大家分享在分析处理数据时如何解决量纲不一致的问题。当我们在做某个业务分析时通常会收集大量不同的指标变量,每个指标的性质、量纲数量级等都可能存在一定的差异。所以为了保证结果的可靠性,我们需要对数据进行一定的处理。

举个例子,有个需求给平台的用户打分,获取用户近3个月的平均在线时长,消费频次、消费金额。标准化这是数据":说到给用户打分,可能有的人直接想将三个指标相加或者做一个加权平均就可以了。但是大家仔细观察一下数据,在线时长是2M金额是500",两者之间的差异是比较大的。如果我们直接做相加的话,假如online它是1F,它是2M,它是1000。那我们可以说这个用户是平台最高分的用户吗?这个结果显然是不可靠的。所以在给用户打分之前要解决量纲不一致的问题。

那么如何来解决?我们可以通过统计学中的标准化和归一化。标准化是通过一定的数学变换方式,将数据变换成均值为0,标准差为一的分布。并不一定是正态的,而且数值没有固定范围。

第二种归一化,他将一列数据变换到某个固定区间中,通常这个区间是0-1。第二种归一化是将数据范围固定到-1到1之间x-Xmin。面对两种方法我们如何来选择?

·如果对数据的范围有严格的要求,那我们用归一化;如果没有要求那我们用标准化。但是在归一化中大家要注意极端值的一个问题,如果有极端值需要做截尾处理。下面是标准化和归一化的公式。

·那这是用Python实现的方式。下面这段代码一种是直接做加权平均,第二个是将数据标准化之后再做的加权平均。这是结果的一个对比,我们可以简单看一下结果。当前标准化这里用户3,他是排名第一的,在加权平均这里面用户五是排名第一的。大家可以看一下数据,看一下这个结果是不是将数据先解决量纲不一致的问题之后,这个结果更可靠一些。

大家学会了吗?欢迎在视频下方交流讨论。如果你喜欢本期的视频,欢迎点赞收藏。


最新文章