找回密码
 会员注册
查看: 20|回复: 0

统计陷阱——辛普森悖论

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64454
发表于 2024-10-10 19:48:30 | 显示全部楼层 |阅读模式
统计陷阱——辛普森悖论 统计陷阱——辛普森悖论 宋鑫 壳算子 壳算子 贝壳找房数据智能中心策略算法部技术公众号 10篇内容 2020年09月25日 10:59 分组分析,是我们在进行数据分析时经常采用的一种方法。比如,我们要分析整个城市的价格涨跌,需要分析各个城区的价格涨跌;要分析大学里男女生录取比例,需要分析各学院的男女录取比例。在实际分析中,我们经常会发现,在各分组中都呈现的某一规律,在总体中却呈现出相反的规律(比如,各城区价格普涨,城市价格跌)。辛普森悖论描述的就是是这样一种情况:当组成总体的各分组数据都满足某一性质时,总体并不一定满足这一性质。为了避免辛普森悖论,需要为各分组设置恰当的固定权重,消除由于分组数据分布差异过大造成的影响。第一个栗子某城市某年二、三月份成交明细数据如下。2月份某城市城区价格城区成交数量成交均价环比A城区10010000-B城区10030000-3月份某城市城区价格城区成交数量成交价格环比A城区50011000+10%B城区20033000+10%可以看到,环比2月份,在3月份,A、B 两城区的价格都有了10%的增长,直觉上,是不是3月份,整个城市的价格也应该上涨?2月份城市价格=(10000100 + 30000100)/ 200 = 200003月份城市价格=(11000500+33000200)/700=17285可以看到3月份城市价格反而下降了!解读要理解这个 CASE,需要注意到2点:在成交价格上,A 城区与 B 城区相比,有较大差距:A 城区均价1W 左右,B 城区均价3W 左右;在成交数量上, A 城区增长大大超过 B 城区:A 城区在2月份成交100套,在3月份成交500套;B 城区在2月份成交100套,3月份成交200套因此我们可以得出结论,虽然 A、B 两城区在3月份价格都增长了,但是由于 A 城区成交增量远大于 B 城区,使得在3月份时,对于城市的价格,A 城区占的比重要远超过 B 城区,使得城市价格大幅向 A 城区倾斜,带来了城市价格的下降。第二个栗子某大学法学院、商学院招生数据如下。法学院性别录取拒收总数录取比例男生8455315.1%女生5110115233.6%合计5914620528.8%男生录取率 女生录取率解读要理解上边的CASE,同样有两个需要特别注意的地方:两个学院的录取率相差很大,法学院平均录取率只有28.8%,而商学院平均录取率却高达83.2%;两个学院申请者的性别比例相差很大,法学院男性申请者占10.5%,女性申请者占89.5%;而商学院男性申请者占71.3%,女性占28.7% —— 女性申请者主要集中在法学院,而男性申请者主要集中在商学院;因此我们可以得到结论,男女生在申请学院时,有着不同的偏好,并非均匀分布;大多数女生申请的是录取率低的多的法学院,而大多数男生申请的是录取率高的商学院,因此,导致在总体上,女性的录取率低于男性。 预览时标签不可点 关闭更多小程序广告搜索「undefined」网络结果
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-27 14:55 , Processed in 0.760595 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表