生活中想逃开统计和概率还真是有难度。做一个简单的梳理,致敬下大学期间荒废的时光。
1、描述统计
平均数、中位数这些概念已经不新鲜,稍微关注自己工资水平在社会上到底处于什么地位的人都会了解。年轻人只要记住一点,不要被平均工资吓到,你只是被平均了。
有点意思的是四分位数这个概念,把数据集的范围等分成4块,从而画出一个箱线图,弄这么麻烦有什么用呢?大体是这俩个:
1)用来比较不同类别数据集的整体情况。这一点尤其在数据可视化方面帮助很大。
2)利用四分卫数还可以识别出可能的异常值。经验指数K值基本上用1.5或3就可以了。以下是一个箱线图的画法案例。
其实直观来看,箱线图的实体部分的宽度大小和标准差有直接关系。
说到标准差,正好可以介绍少“日本高考”的算分方法。日本大学录取新生,主要就是考察学生考试的偏差值。这是个什么概念呢?
偏差值,意即相对于平均值的偏差数值,公式如下:偏差值=50+10x(个人成绩-平均值)/标准差。
查看这个公式的核心部分:(个人成绩-平均值)/标准差,这不就是标准分的定义吗?也就是说你的标准分越高,说明你的成绩在参考人群中的排名越靠前。这样的好处是,偏差值与试卷难度无关,也与考试人数无关。
2、概率思维
概率可是个相当激动人心的玩意儿,很多人宁愿把结局都归结到命运的安排,其实恐怕都没逃出概率的范畴。
1)举一个直观的例子,在赌场里,赌徒们聚精会神的看着百家乐开出来的庄闲路数,绞尽脑汁想发现一些规律,这就是犯了著名的错误—赌徒谬论。
所以用概率思维考察问题第一步,先要分清前后两件事情是独立的,还是相关的。
-. 相互独立事件,那么
P(A和B)=P(A)x P(B)
-. 相关事件,那么
P(A和B)=P(A)x P(B
A)
即条件概率
从公式中就能看到,条件概率越大,P(A和B)才可能越大。所以在生活中,我们要选择那些条件概率大的事情去做。
2)想好了方向决定去做的时候,总要有个预期吧?这个预期经过概率分析和计算得出来,就叫期望。这时候要注意,只有统计数据足够大,那么事件出现的频率才能无限接近他的期望,这也就是大数定律。
3)最后,也是最重要的,就是风险控制。举一个直观的例子,假设你投资股票,如果你亏了50%才出场,那么你想赚回本的话 ,就以意味着你要再挣100%才可以,那样的难度,可想而知比开始的时候要搞多少。
最后,分享一些观点。斯坦福大学做了一项研究,收集人类个体在互联网上发布的各种情绪。具体方法是,收集所有表达个人情感的语句,做数据分析。设定情绪变量(不错、糟糕、开心、平静...),然后收集目前有该情绪的人的年龄、性别、位置等信息。从而得出很多以前要依靠做实验才能得出的结论。所以说,在大数据时代,实验研究的方式可能会发生根本性的转变,对用户行为的分析也会变得更方便和快捷。游戏问答
原文标题:描述统计与概率思维
|