统计学知识点。

S
sadscv
编辑于 发布于
  • 相关性分析(相关系数r皮尔逊相关系数余弦相似度互信息

    相关系数r:代表了回归线对样本的拟合程度。拟合得好,则(sample?standard error----待考证) SE(line)会很好,(回归的定义就是找出最小波动的线),而SE(y)是方差。故SE(line)/SE(y)会非常小,r^2 = 1 - SE(line)/SE(y) 趋近于1.

    皮尔逊相关系数p:想像向量空间中的余弦相似度,和信息检索中类似,其实就是与它一样的东西(内积空间中的距离表现)。其中每个维度代表一个sample,距离的定义是该sample上某随机变量与其均值的差 X-E(X),若有两个随机变量X,Y.则在内积空间中想像两个向量,若其越接近则说明这两个随机变量越相关。 此时的p就是两向量间夹角的余弦值。

  • 回归分析(线性回归、L1/L2正则、PCA/LDA降维)

  • 聚类分析(K-Means)

  • 分布(正态分布t分布密度函数

    统计指的是通过抽样对总体进行估计,样本数量<总体数量。

    置信区间:比如99%置信区间,也就是"相信"99%几率,某统计量所落在的区间。这里之所以用"置信"donfident,是因为一般总体标准差是由样本标准差估计,并不是准确值造成的。

    中心极限定理:随着sample容量n增加,抽样分布均值(正态分布)的标准差越小,越收拢。接近总体均值分布。

    用sample的均值和方差估计总体的均值和方差。先求样本均值x=(x1+x2+...+xn)/n, s^2=((x1-x)^2+(x2-x)^2+...+(xn-x)^2)/(n-1),此时样本的均值和方差就是总体均值方差的最佳估计,样本均值分布的标准差=s/根号n。一般而言两个标准差即为95%置信区间,查z表可求得误差范围。

    t分布:当sample<30时,标准分布不能很好地拟合样本均值分布, 此时分布有fatter tail,需要使用t分布。其它与上条类似,只是查t表而不是z表。

    概率密度:求概率就是对概率密度函数积分。

  • 指标(协方差、ROC曲线、AUC、变异系数、F1-Score)

    协方差:指代两个变量总体误差的期望。用来计算皮尔逊系数。
    
  • 显著性检验(t检验、z检验、卡方检验)

    z检验用于检验正态样本均值是否等于某个假设值,不过需要事先知道总体方差,得到的统计量服从正态分布,有的教材上又叫u检验

    t检验与z检验相似,t检验不需要知道总体方差,它用样本方差替代总体方差,得到的统计量服从t分布。实践应用中,t检验比z检验常用,因为不容易知道总体的方差。t检验来源于戈斯特的笔名student。

    f检验主要用于方差分析,方差分析中,组间均方比上组内均方服从F分布,它是为了纪念费雪(此人对统计学贡献巨大)

    卡方检验主要为了检验某个样本是否服从某种分布,是一种样本分布检验,他的发明者如果没记错的话应该是皮尔逊。在交叉列表分析中卡方分布会用到。

    独立样本t检验用于比较两个不同样本之间的均值是否相等。

    配对样本t检验是指同一个样本在两个不同时候均值的比较,比如比较某种减肥要的效果。

    相关性主要似乎看两个变量之间的紧密程度

    方差分析用于检验某因素的影响显著程度。

  • A/B测试

阅读 2 评论 0

评论区

登录后发表评论

暂无评论

成为第一个发表评论的人吧!