统计学知识点。
-
相关性分析(
相关系数r、皮尔逊相关系数、余弦相似度、互信息)相关系数r:代表了回归线对样本的拟合程度。拟合得好,则(sample?standard error----待考证) SE(line)会很好,(回归的定义就是找出最小波动的线),而SE(y)是方差。故SE(line)/SE(y)会非常小,r^2 = 1 - SE(line)/SE(y) 趋近于1.
皮尔逊相关系数p:想像向量空间中的余弦相似度,和信息检索中类似,其实就是与它一样的东西(内积空间中的距离表现)。其中每个维度代表一个sample,距离的定义是该sample上某随机变量与其均值的差 X-E(X),若有两个随机变量X,Y.则在内积空间中想像两个向量,若其越接近则说明这两个随机变量越相关。 此时的p就是两向量间夹角的余弦值。
-
回归分析(
线性回归、L1/L2正则、PCA/LDA降维) -
聚类分析(K-Means)
-
分布(
正态分布、t分布、密度函数)统计指的是通过抽样对总体进行估计,样本数量<总体数量。
置信区间:比如99%置信区间,也就是"相信"99%几率,某统计量所落在的区间。这里之所以用"置信"donfident,是因为一般总体标准差是由样本标准差估计,并不是准确值造成的。
中心极限定理:随着sample容量n增加,抽样分布均值(正态分布)的标准差越小,越收拢。接近总体均值分布。
用sample的均值和方差估计总体的均值和方差。先求样本均值x=(x1+x2+...+xn)/n, s^2=((x1-x)^2+(x2-x)^2+...+(xn-x)^2)/(n-1),此时样本的均值和方差就是总体均值方差的最佳估计,样本均值分布的标准差=s/根号n。一般而言两个标准差即为95%置信区间,查z表可求得误差范围。
t分布:当sample<30时,标准分布不能很好地拟合样本均值分布, 此时分布有fatter tail,需要使用t分布。其它与上条类似,只是查t表而不是z表。
概率密度:求概率就是对概率密度函数积分。
-
指标(
协方差、ROC曲线、AUC、变异系数、F1-Score)协方差:指代两个变量总体误差的期望。用来计算皮尔逊系数。 -
显著性检验(t检验、z检验、卡方检验)
z检验用于检验正态样本均值是否等于某个假设值,不过需要事先知道总体方差,得到的统计量服从正态分布,有的教材上又叫u检验
t检验与z检验相似,t检验不需要知道总体方差,它用样本方差替代总体方差,得到的统计量服从t分布。实践应用中,t检验比z检验常用,因为不容易知道总体的方差。t检验来源于戈斯特的笔名student。
f检验主要用于方差分析,方差分析中,组间均方比上组内均方服从F分布,它是为了纪念费雪(此人对统计学贡献巨大)
卡方检验主要为了检验某个样本是否服从某种分布,是一种样本分布检验,他的发明者如果没记错的话应该是皮尔逊。在交叉列表分析中卡方分布会用到。
独立样本t检验用于比较两个不同样本之间的均值是否相等。
配对样本t检验是指同一个样本在两个不同时候均值的比较,比如比较某种减肥要的效果。
相关性主要似乎看两个变量之间的紧密程度
方差分析用于检验某因素的影响显著程度。
-
A/B测试