相关性分析（~~相关系数r~~、~~皮尔逊相关系数~~、~~余弦相似度~~、~~互信息~~）

相关系数r：代表了回归线对样本的拟合程度。拟合得好，则(sample?standard error----待考证) SE(line)会很好，（回归的定义就是找出最小波动的线）,而SE(y)是方差。故SE(line)/SE(y)会非常小,r^2 = 1 - SE(line)/SE(y) 趋近于1.

皮尔逊相关系数p：想像向量空间中的余弦相似度，和信息检索中类似，其实就是与它一样的东西（内积空间中的距离表现)。其中每个维度代表一个sample,距离的定义是该sample上某随机变量与其均值的差 X-E(X),若有两个随机变量X,Y.则在内积空间中想像两个向量，若其越接近则说明这两个随机变量越相关。此时的p就是两向量间夹角的余弦值。
回归分析（~~线性回归~~、L1/L2正则、PCA/LDA降维）
聚类分析（K-Means）
分布（~~正态分布~~、~~t分布~~、~~密度函数~~）

统计指的是通过抽样对总体进行估计，样本数量<总体数量。

置信区间：比如99%置信区间，也就是"相信"99%几率，某统计量所落在的区间。这里之所以用"置信"donfident，是因为一般总体标准差是由样本标准差估计，并不是准确值造成的。

中心极限定理：随着sample容量n增加，抽样分布均值(正态分布)的标准差越小，越收拢。接近总体均值分布。

用sample的均值和方差估计总体的均值和方差。先求样本均值x=(x1+x2+...+xn)/n, s^2=((x1-x)^2+(x2-x)^2+...+(xn-x)^2)/(n-1)，此时样本的均值和方差就是总体均值方差的最佳估计，样本均值分布的标准差=s/根号n。一般而言两个标准差即为95%置信区间，查z表可求得误差范围。

t分布：当sample<30时，标准分布不能很好地拟合样本均值分布，此时分布有fatter tail,需要使用t分布。其它与上条类似，只是查t表而不是z表。

概率密度：求概率就是对概率密度函数积分。

指标（协方差、ROC曲线、AUC、变异系数、F1-Score）

协方差：指代两个变量总体误差的期望。用来计算皮尔逊系数。

显著性检验（t检验、z检验、卡方检验）

z检验用于检验正态样本均值是否等于某个假设值，不过需要事先知道总体方差，得到的统计量服从正态分布，有的教材上又叫u检验

t检验与z检验相似，t检验不需要知道总体方差，它用样本方差替代总体方差，得到的统计量服从t分布。实践应用中，t检验比z检验常用，因为不容易知道总体的方差。t检验来源于戈斯特的笔名student。

f检验主要用于方差分析，方差分析中，组间均方比上组内均方服从F分布，它是为了纪念费雪（此人对统计学贡献巨大）

卡方检验主要为了检验某个样本是否服从某种分布，是一种样本分布检验，他的发明者如果没记错的话应该是皮尔逊。在交叉列表分析中卡方分布会用到。

独立样本t检验用于比较两个不同样本之间的均值是否相等。

配对样本t检验是指同一个样本在两个不同时候均值的比较，比如比较某种减肥要的效果。

相关性主要似乎看两个变量之间的紧密程度

方差分析用于检验某因素的影响显著程度。
A/B测试

统计学知识点。

相关性分析（相关系数r、皮尔逊相关系数、余弦相似度、互信息）

回归分析（线性回归、L1/L2正则、PCA/LDA降维）

聚类分析（K-Means）

分布（正态分布、t分布、密度函数）

指标（协方差、ROC曲线、AUC、变异系数、F1-Score）

显著性检验（t检验、z检验、卡方检验）

A/B测试

评论区

暂无评论