一. 前言
1.1 涉及矩阵基础
单位矩阵:(一般使用I, E来表示)I=⎣⎢⎢⎢⎡10⋮001⋮0⋯⋯⋱⋯00⋮1⎦⎥⎥⎥⎤正交矩阵:ATA=I,则称A为正交矩阵矩阵的转置:(AT)T=A(A1A2..An)T=AnT..A2TA1T对角矩阵:A=⎣⎢⎢⎡a11a22a33a44⎦⎥⎥⎤对角矩阵的转置等于自身:AT=A逆矩阵:AB=BA=IA=B−1B=A−1(AB)−1=B−1A−1,A,B同阶,可逆单位矩阵的逆矩阵是其本身.正交矩阵A的逆矩阵A−1=AT
在一元线性回归详解 | Lian (kyouichirou.github.io)中提及了多重共线性(Multicollinearity
)的问题, 由于是一元线性回归, 并未对该问题做深入的探讨.
下面以Longley
数据集为例, 分别以spss, python对相关问题展开讨论.
数据源见: https://www.itl.nist.gov/div898/strd/lls/data/LINKS/DATA/Longley.dat
原名Pandas-profiling, 现在已经更换新的名称, ydata-profiling
文档见: https://ydata-profiling.ydata.ai/docs/master/index.html
pandas-profiling
(文档还是老名称) primary goal is to provide a one-line Exploratory Data Analysis (EDA) experience in a consistent and fast solution. Like pandas df.describe() function, that is so handy, pandas-profiling delivers an extended analysis of a DataFrame while alllowing the data analysis to be exported in different formats such as html and json.
该库的目标在于提供类似于pandas的描述性统计的一站式数据概览(EDA)支持.
阶乘和gamma
函数关系密切.
Γ(z)=∫0∞xz−1∗e−xdx或者Γ(z+1)=∫0∞xz∗e−xdxΓ(z)=(z−1)!,z为正整数
# 在python中适用sympy来求这个积分
>>> from sympy import *
>>> import numpy as np
>>> x = symbols('x')
>>> print(integrate(x**1 * exp(-x), (x, 0, np.inf)))
1
>>> print(integrate(x**2 * exp(-x), (x, 0, np.inf)))
2
>>> print(integrate(x**3 * exp(-x), (x, 0, np.inf)))
6
本就存在大量相当晦涩的概念, 翻译和各种理解(符号使用)上的混乱, 让统计学变得更为复杂.
大学时 我一直觉得统计学很难 还差点挂科.
工作以后才发现 难的不是统计学 而是我们的教材写得不好. 比起高等数学 统计概念其实容易理解多了.
以下内容主要整合自: 多种(国内/国外)统计学教材(或其他统计学相关书籍), Wikipedia, stackexchange
, 知乎, 百度百科等...以及其他相对权威的统计学站点和spss相关内容站点.
对于不确定的信息或者难以理解的部分, 一般采用英文版本的内容.
相关内容的描述, 计算等, 优先采用SPSS的解决方案.
注意不是vlookup, 是lookup.
碰到一个这样的问题, 下面动图的函数实现原理:
(图源: LOOKUP函数10种经典用法 新手必看
)
这个函数并不难理解, 比较大的坑点, 在于其查询内容是需要经过排序的.
注意这里的排序, 这个点类似于pandas
中的loc
在定位不到数据时(这个功能在pandas上正逐步被废弃), 假如数据不是经过排序, 其返回的内容是异常的.
相关内容见, NoteBook/Pandas-loc的执行逻辑.ipynb at main - Kyouichirou/NoteBook (github.com)
In statistics and applications of statistics, normalization can have a range of meanings.[1] In the simplest cases, normalization of ratings means adjusting values measured on different scales to a notionally common scale, often prior to averaging. In more complicated cases, normalization may refer to more sophisticated adjustments where the intention is to bring the entire probability distributions of adjusted values into alignment. In the case of normalization of scores in educational assessment, there may be an intention to align distributions to a normal distribution. A different approach to normalization of probability distributions is quantile normalization, where the quantiles of the different measures are brought into alignment.
在Wikipedia
中, 以下的操作都归于Normalization
(统计学的概念上).
突然被问, excel
如何实现中国式排名?
值 | 排名 |
---|---|
1 | 1 |
1 | 1 |
2 | 2, 还是延续上面的序号, 而不是直接跳到3, 这种方式就称为中国式排名 |
3 | 3 |
4 | 4 |
即, 在排的值中出现重复值时该如何处理接下来的序号.
在MySQL
的窗口函数, 针对排名的问题提供了三种模式: