2.2 一般&特殊概念目录
下面是一些核心要点的定义(可能和后面存在重复)。
2.2.1 幂律类分布
幂律类分布一般通过如下生存函数的性质来定义。假设随机变量X属于右尾为“幂律”的分布类,也就是:
这里是缓变函数,对于所有k>0,定义如下[22]:
变量X的生存函数属于“正规变化”类RVα,具体来说,函数在无穷大处以指数ρ变化:
更进一步看,会存在一个点,使得L(x)趋向于极限的时候为常数l,我们称它为“卡拉玛塔常数”(Karamata),该点也被称为“卡拉玛塔点”。在该值之外,幂律尾可以通过希尔估计这样的标准方法来拟合。该区域内的分布也被曼德博[162][75]称为强帕累托法则。
对于分布左尾,上述规律类似。
2.2.2 大数定律(弱)
大数定律的标准形式如下,假设X1,X2…Xn是独立同分布(i.i.d.)的无限序列(勒贝格可积),且(尽管有时可以放松独立同分布条件)。样本均值会收敛到期望值,对于
这里方差有限并非必要条件(不过各高阶矩的存在会加快收敛速度)。
强大数定律有需要时再做讨论。
2.2.3 中心极限定理(CLT)
中心极限定理的标准形式(Lindeberg-Lévy)如下,假设有一系列独立同分布的随机变量,是n个样本的均值,当n趋于无穷时,随机变量的和会收敛到高斯分布[20][21]。
这里收敛到分布的意思是,对于每一个实数z,的CDF(累积分布函数)会点对点收敛到标准高斯分布的CDF,N(0,σ):
Φ(z)是z处标准高斯分布的CDF值。
中心极限定理还有很多其他版本,下面有需要时会展开论述。
2.2.4 中数定律和渐进论
这是全书的主旨,我们想要了解随机变量数目n比较大但又不是极大时的渐进行为。对高斯分布来说,这不是什么大问题,因为收敛速度很快(大数定律和中心极限定理都是),但是对很多其他的随机变量来说并非如此。
见下面的Kappa统计量。
2.2.5 Kappa统计量
这一统计量不应该被视为数学上表征距离的函数,我们应该以偏向工程学的思维,将其视为一种量化比较的手段。
Kappa是本书作者自己设计的统计量(发表于论文中[235]),取值范围为[0,1],代表随机变量的渐进行为。对高斯分布来说,取值为0(基准值),而对柯西分布或其他均值不存在的分布取值为1。
假设X1,X2…Xn是均值有限的独立同分布随机变量,也即。定义为部分序列和。那么可以定义为n个随机变量求和的平均绝对偏差(参照之前我们不使用中位数,而是以均值为中心)。接着定义n个额外变量和收敛的“速率”(从n0开始):
在最为基础的n=n0+1时,我们简单地用来表示。
2.2.6 椭圆分布
p×1维的随机变量X为椭圆分布(椭圆等高分布)的定义是:假设位置参数为µ,存在非负矩阵Σ和标量函数Ψ使得特征函数满足exp(it′µ)Ψ(tΣt′)的形式。
换句话说,对于联合分布,我们必须有奇协方差矩阵才能满足其椭圆特性。状态转换协方差和随机协方差这样的条件都会使联合分布远离椭圆分布。我们会在第六章给出,只要违反椭圆特性,薄尾变量的线性组合就可以展现出极度肥尾的性质,除了肥尾性质本身,这一条又额外证伪了很多现代金融学理论。
2.2.7 统计独立性
假设两个独立的随机变量X和Y,如果其各自的概率密度函数(PDF)为f(x)和f(y),无论相关系数如何,联合PDF f(x,y)都满足:
在椭圆分布类中,相关系数为0的双变量高斯分布既独立又不相关。但是对多变量学生T分布或柯西分布来说,上述条件就不成立了。
2.2.8 多变量(列维)稳定分布
这是中心极限定理的广义版本。
假设X1,X2…Xn是独立同分布随机变量,它们的和为Sn,那么我们有:
这里的Xs服从稳定分布S,an和bn是常量,代表收敛到分布(当n→∞时X的分布)。下一章我们会对S的性质进行更完备的定义。这里可以认为Xs服从稳定分布(或者α稳定分布),写作XsS(αs,β,µ,σ),特征函数的形式如下:
分布参数的限制条件为
2.2.9 多变量稳定分布
随机向量满足多变量稳定分布的条件是,所有成分的线性组合服从稳定分布。也即对于任意常向量,随机变量Y=aTX应该是一个单变量稳定分布。
2.2.10 卡拉玛塔点
见幂律类分布。
2.2.11 亚指数
平均斯坦和极端斯坦的自然边界为亚指数类分布,有如下性质:
假设是实数域上的独立同分布随机变量,累积分布函数为F,亚指数类的分布可以定义为(见[248][196]):
这里的的累积分布函数(两个相同的独立随机变量X的和),上面的定义代表了X1+X2超过x的两倍的概率是任意单个X超过x的概率的两倍。因此,对足够大的x来说,每当和超过x的时候,往往是其中某个X超过了x——两者中的较大值,另外一个X的贡献则微乎其微。
更一般地看,可以证明n个变量的和会由这些变量中的最大值主导。从严谨的角度讲,下面两条性质等价于亚指数条件[43][84]。对于假设
因此,求和项Sn和样本中的最大值Mn有相同的量级,这也是尾部起主导作用的另一种表达。
直观来看,亚指数分布的尾部应该比指数分布下降更慢,因为指数分布的尾部并非由超大尾部事件主导。实际上,我们可以证明,亚指数分布不存在指数矩:
所有。然而,反过来不一定成立,如果一个分布的指数矩不存在,那么它不一定满足亚指数分布的条件。
2.2.12 近似替代:学生T分布
我们可以方便地使用自由度为α的学生T分布近似作为双尾幂律分布,α=1对应柯西分布,而α→∞对应高斯分布。
学生T分布属于主流的钟形幂律分布,也即PDF平滑连续,对于极大的正值/负值x概率趋于0,且具备单一的尖峰最大值(另外,PDF是准凹结构而不是简单的凹结构)。
2.2.13 引用环
这是学术界的一种高度循环的引用机制,这种机制认为,杰出论文的标准在于他人的引用,从而忽略来自外部的过滤条件。这样会导致学术研究方向过于集中,很容易卡在某个“角落”,聚焦于没有实际意义的领域。该机制与缺乏成熟监督,且缺乏“风险共担”的学术体系运行模式有关。
典型的此类领域有现代金融理论、计量经济学(特别是宏观变量计量学)、GARCH过程、心理计量学、随机控制金融学、行为经济和金融学、不确定性决策学、宏观经济学等。这里的很多学术成果根本无法应用于现实,唯一的作用是贡献额外的论文,并通过引用机制产生更多论文,如此循环下去。
2.2.14 学术寻租
科研人员在研究方向的选择上存在利益冲突,学术部门(和研究者个人)的目标变成了尽可能获得引用和荣誉,从而牺牲了研究方向的客观性。比如,很多人卡在某个科研“角落”中,仅仅因为这对他们的职业生涯和学术组织更有利。
2.2.15 伪经验主义或Pinker问题
很多人都在讨论统计学意义并不显著的“证据”,或者使用对随机变量完全不适用且毫无信息量的统计指标,比如推断肥尾变量的均值或者相关性。这一点源于:
(i)统计学教学上对高斯分布和其他薄尾变量的强调。
(ii)死记硬背统计术语的时候缺乏对统计知识的理解。
(iii)对于维度性质毫无概念。
上述几条在社会科学研究者中很常见。
伪经验主义的例子有:比较恐怖袭击或埃博拉病毒等流行病的致死率(肥尾)和从梯子上跌落的死亡率(薄尾)。
这种看似实证的“实证主义”是现代科学研究中的一种顽疾,在多维和肥尾条件下完全失效。
实际上,我们并不需要区分肥尾和高斯随机变量就可以看出这种行为的不严谨性:没有达到简单的统计显著性标准——这些操作者也不理解显著性这个概念。
2.2.16 前渐进性
数学上的统计研究一般聚焦于当n=1(n为求和的数目)和n=∞的情况。而真实世界正是处于中间的那部分——这也是本书的核心。部分分布(方差有限)对于n=∞的渐进极限是高斯分布,但是对于n很大又不为无穷的情况并不成立。
2.2.17 随机化
将确定性变量随机化的方式有两种:(i)较为简单的二元方法;(ii)通过更复杂的连续或离散分布实现。
(i)假设s为确定性变量,我们以双状态伯努利分布来进行随机化(入门级别),假定以概率p取s1,概率1-p取s2。该变换以ps1+(1-p)s2=s的形式保留了变量的均值s,当然,我们也可以通过相同的方式保留变量的方差,等等。
(ii)我们可以使用一个完整的统计分布,双尾条件下一般是高斯分布,单尾条件下一般是对数正态分布或指数分布(很少会用幂律分布)。当s为标准差的时候,我们可以随机化s2,它变成了“随机波动率”,该波动率的方差或标准差一般被称为“Vvol”。
2.2.18 在险价值(VaR),条件在险价值(CVaR)
对于某随机变量x,分布函数为F,某参数λ,VaR的数学表达为:
然后,相应λ下的CVaR或预期损失ES为:
或者反过来在正的定义域上,考虑X的正向尾部。
一般来说,参数k的预期损失为
2.2.19 风险共担
风险共担是一种过滤机制,强迫做菜的厨师品尝自己做的食物,让他们暴露在自身问题的风险之中,这样一来就可以将危险分子驱逐出去。能够“风险共担”的领域包括:管道维修、牙齿诊疗、外科诊疗、工程建造,这些领域的从业者以有形的工作成果被外界评估,在职业生涯断送或破产的风险下从事职业活动。无法“风险共担”的领域包括:互相引用的学术界。学术领域的从业者只依赖同侪的相互评估而非从真实世界中获得反馈。
2.2.20 MS图
MS图(maximum to sum)表示最大单一观测对某阶矩的贡献(随着n不断变大),我们可以观察到大数定律的行为。对随机变量X来说,在MS图上观察给定样本的高阶矩表现是一种判定的收敛性的简易方法[或者看看是否存在]。其中一种做法如图10.3所示。
根据对变量极大值的统计,MS图的原理正是大数定律[184]。对于独立同分布的非负X1,X2…Xn,假设对于,那么随着
这里为求和函数,然后为极大值函数(对于存在负值的随机变量X,我们也可以采用取绝对值的形式来求奇数阶矩)。
2.2.21 最大吸引域(MDA)
极值分布考虑的是随机变量的最大值,当(分布的“右端点”)在最大吸引域上[116],也可以表示为:
2.2.22 心理学文献中的积分替换
心理学文献中经常有如下混淆:假设为某一阈值,f(.)是概率密度函数,并且是超过K的概率,g(x)是影响函数。定义I1是超过K之上的期望收益:
而I2是K处的影响乘以超过K的概率:
这里很容易混淆的是I1和I2,g(.)在K以上是常数的时候[比如,阶跃θ函数]两者相等。对一阶导为正的g(.)来说,I1和I2只有在薄尾分布下才比较接近,在肥尾条件下会相去甚远。
2.2.23 概率的不可分拆性(另一个常见误区)
定义是导数为f的概率分布,以及是测量函数或“收益函数”,那么对于的子集
在离散分布下,假设概率质量函数π(.):
这里的思想在于,概率只是积分等式中的核,而不是决策之外的最终结果。
2.2.24 维特根斯坦的尺子
“维特根斯坦的尺子”是一个哲学比喻:我们是在用尺子量桌子还是在用桌子量尺子?这主要取决于结果。假设存在两种分布:高斯分布和幂律分布,我们认为,当出现一个超大偏差的时候,比如“6个标准差”事件意味着原分布属于幂律分布。
2.2.25 黑天鹅
总的来说,有些事件在你的预期和建模能力之外,而且其效应极为显著。好的方法不是去预测它们,而是对它们产生的影响呈现出凸性(至少不是凹性):我们能了解自身对某类事件的脆弱性,甚至可以对其量化衡量(考量二阶影响和结果的非对称性),但是想对它们做可信的统计处理基本上是痴心妄想。
这一点向来很难跟建模人员解释清楚,我们需要和从未见过(甚至从未想过)的事物共处,但事实就是这样。
注意认知的维度。黑天鹅和观察者相关:火鸡的黑天鹅对屠夫来说是白天鹅。9·11恐怖袭击事件对受害者来说是黑天鹅,但对恐怖分子不是。这种观察者依赖是一种中心化的性质。一个所谓的“客观”的黑天鹅概率模型不仅不存在,而且是对其自身意义的消解,因为它自身就在散播信息的不完备性。
灰天鹅:统计性质上稳定、低频且有重大影响的大偏差被称为“灰天鹅”。当然,“灰”的程度取决于观察者:幂律分布使用者的灰天鹅对困在薄尾框架体系下的天真的统计学家来说就是黑天鹅。
重申一下:黑天鹅不是肥尾,只是肥尾会让它们变得更糟糕。肥尾和黑天鹅的联系在于,肥尾区域的大偏差会放大黑天鹅的影响。
2.2.26 经验分布会超出经验
经验分布的生存函数定义如下,假设X1,X2…Xn为独立同分布实随机变量,具有共同的累积分布函数F(t)。
这里是指示函数。
由格利文科-坎泰利定理可知,无论初始分布如何,最大范数都会收敛到单一分布,可以通过科尔莫戈罗夫-斯米尔诺夫检验来验证:
这种和分布无关的收敛性主要考虑的是概率,而不是矩——本书作者由此出发,探究了最大值之上的“隐藏矩”。
我们可以看到如下结果(因为知道极值为0和1,顿斯科将其进一步转化为布朗桥):
“经验分布会超出经验”的意思是,经验分布一定会出现在某区间[xmin,xmax],此时肥尾分布会带来巨大的问题,因为我们不是在概率空间,而是在收益空间分析肥尾。
更进一步的内容见隐藏的尾部(下一小节)。
2.2.27 隐藏的尾部
假设Kn为n个独立同分布随机变量样本的最大值,Kn=max(X1,X2…Xn),假设X分布的密度函数为,我们可以将矩分解为两部分,在K0以上的部分为“隐藏矩”。
这里µL是分布中可观察的部分的矩,而µK是隐藏部分的矩(大于K)。格利文科-坎泰利定理告诉我们,µK,0应该和X的分布无关。但是这一条对高阶矩并不成立,所以科尔莫戈罗夫-斯米尔诺夫检验在这里存在问题。
2.2.28 影子矩
影子矩在本书中被称为通过“插入式”估计来求解的矩。它不是直接用可观察的样本求均值,而是通过对分布参数进行最大似然估计(如使用最大似然参数尾部指数α)得出影子均值。因为在肥尾条件下直接可观察的样本均值存在偏差。
2.2.29 尾部依赖
假设X1和X2是两个不一定为同分布类型的随机变量,假设是概率为q的逆CDF,也即,上尾依赖可以定义为:
下尾依赖的定义与此类似。
2.2.30 元概率
通过将变量随机化这样的技巧来比较两个不同的概率分布。或是随机化某个参数以得到对应的分布,如看涨期权价格,VaR、CVaR等风险指标,并检验结果分布的鲁棒性或凸性。
2.2.31 动态对冲
标的为S,到期时间为T的欧式看涨期权C的收益可以通过如下动态对冲的方法得到复制,在当前时间t和T之间:
我们将时间区间分成n个,这里的对冲比率是在时刻计算的,但是我们在股票上得到的是对冲时刻和之间的价格差。
理论上,的时候会使上式收敛到确定性收益。在高斯世界中,上式为伊藤-麦肯积分。
但在这里我们看到,在肥尾条件所伴随的渐进性质下,这样的动态复制完全不可能实现。