相关性可能是一个有争议的话题。当两个看似不相关的变量,出现类似的运动模式并被发现是相关的时候,事情可能会变得耐人寻味。请看一些不寻常的例子,我个人喜欢举的例子,是美国小姐获奖者的年龄和热心人的谋杀案数量之间的关系。对你没看错,两个不太相关的数据,走势竟然差不多。
我能想象在金融系列中也一定有类似的情况,不过这篇文章侧重于金融中相关性的另一个方面。我们看一下大多数金融新手所犯的一个典型错误:计算价格而不是收益率的相关性。大多数人都经历过这种情况。
也许你刚刚开始量化生涯,被告知错误;"应该使用收益率而不是价格来计算相关性"。你不假思索地接受了它,并继续进行研究,对吧?好的,现在让我们仔细看看这讨厌的相关性,并准备大吃一惊吧。
但是先等一下,为什么我们对相关性这么感兴趣呢?
谁没有听说过 "分散你的投资组合 "这句话?分散投资几乎是财务管理的头等大事(当然是在赚钱之后)。不要把所有鸡蛋放在一个篮子里的概念并不新鲜,通过分散投资来控制风险是完全合理的。
分散投资的方法各不相同,有的选择不同的资产类别(基金、债券、股票等),有的组合行业,有的改变投资的风险水平。而这些方法中最常见、最直接的分散化衡量标准就是相关性。
从一个投资者的角度来看,鉴于这些可能的资产投资,你会怎么做?
你的第一反应可能是 "投资于资产 A 和 B,因为 C 看起来没有那么好"。然后过了一会儿,你会想 "但是 A 和 B 看起来高度相关,所以也许 A 和 C 会更好"。
但如果我告诉你,事实上 A 和 B 是完全负相关的,A 和 C 是完全正相关的,你会有什么感觉?也许会有点疑惑?不买账?
让我们把收益放在一个散点图中:
这就是我所说的: A 和 B 有负相关关系,A 和 C 有正相关关系(而且这些点正好位于直线上)。但是你的想法: "价格看起来是正相关的"。是的,这里发生了一些奇怪的事情。
别担心,你不是唯一感到困惑的人。相关性,尽管它表面上很简单,但即使是有经验的学者和投资者也经常被误解。
一个误解是,相关性的极端值意味着两个系列的运动方向完全相反(对于-1)或相同的方向(对于+1)。但这是不正确的。
资产 A 和 C 是完全正相关的。然后你会经常听到人们说 "A 和 C 一起上下波动"。但不是那么快......对于资产 A 的小幅正收益(小于 1%),资产 C 的收益为负。嗯...
不那么常见的是,人们认为对于具有 ±1 相关性的系列,其运动的幅度是相同的。这也是不正确的。
资产 A 和 B 是完全负相关的。有些人可能会说 "B 与 A 的运动量相同,但方向相反"。又不对。当 A 移动 4%时,B 移动接近于 0%。
等等,那么我们错过了什么?让我们回到基础知识。
相关性是指变量之间的关系有多密切。皮尔逊相关系数是其最常见的统计数字,它衡量两个变量之间的线性关系程度。其数值范围在-1(完全负相关)和 1(完全正相关)之间。零相关意味着变量之间没有关系。
它被定义为两个变量之间的协方差,例如 \(X\) 和 \(Y\) 之间的协方差。 除以每个变量的标准差的乘积。协方差是变量如何共同变化的无界统计,而标准差是衡量数据与平均数的分散程度。
这个公式可以通过以下方式对一个样本进行估计:
其中 \(x_t\) 和 \(y_t\) 是 \(X\) 和 \(Y\) 在 \(t\) 时刻的值。\(X\) 和 \(Y\) 的样本均值为 \(x\) 和 \(y\)。
仔细观察这最后一个公式,我们看到所有括号内的术语都是与变量平均数的差异,所以相关性是对偏离平均值的比较,而不是原始数据本身的变化。因此,Pearson 实际上测量的是变量是否同时高于或低于其平均值。术语 \((x_t-\bar{x})(y_t-\bar{y})\) 如果两个系列同时高于(或低于)它们的平均水平,则为正数(注意分母总是正数)。
因此,完全正相关的正确说法是:"资产 A 收益率平均值的向上偏离与资产 B 收益率平均值的向上偏离是同时发生的,同样,向下偏离也是如此"。
这并不像典型的 "资产 B 与资产 A 同涨同跌 "那样直观,当然也不那么容易直观。这就难怪相关关系会有误导性了。
让我们回到我们的例子。资产价格被创建为遵循几何布朗运动,有一个趋势成分和一个不规则成分。所有三个系列都有强大的、积极的、恒定的趋势成分,因此它们是向上的随机漫步(A 和 B 有相同的幅度,C 有一半)。不规则分量是用相同的随机数系列产生的,但是它们的符号,对于 B 来说已经被颠倒了。这些设置确保了系列之间的极端相关性。
如果我们创建两个新的系列 E 和 F,并将趋势成分设置为零,那么价格中的向上偏向就会被消除,但收益的相关性保持不变。这是因为趋势成分在相关性计算中并不重要,因为它比较的是对平均收益的偏离,或者换句话说,对趋势的偏离。
不同的是,资产 E 的所有向上的回报确实对应于资产 F 的向下的回报,反之亦然。这就像在第一个散点图中移动轴线,把它们集中在 A 和 B 系列的平均值上。
这个移动的概念可以通过从公式中删除均值来应用于相关性计算:
我们不是在比较与系列平均数的偏差,而是直接比较数值本身。使用这个 QuantDare 公式,我们对资产收益率有以下的相关性:QuantDare 收益率系列的相关性统计。
好吧,看价格系列更有意义,但它们与皮尔逊系数非常不同。
但是等一下,这个帖子不是关于价格和回报的相关性吗?
是的,让我们回到这个问题上来。思考一下皮尔逊的公式,更有可能的是,与平均价格的偏差同时出现在上面和下面,因为金融系列通常一起有一个向上的倾向。由于这个原因,价格的相关性往往是正的。金融价格系列相对于平均值的演变。金融价格系列的散点图,以可视化的关系和相关性。
另外,价格不是独立的。让 \(P_t\) 是一项资产在时间上的价格。 是某一资产在时间 \(t\) 的价格 然后,时间序列可以写成:
让 \(R_t\) 是 \(t\) 时间的回报。 是在时间 𝑡 的回报 \(R_t = P_t-P_{t-1}\) . 那么我们可以将价格序列改写为:
想象一下,在这些价格上计算的相关性。第一个回报 𝑅1 对后面的所有条目都有贡献,并影响到每个数据点。另一方面,最后的收益 𝑅𝑇 只对一个条目有贡献。这样一来,在相关性计算中,价格的早期变化比后来的变化有更大的权重,而对于回报,每一个都有同等的重要性。由于这个原因,与价格的相关性对它所计算的时间段的数量更加敏感。
使用我们的资产例子,价格的皮尔逊相关系数更符合视觉上的感觉。幅度不同,但符号与 QuantDare 公式中的回报率相吻合。然而,这个 QD 公式对价格不起作用。它总是产生正相关,因为它需要静止的序列。
嗯,这完全取决于你有兴趣比较的关系。短期变化从收益率的相关性中得到更好的解释,而长期演变的估值可能使用价格来改进。如果你真正想要的是分析两个系列是否一起上升和下降,那么你应该用 QuantDare 公式取代皮尔逊系数,在回报系列上。
相关性最重要的是要真正理解所测量的内容,并给出正确的解释。它是一个被专业人士和非专业人士在各种领域中使用的如此普遍的统计数字;很容易围绕它的含义建立一个错误的信心,并做出不准确的声明或误导性的结论。
但也许,只是也许,这篇文章将有助于避免今后对这一有用的关系衡量标准的混淆和误解。