全文链接:http://tecdat.cn/?p=22034
原文出处:拓端数据部落公众号
计算能力的指数级增长,以及量化社区(日益增长的兴趣使量化基金成为投资者蜂拥而至的最热门领域。
量化交易涵盖了相当广泛的交易策略(从大数据分析到高频交易)。出于本文的目的,我们将重点关注量化分析和数据科学,因为它们被不同类型的交易者广泛使用。
根据我们在量化交易方面的经验,在构建量化交易策略时有几个主要陷阱:
-
了解统计/概率。
-
模型实现。
-
策略回测/模拟。
-
风险管理。
理解统计和概率
统计分析是数据科学和量化交易的基础。当我们分析数据(尤其是时间序列)时,如果我们对统计/概率(和统计概念)没有很好的理解,我们很容易陷入各种陷阱。
正态分布
到目前为止,正态分布的假设是我们在金融资产动态建模方面所能做出的最弱假设。关于金融资产时间序列的正态性假设已经发表了许多论文,但是,由于缺乏更好的选择,我们使用高斯(正态)分布,因为它使我们能够很容易地分析数据。知道“正态性”的假设是弱的,我们应该以同样的方式对待正态分布的性质(即偏斜收益、肥尾)。假设收益的分布将落在钟形曲线之下,当收益出现 3+ 个标准差时,通常会导致巨大的意外。
正如我们所理解的,“正态性”有时可能是一个弱假设,我们可以使用已实现的分布(采用不同的时间框架)并查看它如何符合正态分布,因此我们可以评估资产的回报分布有多正常.
相关性
如果说大多数量化分析师和交易员喜欢一件事,那就是“相关性”。相关性可能是统计学中使用最多但最容易被误解的概念。我们大多数人使用的相关系数是“Pearson Correlation”(以 Karl Pearson 命名)。相关性,简而言之,描述了两个变量(X,Y)之间的线性关系。相关性在(-1,负线性关系)和(+1,正线性关系)之间振荡。
首先,我们需要了解什么不是相关性。它不是预测变量(即,它不表示因果关系,而是线性关系)。当我们使用相关函数时,我们需要确保我们不会犯以下错误:
-
分析价格而不是收益(对数收益或实际收益)——当我们处理时间序列时,我们通常处理资产价格。资产价格本质上是“非平稳的”。“非平稳”过程基本上意味着资产呈现趋势(或非均值回归过程)。如果我们以黄金现货价格与 10 年国债实际收益率为例,我们可以清楚地看到使用非平稳数据的效果。这是黄金/收益率价格的回归模型拟合结果:
黄金/ 10 年期实际收益率价格回归。R²=0.81 , R=-0.9
然而,这就是价格变化收益率的回归拟合结果(即平稳时间序列)的样子
黄金 (Log Rtn)/10 年实际收益率(价格变化)。R²=0.18, R=-0.43
2.没有过多考虑样本量/频率——当我们分析相关性时,就像我们分析波动率时一样,我们需要对我们的样本量/频率给予很多考虑。大小和频率都对我们的相关性估计有很大影响。如果我们使用的频率太短,我们可能会将短期行为与持续相关性混淆。这个问题的另一面是使用的样本量太长(假设我们想要交易短期策略时的 1 年相关性)。如果我们查看下面的相关矩阵热图,我们可以清楚地看到使用 20 天窗口和 180 天窗口之间的区别
解决样本大小问题的一个好方法是对不同大小和不同时期(非重叠时期)进行采样,以测试相关性持久性。
3.假设长期相关性持续存在——相关性分析的主要缺陷之一是认为长期相关性不会失效。这种假设通常在金融压力和市场低迷时期被抛弃,因为相关性往往会破裂并走向极端。如果我们看看 2020 年 3 月,我们可以清楚地看到相关性的巨大变化
Z 分数 (%ile) 和均值回归
作为交易者,我们希望以良好的风险回报进入交易。我们用来确定风险回报的一种方法是使用 Z 分数。简而言之,Z-score 是一种衡量我们观察与分布均值的距离(以标准差计)的方法(该分数也可以很容易地转换为 %ile 项)。显然,作为交易者,我们的目标是寻找极端事件,因为它们提供了最好的风险回报(因为我们假设某种回归/趋同于均值)。Z-score 的棘手之处在于,与统计中的其他所有内容一样,它高度依赖于我们的样本量和频率。使用 z 分数作为信号的陷阱的一个很好的例子是 2020 年 3 月/4 月黄金期货场外交易基础上的走势。
所以我们看到使用 z 分数是时间序列极端性的一个很好的指标,但它不能是唯一的指标。
解决这个陷阱的一个很好的方法是将我们当前的观察结果与历史上不同的回顾窗口(时期)进行比较,以解释不同的市场制度。
模型实现
在我们了解了统计分析中可能存在的陷阱之后,我们转向交易的核心——我们的模型。虽然在实施我们的模型/策略时有很多方法可能会失败,但我们将专注于我们可能犯的最常见(也是最关键)的错误。避免这些陷阱将大大有助于确保我们模型的适应性和稳健性。
过拟合/欠拟合
模型拟合既是一门艺术,也是一门科学。在拟合我们的模型时,我们需要在模型过拟合和模型欠拟合之间找到一条细线。这两种偏差最有可能导致我们模型的性能不佳。
_过拟合——_当我们的模型在捕捉动态时非常精确时会导致过拟合。通常过拟合模型会涉及到相对大量的解释变量。
_欠_拟合-欠拟合是过拟合的镜像问题。当模型太简单(变量太少)时会导致欠拟合,这使得它在捕捉动态时不灵活。
USDJPY 1 周 RVol 与 UDSJPY 1 个月 RVol 回归。
在拟合模型时,我们的目标是使用最少的变量,但具有最大的预测能力。其背后的想法是,我们希望将模型校准到最低限度,同时拥有一个能够产生稳健结果的模型。我们添加的变量越多,我们需要进行的校准就越多,它能够快速应对不断变化的市场的能力就越差。
异常值处理
无论我们喜欢与否,异常值观察都是我们数据系列的一部分。我们不能忽略这些异常值,但是,我们需要知道如何处理它们,这样我们的模型才不会因极端观察而出现偏差。显然,我们需要区分异常值的类型——如果我们发现观察明显是错误的(数据错误),我们可以删除它,但是,如果它是有效的观察,我们应该接受它并让我们的模型处理它。
模型模拟
现在我们已经有了一个基于稳健统计/数据分析的健全模型,我们希望对历史(或生成的)数据进行回测(或模拟)。这是我们模型开发的关键部分,因为这是我们可以看到(和分析)我们的模型在受控环境中如何表现的关键。尽管在这个阶段犯错误的方法更少(与之前的阶段相比),但这些错误可能会付出高昂的代价,因为我们将无法发现模型的弱点(或问题)。
测试不同的市场区制状态
当我们构建模型时,我们希望它在 100% 的时间内表现良好。不幸的是,这几乎是不可能的,因为不同的策略将在不同的市场区制中表现良好(想想波动市场中的趋势跟踪策略)。我们可以确定模型表现不佳的点。为了让我们识别这些弱点,我们应该在不同的市场区制下测试我们的策略(区制转换模型是识别这些区制的好方法)