AFML读书笔记--Backtest Statistics & Understanding Strategy Risk

技术2023-09-03 123

Advance Finance Machine Learning读书笔记

因为年初疫情影响，书剩在别的地方无法出门取，AFML所以断更了很久，现在持续更新中…… 之前有搜到大神weixin_38753422的AFML系列。写得很详细并且有代码和图片解释，链接在此此系列从Part 1 Chapter 3开始写起，Chapter3之前内容可以在上面的链接里看到。（注意并不是所有内容的整理，而是我个人觉得需要整理的内容）

本文讲的时Part 3 Chapter 14 &15 Backtest Statistics & Understanding Strategy Risk

评价策略

前几章内容记录了进行回测的三种不同方法

前向回测法CPCV法人造数据法

这一章主要记录的是有哪些可以给策略进行评估的指标以下是一些指标的罗列：

时间跨度：我们的回测时间长度应该做到尽可能地长，囊括住所有的情况平均AUM：AUM（Asset Under Management）平均持仓量，

\frac{持仓金额}{持仓标的物的数量}

平均容量：最小AUM指的是能满足最基本的持仓和风险控制的需求、但是随着AUM的上升，交易成本就会不断上升，平均容量就是指该策略能达到的最优风险控制下的最大AUM杠杆：这个没啥好解释的吧最大持仓量：策略给出的Bet金额的最大量，建议是接近于平均AUM，给出的越大表明策略越倾向学习到了特殊事件（异常值）多头仓位：在一个多空中立的策略中，多头仓位应该接近于0.5，如果偏离比较严重，回测结果可能于实际投入结果相差较远交易频率：这个不解释了平均持仓时间：高频策略这个值会低，低频策略这个值会高年化成交量：

\frac{年度交易的金额}{年度平均AUM}

与指数的相关程度：如果你的收益与大盘收益的有高度相关，那么你的策略并没有多大的价值

评价指标：

PnL：策略在回测数据上的总收益多头PnL：策略的多头收益，可以用户检测策略在多空方向上的偏差年化收益：不解释Hit比例：Bet最终是正PnL 占总Bet数的比例Hit收益：在Hit bet中所产生的收益策略损失：在非Hit Bet 中所产生的亏损

总收益是指变现了的或者未变现的账面收益，包括应计利息，已付息票和交易期间的股息

了解你的策略风险

每个策略都有它自己的止盈止损的点位，即使你的策略不设置止损的点位，那跌到需要交保证金的时候就是止损位了。所以一个策略总有它的两个退出位。

对称成本

假设你的策略每年会执行 $n$ 个服从 $I I D$ 的bet，那每个bet我们可以用 $X_i, i\in[1,n]$ 来表示正收益的bet表示为：收益 $\pi >0$ 机率 $P[X_i = \pi] = p$ 负收益的bet表示为：收益 $\pi <0$ 机率 $P[X_i = -\pi] = 1 - p$ $p$ 是模型预测的二分类结果的probability 真正例会获得正收益假正例会负收益真负例与假负例都会Pass，不会产生bet 因为每个bet之间都是相互独立的，所以收益的期望是 $E[X_i]=\pi p+(-\pi)(1-p)=\pi(2p-1)$ 收益的方差是 $V[X_i]=E[X_i^2]-E[X_i]^2=4\pi^2 p(1-p)$ 也就可以算出年化夏普比率 $\theta$ 为：可以看出夏普比率与收益无关，并且 $n$ 越大，夏普比例越大，也就解释了为什么机构都喜欢高频策略了。夏普比率是跟Precision有关，与Accuracy无关，如果Bet中负例太多， $n$ 就越少也就夏普比率越小。同时，我们可以通过上式反推出 $p$ 的值如果我们确定夏普比率的情况下 $0\leqslant p\leqslant1$ 当我们策略是每周进行一bet，那么策略的precision需要达到 $p = 0.6336$ ，夏普 $\theta$ 才能达到2

非对称成本

假设你的策略每年会执行 $n$ 个服从 $I I D$ 的bet，那每个bet我们可以用 $X_i, i\in[1,n]$ 来表示正收益的bet表示为：收益 $\pi >0$ 机率 $P[X_i = \pi_+] = p_i$ 负收益的bet表示为：收益 $\pi <0$ 机率 $P[X_i = \pi_-] = 1 - p$ 且 $\pi_+>\pi_-$ 收益的期望是 $E[X_i]=(\pi_+-\pi_-)p+\pi_i$ 收益的方差是 $(\pi_+-\pi_-)^2 p(1-p)$ 所以策划的年化夏普收益率为：当 $\pi_+ =\pi_-$ 的情况下上式就是这个到这我们就推出了在不同参数（ $\pi_-,\pi_+,n$ ）策略需要达到多高的Precision $p$ 才能达成指定的夏普比率 $\theta$ 例子：设 $\pi_+=.005, \pi_-=-.01$ ，那么要达到 $\theta = 2$ , $p$ 就必须达到.72（这个要达到这个Precision不容易）同时也说明了策略在这些参数的细微变化下，会变化比较大

策略风险估计

当策略参数 $\pi_-,\pi_+,\theta$ 各个参数都确定了之后，就可以判断策略的临界 $p$ 值： $P[p<p_\theta*]$ 当 $p$ 小于 $p_\theta*$ 时策略就会亏钱

有一时间序列的bet记录 $\{\pi_t\}_{t=1,2……,T}$ bet序列中的负收益预期可以表示为 $\pi_-=E[\{\pi_t|\pi_t\leqslant0\}_{t=1……T}]$ bet序列中的正收益预期可以表示为 $\pi_+=E[\{\pi_t|\pi_t\geqslant 0\}_{t=1……T}]$ (这里正、负收益的bet也可以通过模拟混合高斯模型，运用EF3M算法) 接下来年化bet频次 $\frac{T}{y}$ $y$ 是运行策略的年数 $\leqslant y\leqslant T$ 最后按照下述步骤[重复采样] $p$ : 重复 $I$ 次以下步骤： $i = 1 \dots \dots I$

从时间序列bet

\{\pi_t\}_{t=1,2……,T}

中抽取

\left \lfloor nk \right \rfloor

个样本 (

\left \lfloor . \right \rfloor

是向下取整)，k是你用来衡量策略的年份（eg.k=2）。每次抽取出的样本表示为

\{\pi_j^{(i)}\}_{j=1……k}

获得

p_i=\frac{\left \| \{\pi_j^{(i)}|\pi_j^{(i)}> 0\}_{t=1……\left \lfloor nk \right \rfloor}\right \|}{\left \lfloor nk \right \rfloor}

对 ${p_i\}_{i=1……I}$ 使用核密度估计方法，模拟一个PDF函数，记为 $f [p]$ 在足够的多的样本抽样下，可以得出 $\sim N[\bar{p},\bar{p}(1-\bar{p})]$ ,且 $\bar{p} = E[p] = \frac{\left \| \{\pi_t|\pi_t^{(i)}\geqslant 0\}_{t=1……T} \right \|}{T}$ 在给予限定夏普比率 $\theta^*$ 情况下，策略风险可以用 $P[p<p_{\theta^*}]=\int_{-\infty}^{p_{\theta^*}}f[p]dp$ 表示

Processed: 0.019, SQL: 9

AFML读书笔记--Backtest Statistics &amp; Understanding Strategy Risk