Python深度强化学习对冲策略:衍生品投资组合套期保值Black-Scholes、Heston模型分析
全文链接:https://tecdat.cn/?p=38463
原文出处:拓端数据部落公众号
本文提出了一个在存在交易成本、市场冲击、流动性约束或风险限制等市场摩擦的情况下,使用现代深度强化学习方法对衍生品投资组合进行套期保值的框架。我们讨论了标准强化学习方法如何应用于非线性奖励结构,即本文中的凸风险度量。
作为深度学习在随机过程应用中的一般性贡献,我们算法所使用的受限交易策略集足够大,可以对任何最优解进行ϵ-近似。我们的算法即使在高维情况下也可以使用现代机器学习工具高效实现。其结构不依赖于特定的市场动态,并且可以推广到包括使用流动性衍生品在内的各种套期保值工具。其计算性能在很大程度上与投资组合的规模无关,因为它主要取决于可用套期保值工具的数量。我们通过在由Heston模型驱动的合成市场中展示交易成本对套期保值的影响来说明我们的方法,在该市场中我们优于标准的“完全市场”解决方案。
一、引言
衍生品投资组合的定价和套期保值问题对于金融证券行业的定价风险管理至关重要。在理想化的无摩擦和“完全市场”模型中,数学金融通过风险中性定价和套期保值为该问题提供了一种易于处理的解决方案。最常见的是,在这类模型中仅对主要资产(如股票)和少数其他因素进行建模。可以说,对于股票模型最成功的此类模型是Dupire的局部波动率模型[Dup94]。本质上,这些模型被用作套期保值工具的一种低维插值形式。在完全市场假设下,衍生品投资组合的定价和风险是线性的。
然而,在实际市场中,任何工具的交易都受到交易成本、永久性市场冲击和流动性约束的影响。此外,任何交易部门通常还受到其风险和压力承受能力的限制,或者更一般地说,受到资本的限制。这也意味着定价和风险不是线性的,而是取决于整个投资组合:在特定方向上降低风险的新交易可以更优惠地定价。这被称为具有“偏好”。
“完全市场”模型的普遍使用是由于缺乏有效的替代方案;即使在过去几年中在例如超级套期保值方面取得了令人瞩目的进展,仍然很少有解决方案能够在大量工具的投资组合上很好地扩展,并且不依赖于基础市场动态。
我们的深度套期保值方法解决了这一不足。本质上,我们将套期保值策略中的交易决策建模为神经网络;它们的特征集不仅包括我们套期保值工具的价格,还可能包含其他信息,如交易信号、新闻分析或过去的套期保值决策。
这种深度套期保值策略可以以非常高效的方式进行描述和训练(用经典语言来说就是优化),而相应的算法完全是无模型的,并且不依赖于所选的市场动态。这意味着我们可以纳入市场摩擦,如交易成本、流动性约束、买卖价差、市场冲击等,所有这些都可能取决于场景的特征。
高级优化器然后找到相当好的策略,以在所述目标下实现良好的样本外套期保值性能。在我们的示例中,我们针对半递归强化学习问题使用梯度下降“Adam”[KB15]小批量训练。
为了说明我们的方法,我们将基于[IAR09]和[FL00]中的思想,并在凸风险度量下优化衍生品投资组合的套期保值。为了能够将我们的结果与经典的完全市场结果进行比较,我们在本文中选择使用Heston模型驱动市场。
二、相关文献
关于在有摩擦的市场模型中进行套期保值的文献非常丰富。我们仅强调一些以展示该问题的复杂性。例如,[RS10]研究了一个市场,在其中交易一种证券会对其价格产生(暂时)影响。价格过程由一维Black-Scholes模型建模。最优交易策略可以通过求解一个由三个耦合(非线性)偏微分方程组成的系统来获得。在[PBV17]中,针对Bachelier模型进行了一个更一般的跟踪问题(涵盖了暂时价格影响套期保值问题),并为该策略获得了一个封闭形式的解(涉及对最优无摩擦套期保值策略的时间积分的条件期望)。[HMSC95]证明,在具有比例交易成本的Black-Scholes市场中,欧式看涨期权的最便宜超套期保值价格是基础资产的现货价格。因此,在一维情况下,超复制的概念对从业者来说意义不大。在高维情况下,它存在数值上难以处理的问题。
众所周知,深度前馈网络满足通用逼近性质,例如见[Hor91]。为了更好地理解它们为什么在逼近套期保值策略方面如此有效,我们依赖于[HBP17]中非常新且引人入胜的结果,其可以表述如下:它们量化了允许在规定误差内逼近预定义函数类中的所有元素所需的最小网络连通性,这在逼近网络的连通性和被逼近的函数类的复杂性之间建立了一种通用联系。建立了一个将关于表示系统的最优MM-项逼近结果转换为神经网络的最优MM-边逼近结果的抽象框架。这些转换结果适用于可由神经网络表示的字典,并且[HBP17]还表明,一大类表示系统,即仿射系统,包括作为特殊情况的小波、脊波、曲波、剪切波、αα-剪切波以及更一般的αα-分子及其张量积,都可由神经网络表示。这些结果为神经网络的“不合理有效性”提供了一种解释:它们有效地结合了所有仿射系统的最优逼近性质。在我们的深度套期保值策略应用中,这意味着:理解可以有效地写出最优套期保值策略的相关输入因素。
在金融领域中,强化学习有几个相关应用也面临类似的挑战,我们想强调其中两个相关的方向:第一个是在经典投资组合优化中的应用,即在没有期权且假设所有套期保值工具的市场价格都可用的情况下。与我们的设置一样,这个问题需要使用非线性目标函数,例如见[MW97]或[ZJL17]。强化学习的第二个有前景的应用是在算法交易中,例如[DZL09]和[Lu17]等几位作者已经展示了有希望的结果。
本文的新颖之处在于我们首先涵盖了衍生品,特别是场外衍生品,它们没有可观察的市场价格。例如,[Hal17]仅在Black&Scholes假设下且没有交易成本的情况下,使用Q学习涵盖了仅使用股票价格的套期保值。
这使我们的文章坚定地处于在有摩擦成本的不完全市场中对或有债权进行定价和风险管理的领域。关于此类市场的定量金融的一般介绍是[FS16]。
三、基于凸风险度量的定价与套期保值
在理想化的连续时间交易、无交易成本且套期保值无约束的完全市场中,对于任意负债Z,存在唯一的复制策略δ以及公平价格p₀∈R,使得 -Z + p₀ + (δ·S)ₜ - Cₜ(δ) = 0在P - 几乎必然意义下成立。但在我们当前的设定中并非如此。
在存在摩擦的不完全市场中,投资者必须指定一个最优性标准,该标准为任意头寸定义一个可接受的“最低价格”。这样的最低价格将是我们为实施最优套期保值而需添加到头寸中的最小现金量,从而使得整体头寸在考虑各种成本和约束的情况下变得可接受。
在此,我们专注于如[Xu06]和[IAR09]中所研究的凸风险度量下的最优性。在动态设定方面,另见[KS07]及其中的更多参考文献。凸风险度量在[FS16]中有详细讨论。
在不完全市场中,由于交易成本、流动性约束等因素的存在,传统的完全市场定价与套期保值理论不再适用。凸风险度量为处理这类复杂情况提供了一种有效的框架。它能够综合考虑各种风险因素以及市场摩擦,从而确定一个更为合理的价格和套期保值策略。例如,在考虑交易成本时,凸风险度量可以权衡交易成本与风险降低之间的关系,使得投资者能够在成本可控的前提下,尽可能地降低风险暴露。通过对凸风险度量的深入研究和应用,可以为金融市场中的投资者提供更具针对性和实用性的决策依据,帮助他们更好地应对市场的不确定性和复杂性,实现资产的保值增值。
四、通过深度神经网络逼近套期保值策略
Deep Hedging模型的神经网络部分并不复杂,甚至相对一些著名的用于图像识别的神经网络,都不能算是深(Deep)。网络只有两层,都是全连接层(Fully Connected Layer),各有15个神经元。再加上一个输入层,一个输出层,共四层。
为了比较神经网络策略与基准模型,我们选择网络输入为Ik = (log(Sk1); Vk)。也可以将Vk替换为Sk2。在时间步tk的网络结构如图1所示。
独特的损失函数
除此之外,由于神经网络可以使用不同的损失函数(Loss Function)对模型进行优化。在金融衍生品定价中,其实际上是代表了不同投资者的风险偏好,或者是他们的效用函数(即合同到期后产生的损失或收益,对投资人总体经济效用的影响)。所以Deep Hedging的损失函数和其他常见的深度学习模型(例如图像识别,或语音处理模型)非常不同。提出了两个可选的损失函数。一个是熵风险衡量(Entropy Risk Measure),方程如下:
λλ 为大于零的常数,可以代表投资人的风险偏好。即 λλ 越大,投资人可以接受的风险越大。模型的设计者可以自己选择 λλ 的值,从而满足不同金融机构或者投资人的风险习惯,股东或者监管的投资限制和要求。
提出的另一个损失函数,就是基于监管文件中常见的预期损失(Expected Shortfall):
这个方法的逻辑并不复杂。首先假设一个通常情况发生的概率,比如90%。然后计算所有剩余10%的极端情况发生后,发生损失的数学期望,然后将这个数学期望设定为对于风险的判定。所以,如果 αα 的值为99%,就比90%更加极端,那么计算出的预期损失就更大。在实际运用中,我们可以模拟106 条标的资产的价格走势,代表106 种可能的市场行情。然后运用对冲模型计算每一个情况下,当合同到期时的最终收益。然后计算其中1%最差的情况的平均损失,作为期权定价的基准。这里的 VaRVaR 指的是风险价值(Value at Risk)。
通过使用直接与风险偏好关联的损失函数,Deep Hedging显然更符合金融衍生品市场参与者的习惯做法,并且更容易与监管要求相匹配。
结果
我们现在将模型对冲δH与对应不同风险偏好的深度对冲策略δθ进行比较,这些风险偏好由平均风险价值中的不同α水平捕获。
作为第一个例子,考虑一个欧式看涨期权,即Z = (ST1 - K)+,其中K = s0。按照概述的方法,我们计算了的(接近)最优参数θ,其中X = -Z,并用δθ和pθ0分别表示(接近)最优对冲策略和的价值。作为一个样本外测试,然后可以模拟另一组样本轨迹(这里为10^6),并在每个轨迹上评估最终对冲误差q - Z + (δH · S)T(模型对冲)和pθ0 - Z + (δθ · S)T(CVar)。实际上,由于风险调整后的价格pθ0高于风险中性价格q = 1.69,对于(CVar)我们评估了q - Z + (δθ · S)T,即使用与ρ相关的最优策略的对冲误差,但只收取风险中性价格q。这在图2的直方图中显示,对于α = 0.5,得到风险调整后的价格pθ0 = 1.94。可以看出,δH和δθ的对冲性能非常相似。特别是:
- 对于这种风险偏好选择,最优策略接近模型对冲δH,
- 神经网络策略δθ能够很好地近似最优策略。
这也通过图3进行了说明,其中在固定时间点t的策略δtθ和δtH在(St1; Vt) = (s; v)的网格值上绘制,条件是(s; v)。为了使这个最后的比较完全有意义,而不是循环网络结构δθk = Fθk(Ik; δkθ-1),这里使用了更简单的结构δkθ = Fθk(Ik)。然而,这种更简单结构的对冲性能也非常相似,见图4。
-
torch.manual_seed(42)
-
model = MultiLayerPerceptron()
-
hedger = Hedger(model, ["log_moneyness", "expiry_time", "volatility"])
-
hedger.fit(option, n_paths=10000, n_epochs=200)
-
price = hedger.price(option, n_paths=10000, n_times=10)
-
print(f"Price={price:.5e}")
-
model = MultiLayerPerceptron(out_features=2)
-
hedger = Hedger(model, ["log_moneyness", "expiry_time", "volatility"])
-
hedger.fit(option, hedge=[stock, varswap], n_paths=10000, n_epochs=200)
-
price = hedger.price(option, hedge=[stock, varswap], n_paths=10000, n_times=10)
更极端的情况在图6中显示,其中不是模型对冲,而是使用了99%-CVar标准,即α = 0.99。这导致风险调整后的价格pθ0 = 3.49显著更高。如果使用50%和99%-CVar最优策略,但只收取风险中性价格(见图7),可以清楚地看到风险偏好:50%-CVar策略更集中在0,并且平均对冲误差较小,但99%预期亏损值较小。
图2. 模型对冲与50%预期亏损标准相关的深度对冲比较
图3. 在t = 15天时,δH;(1)t和神经网络近似作为(st; vt)的函数
图4. 比较循环和更简单的网络结构(无交易成本)
图5. 网络架构问题:比较循环和更简单的网络结构(有交易成本和99%-CVar标准)
图6. 99%-CVar和50%-CVar最优标准比较
图7. 比较99%-CVar和50%-CVar最优标准
图8. 看涨期权价差H(1)t和神经网络近似作为(st; vt)的函数,时间为15天
图9. 看涨期权价差H(1)t和神经网络近似作为(st; vt)的函数,时间为15天
图10. Black-Scholes模型价格渐近性
-
model = BlackScholes(derivative)
-
hedger = Hedger(model, model.inputs())
图11. Heston模型价格渐近性
参考文献
-
[BK06] M. Broadie and O. Kaya, “Exact simulation of stochastic volatility and other affine jump diffusion processes,” Operations Research, vol. 54, no. 2, pp. 217-231, 2006.
-
[BR06] C. Burgert and L. Ruschendorf, “Consistent risk measures for portfolio vectors,” Insurance: Mathematics and Economics, vol. 31, pp. 289-297, 2006.
-
[BTT07] H. Follmer and A. Schied, “Stochastic finance: An introduction in discrete time,” De Gruyter, 2016.
-
[Duf01] D. Dufresne, “The integrated square-root process,” Centre for Actuarial Studies, University of Melbourne, Research Paper no. 90, 2001.
-
[Dup94] B. Dupire, “Pricing with a smile,” Risk, vol. 7, pp. 18-20, 1994.
-
[DZL09] X. Du, J. Zhai, and K. Lv, “Algorithm trading using q-learning and recurrent reinforcement learning,” arXiv:1707.07338, 2009. [Online]. Available: https://arxiv.org/pdf/1707.07338.pdf.
-
[FL00] H. Follmer and P. Leukert, “Efficient hedging: Cost versus shortfall risk,” Finance and Stochastics, vol. 4, pp. 117-146, 2000.
-
[FS16] H. Follmer and A. Schied, “Stochastic finance: An introduction in discrete time,” De Gruyter, 2016.
-
[Gla04] P. Glasserman, “Monte carlo methods in financial engineering,” Applications of mathematics: stochastic modelling and applied probability, Springer, 2004.
-
[GS13] J. Gatheral and A. Schied, “Dynamical models of market impact and algorithms for order execution,” Handbook on Systemic Risk, pp. 579-599, 2013.
-
[Hal17] I. Halperin, “QLBS: Q-learner in the Black-Scholes (-Merton) worlds,” arXiv:1712.04609, 2017. [Online]. Available: https://arxiv.org/abs/1712.04609.
-
[HBP17] G. Kutyniok, H. Bolcskei, P. Grohs and P. Petersen, “Optimal approximation with sparsely connected deep neural networks,” Preprint arXiv:1705.01714, 2017.
-
[HMSC95] S.E. Shreve, H.M. Soner and J. Cvitanic, “There is no nontrivial hedging portfolio for option pricing with transaction costs,” The Annals of Applied Probability, vol. 5, no. 2, pp. 327-355, 1995.
-
[HN89] S. Hodges and A. Neuberger, “Optimal replication of contingent claims under transaction costs,” The Review of Futures Markets, vol. 8, no. 2, pp. 222-239, 1989.
-
[Hor91] K. Hornik, “Approximation capabilities of multilayer feedforward networks,” Neural Networks, vol. 4, no. 2, pp. 251-257, 1991.
-
[IAR09] M. Jonsson, A. Ilhan and R. Sircar, “Optimal static-dynamic hedges for exotic options under convex risk measures,” Stochastic Processes and their Applications, vol. 119, no. 10, pp. 3608-3632, 2009.
-
[IGC16] Y. Bengio, I. Goodfellow and A. Courville, “Deep learning,” MIT Press, 2016. [Online]. Available: http://www.deeplearningbook.org.
-
[IS15] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” Proceedings of the 32nd International Conference on Machine Learning, pp. 448-456, 2015.
-
[JMKS17] M. Reppen, J. Muhle-Karbe and H. M. Soner, “A primer on portfolio choice with small transaction costs,” Annual Review of Financial Economics, vol. 9, no. 1, pp. 301-331, 2017.
-
[KB15] D. P. Kingma and J. Ba, “Adam: a method for stochastic optimization,” Proceedings of the International Conference on Learning Representations (ICLR), 2015.
-
[KMK15] J. Kallsen and J. Muhle-Karbe, “Option pricing and hedging with small transaction costs,” Mathematical Finance, vol. 25, no. 4, pp. 702-723, 2015.
-
[KS07] S. Kloppel and M. Schweizer, “Dynamic indifference valuation via convex risk measures,” Mathematical Finance, vol. 17, no. 4, pp. 599-627, 2007.
-
[LBAK10] P. Jackel, L. B. G. Andersen and C. Kahl, “Simulation of square-root processes,” Encyclopedia of Quantitative Finance, John Wiley & Sons, Ltd, 2010.
-
[Lu17] D. Lu, “Agent inspired trading using recurrent reinforcement learning and LSTM neural networks,” arXiv:1707.07338, 2017. [Online]. Available: https://arxiv.org/pdf/1707.07338.pdf.
-
[MHADZ93] V. G. Panas, M. H. A. Davis and T. Zariphopoulou, “European option pricing with transaction costs,” SIAM Journal on Control and Optimization, vol. 31, no. 2, pp. 470-493, 1993.
-
[MW97] J. Moody and L. Wu, “Optimization of trading systems and portfolios,” Proceedings of the IEEE/IAFE 1997 Computational Intelligence for Financial Engineering (CIFEr), pp. 300-307, 1997.
-
[PBV17] H. M. Soner, P. Bank and M. Vo, “Hedging with temporary price impact,” Mathematics and Financial Economics, vol. 11, no. 2, pp. 215-239, 2017.
-
[Rog04] L. C. G. Rogers, “Why is the effect of proportional transaction costs O( 2/3),” Mathematics of Finance (G. Yin and Q. Zhang, eds.), American Mathematical Society, Providence, RI, pp. 303-308, 2004.
-
[RS10] L. C. G. Rogers and S. Singh, “The cost of illiquidity and its effects on hedging,” Mathematical Finance, vol. 20, no. 4, pp. 597-615, 2010.
-
[WW97] A. E. Whalley and P. Wilmott, “An asymptotic analysis of an optimal hedging model for option pricing with transaction costs,” Mathematical Finance, vol. 7, no. 3, pp. 307-324, 1997.
-
[Xu06] M. Xu, “Risk measure pricing and hedging in incomplete markets,” Annals of Finance, vol. 2, no. 1, pp. 51-71, 2006.
-
[ZJL17] D. Xu, Z. Jiang and J. Liang, “A deep reinforcement learning framework for the financial portfolio management problem,” arXiv:1706.10059, 2017. [Online]. Available: https://arxiv.org/abs/1706.10059.