Aprenda Neural SDE do Zero

Neural SDE do zero

1/5

Seção 1

Deixe a rede aprender a SDE

Todo modelo que você viu até agora -- Black-Scholes, Heston, SABR -- parte de uma equação escolhida por humanos. Você escolhe a SDE e depois ajusta alguns parâmetros. As SDEs neurais invertem o roteiro: deixe uma rede neural aprender a própria equação a partir dos dados.

O fluxo de trabalho clássico é: o humano escreve dS = f(S,t)·dW with a specific f (like σ·S, orσ·Sᵝ, ou algo envolvendo vol estocástica). Então você calibra de 3 a 5 parâmetros aos dados de mercado.

O fluxo de trabalho da SDE neural é: o drift μ(S,t) e a difusão σ(S,t) são as saídas de uma rede neural. A rede tem milhares de parâmetros (pesos e vieses). Você a treina minimizando o erro entre os preços do modelo e os preços de opções observados.

SDE neural

dX = μₕ(X, t)·dt + σₕ(X, t)·dW

μₕ and σₕ são redes neurais com parâmetros θ. Elas recebem o estado atual X e o tempo t como entradas e produzem o drift e a difusão instantâneos.

Modelo mental

A modelagem clássica é como escolher uma receita e ajustar a temperatura do forno. A modelagem com SDE neural é como ensinar um chef a inventar a receita provando milhares de pratos (preços observados) e ajustando até que o resultado corresponda ao que o mercado serve.

Por que se dar ao trabalho? Porque às vezes nenhuma família de modelos padrão se ajusta bem o suficiente aos dados. A dinâmica do mercado pode ter características -- mudanças de regime, clustering assimétrico, comportamento dependente da trajetória -- que nenhum modelo de cinco parâmetros consegue capturar. Uma SDE neural pode, em princípio, aproximar quaisquer funções contínuas de drift e difusão. A questão é se você tem dados e disciplina suficientes para treiná-la de forma confiável.

Seção 2

Arquitetura

A rede é uma arquitetura feedforward padrão. As entradas são o estado atual do mercado. As saídas são os coeficientes da SDE. A rede É o modelo.

Entradas: Preço spot S, tempo t e, opcionalmente, características de mercado como volatilidade implícita atual, inclinação do skew ou formato da estrutura a termo. Quanto mais rica a entrada, mais contexto a rede tem para decidir qual deve ser σ neste ponto.

Camadas ocultas: Tipicamente 2-4 camadas com 32-128 neurônios cada. Ativações ReLU ou softplus. Nada exótico. A mágica não está na arquitetura; está no que a rede aprende a representar.

Saídas: O drift μ(S,t) e a difusão σ(S,t). A saída da difusão passa por uma softplus ou exponencial para garantir que permaneça positiva. Esses dois números, avaliados no estado atual, definem o que a SDE faz neste instante.

Arquitetura da SDE Neural

O estado do mercado (S, t, features) entra pela esquerda. Camadas ocultas com ativações não lineares o transformam. A camada de saída produz o drift instantâneo μ e a difusão σ -- as duas funções que definem a SDE aprendida. Passe o mouse para destacar as camadas.

Treinamento: Gere trajetórias da SDE neural usando uma discretização de Euler-Maruyama. Precifique opções ao longo dessas trajetórias via Monte Carlo. Compare os preços do modelo com os preços de mercado observados. Retropropague o erro de precificação através da simulação de trajetórias até os pesos da rede. Isso é programação diferenciável aplicada a processos estocásticos.

O insight técnico fundamental: todo o pipeline -- dos pesos da rede aos coeficientes da SDE, às trajetórias simuladas e aos preços das opções -- é diferenciável. Você pode calcular gradientes da perda de precificação em relação a cada peso da rede. É isso que torna o treinamento viável.

Seção 3

Deep hedging

Uma vez que você tem uma SDE aprendida para a dinâmica de preços, o próximo passo natural é também aprender o hedge. O deep hedging usa uma segunda rede para produzir a razão de hedge a cada passo de tempo, treinada em conjunto com o modelo de precificação.

O hedge clássico calcula o delta analiticamente a partir do modelo: ∂C/∂S sob BS, ou uma aproximação numérica em modelos mais complexos. Isso ignora custos de transação, impacto no mercado, rebalanceamento discreto e restrições de liquidez.

O deep hedging propõe: treine uma rede para produzir a razão de hedge δ(S, t, portfólio) a cada passo de tempo. O objetivo do treinamento não é minimizar o erro de rastreamento em relação a um delta teórico. É minimizar a variância real do P&L do hedge (ou o CVaR, ou qualquer medida de risco), incluindo custos de transação.

Objetivo do deep hedging

minₕ Risk[ PnL(V₀, δₕ, costs) ]

A rede δₕ produz a razão de hedge a cada passo de rebalanceamento. A função objetivo inclui os custos reais de negociação, não apenas o erro de rastreamento teórico.

O resultado: uma estratégia de hedge que está ciente das fricções do mundo real que o delta clássico ignora. Em backtests, estratégias de deep hedging frequentemente apresentam custo de hedge realizado menor do que o delta baseado em modelo, especialmente para:

1. Regimes de altos custos de transação. A rede aprende a fazer hedge com menos frequência quando os custos são altos, efetivamente escolhendo uma banda de não-negociação mais ampla.

2. Ativos subjacentes ilíquidos. A rede aprende a usar instrumentos líquidos correlacionados como hedges substitutos quando o hedge direto é caro.

3. Exóticos dependentes da trajetória. Onde não existe uma fórmula simples de delta, a rede ainda consegue aprender hedges eficazes a partir de trajetórias simuladas.

O insight do aprendizado conjunto

A versão mais poderosa treina a SDE de precificação e a rede de hedge simultaneamente. A SDE aprende dinâmicas consistentes com os preços observados, e a rede de hedge aprende a fazer hedge sob essas dinâmicas. As duas redes se regularizam mutuamente: a SDE não pode aprender dinâmicas irrealistas porque a rede de hedge teria um desempenho ruim, e vice-versa.

Seção 4

O que a rede descobre

Quando você inspeciona a função σ(S,t) aprendida, ela frequentemente se parece com volatilidade local com características estocásticas. A rede descobre de forma independente estruturas que os humanos passaram décadas projetando.

Treine uma SDE neural com dados de opções de ações ou de cripto e depois plote a função de difusão aprendida σ(S,t) como um mapa de calor. Achados típicos:

Efeito alavancagem. A rede aprende que σ(S,t) é maior quando S está baixo e menor quando S está alto. Este é exatamente o mecanismo que Heston captura com ρ negativo e que o CEV captura com β < 1. A rede não conhece esses modelos. Ela encontra o padrão nos dados.

Reversão à média na volatilidade. O σ aprendido tende a ficar elevado após grandes movimentos recentes e reverte em direção a um nível base. A rede descobriu de forma independente a reversão à média do tipo CIR que Heston codifica de forma fixa.

Clustering de volatilidade. A rede aprende que estados de alta volatilidade persistem -- σ(S,t) permanece elevado por um tempo após um pico. Este é o clustering do tipo GARCH que os profissionais conhecem bem, mas com o qual modelos simples de volatilidade estocástica têm dificuldade.

O que a rede descobre

Vol rises as price falls -- the network learned the classic equity/crypto pattern

Alterne entre os três padrões acima. Cada um representa o que uma SDE neural treinada em diferentes regimes de dados pode descobrir. A questão não é que a rede seja mais inteligente que Heston ou SABR. A questão é que ela chega a estruturas semelhantes sem que lhe digam para procurá-las. Isso é forte evidência de que essas estruturas são características reais dos dados, e não artefatos da família de modelos.

O outro lado: a rede também pode descobrir padrões espúrios se os dados forem ruidosos ou se o treinamento não for disciplinado. Uma rede grande treinada com dados escassos vai sofrer overfitting com maestria -- vai memorizar o ruído e chamá-lo de estrutura.

Seção 5

Considerações práticas

SDEs neurais são poderosas, mas exigentes. A distância entre um artigo de pesquisa e um sistema em produção é grande. Conheça os custos antes de se comprometer.

Convergência do treinamento

Época: 0Perda: 2.144Fase: Descida rápida

Clique em Treinar acima e observe a perda convergir. Note as três fases: descida inicial rápida (a rede aprende a estrutura geral), refinamento mais lento (ajuste fino das asas e caudas) e platô (retornos decrescentes, risco potencial de overfitting).

Requisitos de dados de treinamento. Você precisa de dados suficientes de preços de opções para restringir uma função de alta dimensão. Para um único ativo subjacente, isso significa meses ou anos de snapshots diários do smile em múltiplos vencimentos. Dados esparsos (poucos strikes, poucos vencimentos) levam a redes subdeterminadas que sofrem overfitting.

Risco de overfitting. Uma rede neural com 10.000 parâmetros pode memorizar 10.000 pontos de dados perfeitamente. Isso não significa que ela aprendeu a dinâmica. Regularização (dropout, weight decay, early stopping) é essencial. Validação em dados separados é inegociável.

Interpretabilidade. Um modelo Heston de cinco parâmetros conta uma história: kappa diz isto, rho diz aquilo. Uma SDE neural é uma caixa-preta com 10.000 parâmetros. Você pode inspecionar a função aprendida (como no mapa de calor acima), mas não pode apontar para um único número e dizer "essa é a velocidade de reversão à média". Para uma mesa de trading que precisa explicar seu modelo aos gestores de risco, isso é uma desvantagem séria.

Custo computacional. O treinamento requer milhares de passagens diretas pela SDE (trajetórias de Monte Carlo), cada uma exigindo retropropagação pela rede a cada passo de tempo. Isso é ordens de magnitude mais caro do que calibrar Heston ou SABR. A inferência (precificar uma única opção com o modelo treinado) é rápida, mas a recalibração é lenta.

Adoção atual. SDEs neurais e deep hedging são usados em pesquisa e por fundos hedge quantitativos com a infraestrutura para suportá-los. Ainda não são padrão em mesas de produtos vanilla. A configuração típica de produção é: um modelo clássico (Heston, SABR, SLV) para precificação do dia a dia, com métodos neurais usados para problemas específicos de alto valor onde os modelos clássicos falham consistentemente.

Quando recorrer a SDEs neurais

Use uma SDE neural quando: (1) você tem dados ricos e a família de modelos clássicos continua errando os mesmos padrões, (2) você está precificando instrumentos exóticos sem solução analítica limpa, ou (3) você precisa de uma estratégia de hedge que leve em conta as fricções do mundo real. Não a use quando um modelo de cinco parâmetros se ajusta bem o suficiente -- você estaria adicionando complexidade sem adicionar valor.

Para onde ir em seguida:

Modelo de Heston -- o benchmark clássico de volatilidade estocástica

Volatilidade Local Estocástica -- calibração de nível de produção com dinâmica

Rough Bergomi -- volatilidade estocástica fracionária, a fronteira antes dos métodos neurais