自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 ✅【研报复现】跳跃因子

股票市场中,由于利好或利空消息的不断到达,叠加投资者情绪的影响,股票价格经常会表现出突然的大幅波动。股价跳跃常常被用来描述和衡量这种价格的突然变动,这一变动,因其大多数情况下由投资者的过度反应导致,而往往被认为是股价走势可能发生转折的征兆之一。

2025-08-02 16:50:28 664

原创 【因子动物园巡礼】第12章:机器学习在因子投资中的应用(中文翻译)

原作者:张晓泉、卢涛、石川探讨了机器学习在因子投资中的应用现状与挑战。金融数据的诸项特性导致直接套用现成算法效果有限。重点分析了两类深度学习模型(CNN和RNN)在金融建模中的适应性,指出其成功依赖数据质量与经济理论指导。通过解构量化投资全流程,展示了机器学习在数据预处理、因子发现、风险优化等环节的应用潜力,同时强调需警惕过拟合风险。资产定价领域需将机器学习嵌入理论框架,通过正则化、协变量缩放等技术结合金融先验知识提升预测效果。当前研究正从传统计量方法转向机器学习范式,但克服数据分布变化仍困难

2025-07-29 13:34:57 1770

原创 【Navigating the Factor Zoo】Chapter 12: Machine Learning in Factor Investing(英文原版)

【代码】【Navigating the Factor Zoo】Chapter 12: Machine Learning in Factor Investing。

2025-07-29 12:03:37 570

原创 【金融机器学习】第五章:最优投资组合——Bryan Kelly, 修大成(中文翻译)

本章讨论并分析投资组合选择的机器学习方法。投资组合选择问题是金融学的核心问题,其目标是通过有效配置投资者资源实现增长最优的储蓄,且资产定价中的所有主要问题都与之密切相关。在弱经济假设(如无套利)下,经济中的均值-方差有效组合(MVE)是可交易随机贴现因子(SDF)的体现,因此概括了市场参与者在均衡价格中权衡风险与回报的方式(Hansen and Richard, 1987)。类似地,单个资产对MVE组合的暴露与其预期收益率一一对应,这意味着MVE相当于一个单因子贝塔定价模型,可以解释平均收益率的横截面差异(

2025-07-23 10:49:39 882

原创 【金融机器学习】第三章:收益预测——Bryan Kelly, 修大成(中文翻译)

本文第三章探讨了金融机器学习中的收益预测问题,重点分析了资产风险溢价的横截面差异与时间序列动态。核心方程为条件预期收益模型,强调通过预测变量z_{i,t}构建普适函数g^{\star}的挑战。研究分为时间序列预测(市场指数)与横截面预测(个股面板)两条脉络,后者因数据丰富性成为主流。数据方面,CRSP-Compustat股票信号标准化(如Jensen等153个信号)推动了研究可比性。方法论上,模型选择依赖交叉验证与信息准则,通过训练-验证-测试三阶段设计避免过拟合。本章为机器学习在资产定价中的应用提供了框架

2025-07-23 00:03:42 1585

原创 【金融机器学习】第四章:风险-收益权衡——Bryan Kelly, 修大成(中文翻译)

第四章探讨了金融机器学习中的风险-收益权衡问题,重点介绍了套利定价理论(APT)框架下的因子定价模型。当因子和贝塔均为潜在变量时,主成分分析(PCA)成为有效的估计方法。研究表明,PCA在组合层面表现优异,但解释个股风险溢价存在局限。Giglio和Xiu(2021)提出三步估计法,通过结合PCA与Fama-MacBeth回归来估计非交易因子的风险溢价,该方法具有旋转不变性优势。实证分析显示,传统两步回归可能产生虚假风险溢价,而三步法能有效控制伪相关性。这些机器学习方法为资产定价提供了新的分析工具。

2025-07-22 23:05:44 1155

原创 【Financial Machine Learning】Chapter 5: Optimal Portfolios——Bryan Kelly, 修大成(英文原版)

Financial Machine Learning: Chapter 5

2025-07-22 22:00:36 873 1

原创 【Financial Machine Learning】Chapter 4: Risk-Return Tradeoffs——Bryan Kelly, 修大成(英文原版)

第四章探讨了金融机器学习中的风险-收益权衡问题,重点介绍了套利定价理论(APT)框架下的因子定价模型。当因子和贝塔均为潜在变量时,主成分分析(PCA)成为有效的估计方法。研究表明,PCA在组合层面表现优异,但解释个股风险溢价存在局限。Giglio和Xiu(2021)提出三步估计法,通过结合PCA与Fama-MacBeth回归来估计非交易因子的风险溢价,该方法具有旋转不变性优势。实证分析显示,传统两步回归可能产生虚假风险溢价,而三步法能有效控制伪相关性。这些机器学习方法为资产定价提供了新的分析工具,尤其在处理

2025-07-22 17:07:11 1019

原创 【Financial Machine Learning】Chapter 3: Return Prediction——Bryan Kelly, 修大成(英文原版)

本文第三章探讨了金融机器学习中的收益预测问题,重点分析了资产风险溢价的横截面差异与时间序列动态。核心方程为条件预期收益模型,强调通过预测变量z_{i,t}构建普适函数g^{\star}的挑战。研究分为时间序列预测(市场指数)与横截面预测(个股面板)两条脉络,后者因数据丰富性成为主流。数据方面,CRSP-Compustat股票信号标准化(如Jensen等153个信号)推动了研究可比性。方法论上,模型选择依赖交叉验证与信息准则,通过训练-验证-测试三阶段设计避免过拟合。本章为机器学习在资产定价中的应用提供了框架

2025-07-22 15:32:21 1002

原创 【金融机器学习】第二章:复杂模型的优势——Bryan Kelly, 修大成(中文翻译)

摘要:本章探讨了复杂机器学习模型在金融预测中的优势,挑战了传统计量经济学中的"简约性原则"。研究表明,高参数化模型(如神经网络)在样本外表现优异,这种现象被称为"良性过拟合"。通过岭回归和随机矩阵理论分析,作者证明模型复杂度(参数数量P与数据量T之比c=P/T)越高,预测精度和投资组合表现通常越好。当P>T时,即使模型完全拟合训练数据,仍能保持良好泛化能力。这一发现为金融领域采用复杂机器学习模型提供了理论支持,表明在预测资产收益率时,"更大往往更好"。

2025-07-22 11:48:10 1259

原创 【Financial Machine Learning】Chapter 2: The Virtues of Complex Models——Bryan Kelly, 修大成(英文原版)

摘要:本章探讨了复杂机器学习模型在金融预测中的优势,挑战了传统计量经济学中的"简约性原则"。研究表明,高参数化模型(如神经网络)在样本外表现优异,这种现象被称为"良性过拟合"。通过岭回归和随机矩阵理论分析,作者证明模型复杂度(参数数量P与数据量T之比c=P/T)越高,预测精度和投资组合表现通常越好。当P>T时,即使模型完全拟合训练数据,仍能保持良好泛化能力。这一发现为金融领域采用复杂机器学习模型提供了理论支持,表明在预测资产收益率时,"更大往往更好"。

2025-07-22 11:31:02 785

原创 ❗量化模型构建&回测框架

1. 日志和绘图设置2. 核心函数定义3. 主程序执行回测结果

2025-07-21 23:47:32 512

原创 多重共线性Multicollinearity

Multicollinearity occurs when two or more predictor variables in a multiple linear regression model are highly correlated, meaning they provide overlapping information about the response variable. This can range from strong correlations to exact linear dep

2025-07-17 23:26:14 921

原创 量化环节:Cont‘d

量化策略利用数据驱动模型识别并把握市场机遇,这需要一个从初始数据获取到持续在线运营和维护的细致、端到端流程。本报告剖析了这一生命周期的五个关键支柱:数据获取、特征选择、模型构建、投资组合优化以及在线运营与维护。在这一领域取得成功,取决于对高质量数据的细致追求、智能的特征工程、稳健的模型验证、复杂的投资组合构建以及敏捷的运营监督。开发固有的迭代性质以及持续对抗普遍存在的偏差(例如,幸存者偏差、未来函数偏差、过拟合)和动态市场力量(例如,概念漂移、黑天鹅事件)对于维持业绩至关重要。

2025-07-17 23:17:29 812

原创 量化环节剖析

加密货币量化策略的数据获取是基础,涉及从多个来源收集数据,包括交易所(如Binance、Coinbase)提供的价格和交易量数据,区块链浏览器(如Etherscan)提供链上交易数据,以及链上数据提供商(如CryptoQuant、Glassnode、Messari、Kaiko)提供深入的链上指标和市场分析。常见的特征包括技术指标(如移动平均线、RSI)、链上指标(如交易量、活跃地址、哈希率,特别适用于工作量证明的币种)、情绪得分(从社交媒体和新闻中提取)以及市场微观结构数据(如订单簿深度、价差)。

2025-07-17 23:07:29 1157

原创 ❗机器学习量化交易模型全面剖析报告&基于因子库的机器学习交易模型构建指南

一个在步进式验证下表现良好的模型,比通过传统交叉验证或单一训练-测试分割评估的模型,更能有力地表明其真正的泛化能力和鲁棒性,使其成为避免过度拟合历史噪声这一常见陷阱的终极试金石。这要求研究人员对回测结果采取高度怀疑和批判的态度,不断质疑假设的真实性和策略的鲁棒性,理解目标不仅仅是回测中高夏普比率,而是在实时市场中具有韧性的策略。,而非即插即用的解决方案。通过掌握本报告中阐述的原则和实践,研究人员将能够有效地利用现有因子库,迈出构建强大机器学习交易模型的第一步,并在复杂多变的金融市场中寻求可持续的阿尔法。

2025-07-17 10:07:34 1546

原创 (✅)改进_开源证券_VCF_多尺度量价背离检测因子!

信号方向冲突:背离检测未区分看涨/看跌类型,导致头部混入看跌信号,尾部混入看涨信号特征标准化混淆:动量特征(vp_matrix)与反转特征(divergence_matrix)被合并处理,模糊经济含义尾部过度放大:双重放大机制强化了噪声而非有效信号资金流未主导:在极端区域,buy_ratio未能主导因子方向,被冲突信号抵消这些设计缺陷导致因子在极端值区域失去方向性预测能力:头部可能包含真实看跌信号,尾部可能包含真实看涨信号,与预期收益方向相反。

2025-07-15 17:34:22 1042

原创 ✅【研报复现】开源证券:均线的收敛与发散

不同个股之间的换手率虽然不存在量纲差异,但在A股市场中大市值个股相比小市值个股天然具有更低的换手率水平,如图10所示(横轴表示全市场个股按照流通市值分为 10 组,纵轴表示换手率和成交额的水平,量级一致,单位不同),导致我们在进行换手率收敛因子计算的时候,等价于给予大市值个股更高的隐含权重。成交额则恰好相反,成交金额越大,流通市值越高。当不同周期价格均线趋于收敛时,往往代表市场上不同类型的投资者在个股上的持仓成本逐渐趋同,筹码分布更趋集中,未来无论股价往上突破抑或往下下探,此时个股面临的阻力都相应下降。

2025-07-13 21:43:42 1324

原创 ❌【研报复现】方正金工:(2)完整潮汐 因子

剔除开盘和收盘数据,仅考虑日内分钟频数据,为了减小个别异常点的影响,我们首先计算个股每分钟的成交量及其前后4分钟成交量的总和(共9分钟),作为该分钟“邻域成交量假设“邻域成交量”最高点发生在第t分钟,这一分钟称为“顶峰时刻第5~t-1分钟里,“邻域成交量”最低点发生在第m分钟,这一点的邻域成交量为Vm,收盘价为Cm,这一分钟称为“涨潮时刻”,从“涨潮时刻”到“顶峰时刻”的过程记为“涨潮。

2025-07-11 16:53:53 766

原创 ❌【研报复现】方正金工:(1)适度冒险 因子

以利好信息为例:当一个利好信息公布后,可能会引起相应个股成交量的突然放大。如果在成交量激增的同时,价格却未发生变动,或者未能引起价格的波动,则表明这一利好消息没能得到市场广泛的认可。相反,如果成交量激增的同时,价格出现大幅上涨,则表明市场对于此利好信息反应过于趋同,有可能出现反应过度。因此,当市场获得新的利好信息后,一方面我们希望此信息可以被市场广泛的认可和接受,推动股票价格稳步上涨;

2025-07-10 17:54:00 887

原创 GLIMPSES TO WHOLENESS: Learning Dynamics From Partial Views(中文翻译_正文)

GLIMPSES TO WHOLENESS: Leaming Dynamics From Partial Views

2025-07-09 17:53:52 172

原创 ❗分析新旧因子相关性

计算一组新因子,并分析它们与已有因子(旧因子)之间的相关性

2025-07-09 10:13:08 1155

原创 科研:diffusion生成MNIST程序实现

SDEScheule:提供扩散过程的数学框架,定义了数据如何随时间变化。Diffusion:利用数学框架和神经网络,实现训练(学习逆过程)和生成(从噪声到图像)。

2025-07-09 09:36:17 1016

原创 (✅)改进:开源证券_时间重心偏离_分形市场因子!

从避免未来数据泄露、提高运算效率、减小IC & Rank_IC回撤等角度改进 开源证券_时间重心偏离_分形市场因子!

2025-07-08 11:56:35 361

原创 ❗理解IC、Rank IC和IR

理解IC、Rank IC和IR是量化因子研究的基石,尤其在加密货币这样高波动的市场里,它们能帮你判断因子是否真正有效。下面我将详细解释它们的原理、意义,并针对目前我研究的。预测序列 (F_t)

2025-07-07 17:13:22 928

原创 Generating Physical Dynamics Under Priors(中文翻译_正文)

在数据驱动场景中生成物理可行的动力学具有挑战性,尤其是在遵循特定方程或公式表达的物理先验时。现有方法常忽视"物理先验"的整合,导致违反基本物理定律和次优性能。本文提出一种创新框架,将物理先验无缝融入基于扩散的生成模型以解决此局限。分布先验(如旋转平移不变性)物理可行性先验(包括能量动量守恒定律和偏微分方程约束)通过将这些先验嵌入生成过程,本方法能高效生成物理真实的动力学(含轨迹和流体)。

2025-07-06 16:52:00 363

原创 ❌【研报复现】开源证券:日内极端收益前后的反转特性与因子构建

本篇报告我们尝试从分钟数据出发,探寻日内极端收益前后的反转特性差异。最大的那根最极端收益bar的alpha信息。对于极端收益的定义,我们使用。首先,从简出发,我们先考察。

2025-07-03 16:57:52 166

原创 ✅【研报复现】开源证券:日内分钟收益率的时序特征-逻辑讨论与因子增强

时间重心偏离因子

2025-07-03 14:58:36 943

原创 Score-Based Generative Modeling through Stochastic Differential Equations(附录_中文翻译_2: E-I)

给定一个正向 SDEdx=f(x,t)dt+G(t)dw,\mathrm{d}\mathbf{x} = \mathbf{f}(\mathbf{x}, t) \mathrm{d} t + \mathbf{G}(t) \mathrm{d} \mathbf{w},dx=f(x,t)dt+G(t)dw,并假设以下迭代规则是其离散化:xi+1=xi+fi(xi)+Gizi,i=0,1,⋯ ,N−1,(45)\mathbf{x}_{i+1} = \mathbf{x}_i + \mathbf{f}_i(\mathb

2025-07-02 22:44:45 1264

原创 Score-Based Generative Modeling through Stochastic Differential Equations(附录_中文翻译_1: A-D)

我们包含几个附录,提供额外的细节、推导和结果。我们的框架允许具有依赖于状态的矩阵值扩散系数(matrix-valued diffusion coefficients)的一般SDEs,我们在附录A中进行了详细讨论。我们在附录B中给出了VE、VP和sub-VP SDEs的完整推导,并从实践者的角度讨论了如何使用它们(附录C)。我们在附录D中详细阐述了框架的概率流公式,包括概率流ODE的推导(附录D.1)、精确似然计算(附录D.2)、使用固定离散化策略的概率流采样(附录D.3)、使用黑盒ODE求解器采样(附录D.

2025-07-02 22:43:59 467

原创 Score-Based Generative Modeling through Stochastic Differential Equations(中文翻译_正文)

从数据生成噪声是容易的;从噪声生成数据则是生成建模。我们提出一个随机微分方程(Stochastic Differential Equation, SDE),通过缓慢注入噪声,将复杂数据分布平滑地转化为已知先验分布;以及一个相应的逆向时间 SDE,通过缓慢去除噪声,将先验分布转化回数据分布。关键的是,逆向时间 SDE 仅依赖于扰动数据分布的时变梯度场(即分数)。通过利用基于评分的生成建模的最新进展,我们可以用神经网络准确估计这些分数,并使用数值 SDE 求解器生成样本。

2025-07-02 22:39:54 1489

原创 Score-Based Generative Modeling through Stochastic Differential Equations(附录_英文原文_2: E-I)

Given a forward SDEdx=f(x,t)dt+G(t)dw,\mathrm{dx} = \mathbf{f}(\mathbf{x}, t) \mathrm{d} t + \mathbf{G}(t) \mathrm{d} \mathbf{w},dx=f(x,t)dt+G(t)dw,and suppose the following iteration rule is a discretization of it:xi+1=xi+fi(xi)+Gizi,i=0,1,⋯ ,N−1,(45)\

2025-07-02 22:37:28 568

原创 Score-Based Generative Modeling through Stochastic Differential Equations(附录_英文原文_1: A-D)

摘要本文附录部分详细介绍了扩散模型的扩展框架与应用。附录A提出了一种适用于更广义SDE(状态依赖扩散系数)的理论框架,推导了对应的反向时间SDE(式16)和概率流ODE(式17)。附录D系统阐述了概率流公式,包括ODE推导、精确似然计算、固定离散化采样策略等内容。在应用方面,附录I详细说明了可控生成算法,涵盖类别条件生成、图像修复、着色等任务。针对复杂SDE的模型训练问题,作者建议采用切片分数匹配等替代方法,避免计算难以求解的转移核梯度。该框架通过模块化设计支持多种采样方法,并在数据集上验证了有效性。

2025-07-02 22:36:25 854

原创 Score-Based Generative Modeling through Stochastic Differential Equations(英文原文_正文)

Published as a conference paper at ICLR 2021Authors:*Work partially done during an internship at Google Brain.Creating noise from data is easy; creating data from noise is generative modeling.We present a stochastic differential equation (SDE) that smooth

2025-07-02 22:31:29 948

原创 Generating Physical Dynamics Under Priors(英文原文_正文)

Zihan Zhou1, Xiaoxue Wang2, Tianshu Yu1,*1School of Data Science, The Chinese University of Hong Kong2ChemLex Technology Co., [email protected], [email protected], [email protected]*corresponding authorGenerating physically feasible dyn

2025-07-02 22:24:19 920

原创 ✅【研报复现】开源证券:聪明钱因子模型的2.0版本

聪明钱因子

2025-07-02 15:12:45 1330

原创 ❗2025暑期量化实习:挖因子 因子构建、检测模版

此系列(2025暑期实习)将主要着眼。

2025-07-02 11:30:34 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除