量化交易原理篇:从信号到成交的系统闭环
梳理量化交易的数据—信号—仓位—执行—风控闭环, 数学工具全景与研究流程,为模型篇的 Python 实现打好概念基础。
当交易变成可计算的程序
想象一个交易员不再盯着 K 线图凭直觉下单,而是每天凌晨运行一段 Python 脚本:拉取行情、计算因子、生成目标仓位、把订单推给券商 API。收盘后,同一套逻辑在回测引擎里重放过去十年的数据,检验策略是否只是「碰巧」在样本内赚钱。
这就是量化交易(Quantitative Trading)的典型面貌——把投资与交易决策,尽量转化为可形式化、可回测、可自动化的规则。
它与《二十块之谜》讨论的「信念定价」并不矛盾。量化交易者同样承认:价格是预期与流动性的产物。区别在于,他们试图用数据与模型去估计哪些预期已被过度定价、哪些统计规律在费用与滑点之后仍可持续,而不是依赖叙事与情绪。
本文是原理篇:讲系统如何运转、需要哪些数学语言、研究如何推进到实盘。具体的 CAPM、Black-Scholes、GARCH、协整等模型,以及对应的 Python 实现,见姊妹篇 《量化交易模型篇》。
量化不是预测未来,而是在不确定性下,用可检验的规则管理仓位与风险。
基本原理:从信号到成交的闭环
量化交易的核心不是某个神奇公式,而是一条闭环流水线:
数据 → 特征/信号 → 仓位决策 → 执行 → 风控 → 绩效归因 → 迭代各环节含义如下:
| 环节 | 做什么 | 常见陷阱 |
|---|---|---|
| 数据 | 行情、财务、另类数据(舆情、卫星图等) | 幸存者偏差、前视偏差、脏数据 |
| 信号 | 把原始数据映射为「买/卖/持有」倾向 | 过拟合、数据窥探 |
| 仓位 | 决定买多少、杠杆多少 | 忽视相关性、尾部风险 |
| 执行 | 拆单、择时、控制冲击成本 | 回测成交价过于乐观 |
| 风控 | 止损、敞口上限、回撤熔断 | 风控与 alpha 信号脱节 |
| 归因 | 区分运气、因子暴露、纯 alpha | 只看收益率不看夏普/回撤 |
系统化意味着规则事先写明:什么条件下开仓、加仓、平仓;什么情况下禁止交易。这减少了盘中情绪干扰,也让策略可以被回测——在历史数据上模拟「若当时按此规则交易,结果如何」。
回测是量化的实验室,但必须警惕:
- 前视偏差:用了当时尚未公布的数据(例如用修订后的财报)
- 过拟合:参数调到刚好贴合历史噪音
- 交易成本:手续费、印花税、滑点、冲击成本在实盘中会吃掉大量纸面利润
策略周期与基础设施
量化策略按持仓周期可粗分为:
| 类型 | 持仓周期 | 核心能力 | 典型信号 |
|---|---|---|---|
| 高频 | 毫秒~秒 | 低延迟基础设施、订单簿微观结构 | 价差、挂单失衡 |
| 中低频 | 日~周 | 因子研究、组合优化、执行算法 | 动量、均值回归、事件驱动 |
| 低频 | 月~年 | 基本面建模、宏观配置 | DCF、盈利预测、利率周期 |
周期越短,对机房、专线、撮合逻辑的要求越高;周期越长,越依赖模型假设的稳健性与对基本面的理解。个人研究者通常从中低频切入——算力门槛相对低,但过拟合与执行成本仍是主要敌人。
与工程侧衔接时,可参考 Today Stock Finance:数据层拉行情、服务层算指标、前端展示。量化研究同样依赖干净的数据管道与可版本化的代码,否则回测结果无法复现。
数学基础:模型篇会用到的通用语言
金融模型建立在几类数学工具之上。原理篇只建立概念地图;模型篇会用 Python 把其中几块跑通。
概率与统计
收益率序列通常被当作随机变量或其函数。核心概念包括:
- 期望与方差:收益与波动的第一、二阶矩
- 协方差与相关系数:资产间联动,组合风险的基础
- 假设检验:判断某规律是否可能只是随机波动(p 值、显著性)
- 最大似然估计(MLE):从数据反推模型参数(GARCH 拟合常用)
线性代数
多资产组合天然是向量与矩阵问题:
- 收益向量 r,协方差矩阵 Σ
- 组合权重 w,组合方差 wᵀΣw
- 主成分分析(PCA):把高维相关结构压缩为少数因子
微积分与优化
- 凸优化:Markowitz 均值—方差组合在约束为线性时属于此类
- 拉格朗日乘子:在「组合方差最小」约束下求最优权重
- 随机微积分:衍生品定价(伊藤引理、几何布朗运动)——模型篇用闭式公式落地,不展开伊藤推导
时间序列
价格与收益是按时间排序的观测,不能当作独立同分布样本随意打乱:
- 自相关:今日收益与昨日收益的相关
- 平稳性:统计性质是否随时间漂移
- 单位根检验:序列是否「随机游走」;协整检验的前置步骤
r_t = μ + ε_t, ε_t ~ i.i.d.(0, σ²)
金融模型全景:模型篇覆盖什么?
下列模型在量化工作中反复出现。原理篇只交代直觉与用途;实现细节与代码见 模型篇。
| 模型 | 回答的问题 | 典型用途 |
|---|---|---|
| CAPM / β | 收益与市场风险的关系 | 风控归因、基准对冲 |
| 多因子(APT / FF) | 哪些风格驱动超额收益 | 选股、因子中性化 |
| Black-Scholes | 期权合理价格与敏感度 | 波动率交易、对冲 |
| 均值回归 / 动量 | 价格短期偏离还是延续 | 中频择时、因子信号 |
| GARCH | 波动率如何随时间变化 | VaR、动态仓位 |
| Markowitz | 组合权重如何分配 | 资产配置、风险预算 |
| Kelly | 最优下注比例 | 仓位缩放 |
| 协整 | 两资产价差是否可交易 | 配对交易、统计套利 |
| GBDT / 深度学习 | 高维非线性映射 | 截面选股、序列预测 |
| 另类数据 + NLP | 尚未被定价的信息 | 情绪、宏观_PROXY、事件 |
经典模型以上表为主;非线性模型、另类数据与机构级验证,见 进阶篇。
二十块之谜的数学版中的 P(t) = V(t) + ε(t) 与上表的关系:DCF 与基本面因子主要刻画 V(t);CAPM、动量、情绪类信号更多作用于 ε(t) 或其可预测成分。量化交易者需要分清:自己的 edge 来自价值之河还是价格之河。
研究流程:从想法到实盘
一个可复现的量化研究流程通常如下:
假设 → 文献/经济直觉 → 特征工程 → 样本内检验 → 样本外验证 → 稳健性检查 → 纸面交易 → 小资金实盘 → 扩容样本外验证至关重要:保留一段从未用于调参的数据(或走步前进 walk-forward),模拟真实部署时「只有过去信息可用」的约束。
稳健性检查包括:换时间段、换市场、换参数邻域、加入 realistic 交易成本后,信号是否仍存在。
| 阶段 | 目标 | 常见失误 |
|---|---|---|
| 研究 | 发现可解释、可重复的统计规律 | 在同一数据集上反复调参 |
| 回测 | 估计历史表现上界(仍偏乐观) | 忽略滑点、涨停买不到 |
| 仿真 / 纸交 | 检验执行与延迟 | 回测用收盘价、实盘用市价 |
| 实盘 | 用真金白银检验信念 | 小亏时放弃、大盈时加仓 |
模型篇的 Python 示例均使用合成数据,目的是演示「公式 → 代码 → 输出」的链条。迁移到真实行情时,数据清洗与样本外验证才是决定策略生死的步骤。
先懂系统,再写公式
阅读提示
本文为量化交易原理梳理,不构成任何投资建议。
回测表现不代表未来收益;执行成本与制度约束会显著改变策略结果。
模型实现与代码示例见姊妹篇《量化交易模型篇》。