创作不易,便捷的话点点关爱,谢谢
著述驱散有最新热度的著述,感兴味的不错去望望。
本文是经过严格查阅商量巨擘文献和府上,造成的专科的可靠的内容。全文数据齐有据可依,可回溯。很是声名:数据和府上已赢得授权。本文内容,不触及任何偏颇不雅点,用中立气派客不雅事实刻画事情本人
著述有点长(2222字阅读时长:8分),盼愿您能对持看完,并有所获利。
免责声明:股票价钱计议本色上是不笃定的,本教程仅供西宾目的使用。这里议论的模子和设施不应被阐述为财务薄情或依赖于施行交游方案。诚然时分交融Transformer(TFT)模子提供了置信区间,有助于评估风险,但莫得模子能统统琢磨到金融市集的不成计议性。在作念出投资方案之前,请永恒进行透顶的研究,并究诘金融专科东谈主士。
宽饶来到这个系列,了解何如使用时分交融Transformer(TFT)构建一个可阐述的模子,用于高频股票价钱计议。在这个系列中,咱们将深刻探讨试验一个不仅能计议股票价钱,况且能提供置信区间,使其成为风险评估的难得器用的模子的法子。从数据采集和预处理到模子试验、评估和阐述,每篇著述齐将率领您完成经过中的缺欠阶段。
在第一部分中,咱们将从基础泉源:采集正确的数据并实行探索性数据分析(EDA),以了解高频股票数据中的趋势、模式和潜在陷坑。
布景和动机
股票市集是一个动态且常常不成计议的环境。见效的日内交游者依赖的不单是是计议,还有高求教与风险的交游。即使交游者只须50%的时分正确计议股票的标的,如若每次交游的平均求教特别平均风险,他们仍然不错盈利。自动化交游算法匡助交游者从交游中去除情怀,使他们大致专注于时代绸缪和系统性方案。
使用咱们的时分交融Transformer模子,目的不是达成好意思满的计议准确度(在金融市集上是不成能的豪举),而是开荒一个不错识别高概率变动的模子,同期评估与每个计议商量的风险。通过专注于精准度并使用置信区间,该模子不错算作作念出更理智交游方案的难得器用。
数据采集和准备
在这个面目中,我采集了平均逐日交游量特别100万股的股票的1分钟日内数据。这个数据集涵盖了从2024年1月1日到2024年7月11日的6个月,悉数特别1500只股票。关于每只股票,我采集了规范的OHLCV(开盘、最高、最低、收盘、成交量)数据,捕捉了整个这个词交游日的每个价钱变动。为了简化数据处理经过,我将这些数据保存在一个单一的.parquet文献中,以便有用拜访和分析。
数据加载和运转计帐
在Jupyter Notebook中,我泉源导入数据操作、可视化和建模所需的基本库。以下是一些使用中的库的示例:
import pandas as pdimport yfinance as yfimport matplotlib.pyplot as pltimport numpy as npimport seaborn as snsfrom datetime import datetime
然后加载数据集并将日历确立为基于时分的分析的索引:
df = pd.read_parquet("data.parquet")df.set_index("datetime", inplace=True)df.sample(10) # 打印数据纠合的10个随即行
输出:
为明晰解我要处理的数据量,我使用 df.info() 来获取这些信息:
# 这个数据框很是大,包含特别6600万行,使用特别4.5 GB的内存。
为了使其更易于处治,并过滤掉流动性欠安的股票,我使用“股票平均时势成交量”,这是通过将日均成交量乘以平均价钱来估量的。我只保留平均时势成交量最高的前100只股票。
def resample_to_daily(group): resampled_group = group.resample('D').agg({'open':'first','high':'max','low':'min','close':'last','volume':'sum'}).dropna()return resampled_group# 利用重采样函数到每个组df_daily = df.groupby('symbol').apply(resample_to_daily).reset_index()df_daily["stock_median_volume"]= df_daily.groupby("symbol")["volume"].transform("median").astype(int)df_daily["stock_average_price"]= df_daily.groupby("symbol")["close"].transform("mean")df_daily["stock_average_nominal_volume"]= df_daily["stock_median_volume"]* df_daily["stock_average_price"]top_100_symbols = df_daily.groupby("symbol")['stock_average_nominal_volume'].median().nlargest(100).index# 过滤数据框以保留时势成交量最高的前100只股票df_daily = df_daily[df_daily['symbol'].isin(list(top_100_symbols))]df = df[df['symbol'].isin(list(top_100_symbols))]print(f"Number of total one minute bars after resampling: {df.shape[0]}")print(f"Symbols: {df_daily.symbol.unique()}")
输出:
重采样后总的1分钟K线数目:165367标志:['AAL' 'AAPL' 'ABBV' 'ABNB' 'ABT' 'ADBE' 'AM' 'AMD' 'AMZN' 'ANET' 'AVGO' ...]
EDA和特征工程 不才一步中,我进行探索性数据分析(EDA),以了解咱们过滤后的数据集的缺欠特征,并泉源特征工程以索求商量绸缪。通过可视化趋势、价钱散布和成交量变化,我旨在揭示可能率领咱们计议模子的模式和细察。
这就限度了第一部分。在接下来的部分中,咱们将更深刻地探讨特征工程,并泉源准备咱们的数据集以进行模子试验。
如若您对构建用于股票计议的机器学习模子感到昂扬,请关爱我,以获取本系列的最新更新!每篇著述将带您了解一个新的阶段,从数据准备到模子评估和计谋回测,提供为金融心疼者和有抱负的量化分析师量身定制的实践代码和细察力!
点个“在看”不失联
最新热点著述保举:
海外Rust规范员共享:Rust与C++的好意思满勾通
海外C++规范员共享:2024/2025年C++是否还值得学习?
异邦东谈主眼中的贾扬清:从清华到阿里,再创业LeptonAI
白宫关爱下,C++的内存安全改日走向何方?
海外Python规范员共享:何如用Python构建一个多代理AI利用
土产货部署六款大模子:保护狡饰、从简资本,特定环境首选
海外CUDA规范员共享:2024年GPU编程CUDA C++(从环境装置到进阶技能)
我卸载了VSCode,我的坐褥力大幅升迁
海外Python规范员共享:2024年NumPy高性能估量库(高档技能)
异邦东谈主眼中的程明明:从“电脑小白”到CV规模领军者
异邦东谈主眼中的周志华:东谈主工智能奖赢得者、东谈主工智能学院院长
海外C++规范员共享:C++多线程实战掌持图像处理高档技能
异邦东谈主眼中的卢湖川:从大连理工到专家舞台,他的科研后果轰动寰宇!
异邦东谈主眼中的张祥雨:交大90后男神博士,3年看1800篇论文,还入选福布斯精英榜
参考文献:《图片开始聚集》美洲杯现金买球投注最新版