应用时间序列分析选择题,在进行时间序列的速度分析时

在我们对大数据挖掘时,首先要创建一个标准基准线计划方案,然后利用提升对于该计划方案进行调整。在工程的第一部分中,我们一定要资金投入时长去理解项目需求并进行全面的探索性分析。建立一个初始实体模型。能够有利于了解数据信息,选用适度的认证对策,或者是为引入奇异的念头给出的数据的大力支持。

在这样一个初步阶段以后,我们能针对不同的状况选择不同提升方法,比如更改实体模型,开展数据库的解决,甚至引入更多外部数据。

对于每一个计划方案,我们都应该对数据进行修复,模型和认证,这些都必须重新开始模型拟合开展再训练,这时候便会消耗许多的时间也,假如我们通过一些又简单又合理技巧来提升预测速度。比如,众所周知特征选择是一种减少预测实体模型输入特点子空间的专业技术。特征选择是大部分机器学习算法管道中的一个重要流程,主要运用于提升性能。当降低特点时,便是减少了模型的多元性,从而减少了训练和检验的时长。

在本文中,大家展现了特征选择在降低预测逻辑推理时长层面实效性,与此同时防止了性能的明显下滑。 tspiral 是一个 Python 包,它带来了各种各样预测技术性。而且它和 scikit-learn 能够完美集成化应用。

为了能开展试验,咱们仿真模拟了好几个时间序列分析,每一个钟头的次数和双周期性(每日和每星期)。除此之外大家还增加了一个从一个光滑的马尔可夫链中获得的态势,这个就引入了一个随机事件个人行为。

这一时序数据最后的一部分是作为检测所使用的,我们也会纪录在其中精确测量预测偏差和作出预测所需要的时长。对于这些试验,咱们仿真模拟了100个单独的时间序列分析。大家之所以叫“单独”,是由于虽然他们表现出了十分相似的举动,但每一个系列产品并不是互相关系。用这种方式,大家各自对这些开展模型。

大家应用的目标滞后值做为键入来预测时间序列分析。也就是说,为了能预测下一个小时值,大家应用表格文件格式重新排序了之前可利用的一小时观测值。那样时间序列分析预测的特征选择便与标准化的表格监管每日任务一样。那样特征选择的优化算法就能简单的对滞后目标特点来操作。下边是一个应用递归算法预测开展特征选择的事例。

from sklearn.linear_model import Ridgefrom sklearn.pipeline import make_pipelinefrom sklearn.feature_selection import SelectFromModelfrom tsprial.forecasting import ForecastingCascademax_lags = 72recursive_model = ForecastingCascade( make_pipeline( SelectFromModel( Ridge(), threshold='median', max_features=max_lags, ), Ridge() ), lags=range(1,169), use_exog=False)recursive_model.fit(None, y)selected_lags = recursive_model.estimator_['selectfrommodel'].get_support(indices=True)

大家应用元估计器的必要性权重值(线性模型的指数)从训练数据中挑选关键特点。 这是一种又简单又快速地挑选特点的方式,只要我们处理过的数据信息可以用一般用于表格回归任务的同样技术性去执行。

在立即预测的情形下,必须为每一个预测流程线性拟合一个独立的估计器。 必须为每一个预测流程来选择。 每一个估计器会选择不同影响程度的滞后子集合,并归纳结论形成一组与众不同的有价值的滞后。

from sklearn.linear_model import Ridgefrom sklearn.pipeline import make_pipelinefrom sklearn.feature_selection import SelectFromModelfrom tsprial.forecasting import ForecastingChainmax_lags = 72direct_model = ForecastingChain( make_pipeline( SelectFromModel( Ridge(), threshold='median', ), Ridge() ), n_estimators=168, lags=range(1,169), use_exog=False, n_jobs=-1)direct_model.fit(None, y)selected_lags = np.argsort(np.asarray([ est.estimator_['selectfrommodel'].get_support() for est in direct_model.estimators_]).sum(0))[-max_lags:]

结论能够看见,滞后选取与实体模型性能息息相关。在纯自回归的情形下,要是没有额外外生变量,滞后目标是保证优良预测的唯一有用的信息。

这儿使用了三种递归算法和立即方式。最先,应用以往将近168小时全部延迟时间(full)。随后,只应用规律性滞后(dummy)。 最后只选择在训练数据上所选择的有价值的滞后(filtered)来线性拟合他们的实体模型

能够看见最直观方法是什么更准确的。而full的方式比dummy的和filter的方式性能更强,在递归算法的办法中,full和filtered的结论基本上同样。

针对时长而言,dummy方法是什么速度最快的方式,这个应该是意料之中的因为他考虑到的特点总数非常少。 出自于相同的缘故,filtered会比full快。 可是令人惊讶的是,filtered的速率是full方式的一半。 这也许是一个很好的结论,由于我们通过简单特征选择以更快地方法得到较好的预测。

上边的检测结果和表格全是运用 tspiral 的去进行和处理产生的。 它优化了有价值的自回归滞后的鉴别,并赋予应用时间序列分析实际操作特征选择的概率。 然后我们还通过这些试验看到了怎样通过简单的运用适度的滞后挑选来降低预测的逻辑推理时长。

如果对文中得到的结果有兴趣,请参阅文中的源码:

https://avoid.overfit.cn/post/7488218628c84fdb9423484a98bbfa3e

创作者:Marco Cerliani

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

 Theme By 优美尚品

每日搜寻全球各个角落的热点新闻,锁定小童说事网,多一点惊喜与感动!