基于贝叶斯网的航班过站时间动态估计
丁建立;赵键涛;曹卫东
【摘要】一架飞机每天要执行多个航班,从而形成航班链.前序航班进港后,若估计
出飞机在机场的过站时间,后续航班的离港时间便可较准确给出.文中选取了对航班
过站时间影响较为显著的几个因素,运用历史数据,采用最大似然估计进行贝叶斯网
参数学习并获得不同情况下过站时间的估计值.同时,利用贝叶斯网增量学习的特性,
运用航班增量数据基于贝叶斯估计修正贝叶斯网参数,并用新的学习结果更新过站
时间估计值.实验数据表明,所提出的方法能较好地对飞机过站时间进行估计.最后,对
影响过站时间的各因素进行了灵敏度分析对比.
【期刊名称】《南京航空航天大学学报》
【年(卷),期】2015(047)004
【总页数】8页(P517-524)
【关键词】航空运输;过站时间估计;贝叶斯网;增量学习;灵敏度分析
【作者】丁建立;赵键涛;曹卫东
【作者单位】中国民航大学计算机科学与技术学院,天津,300300;中国民航大学计
算机科学与技术学院,天津,300300;中国民航大学计算机科学与技术学院,天
津,300300
【正文语种】中文
【中图分类】U8
航空运输具有快速、远距离运输能力的特点,是交通运输的一种重要方式。随着经
济的发展,航空运输也得到快速发展。然而伴随航空运输业的发展,航班延误问题
越来越突出。由于航班延误,旅客拒绝登机,非法占据飞机等恶性事件屡见不鲜,
有的航班延误事件甚至到了骇人听闻的地步。
针对航班延误,众多学者从不同角度进行了研究。在国外,Yufeng等人针对离港
延误时间,研究了多种影响因素,用统计学方法得出延误时间的概率分布,对航班
的离港延误时间进行预测[1]。Eun等人提出了一种在终端区的航班到港排序优化
方法,将提出的优化方法用于空中交通控制决策中,目的是减少航班进港延误的时
间[2]。Laskey等人运用贝叶斯网来描述航班延误结果与航班延误因素之间的关系,
建立了一个随机模型。然后针对两个机场研究了影响航班离港延误的因素以及离港
延误又是如何影响目的机场的进港延误[3]。Pyrgiotis等人用排队论的思想建立了
一个机场网络模型对航班延误进行研究,指出了在机场网络模型中考虑延误传播的
重要性[4]。在国内,针对航班延误,马正平等人研究了机场发生延误的状况下,
如何合理化恢复,以减小潜在损失[5]。丁建立,徐涛等人采用生物免疫,支持向
量机等方法对机场航班延误数量进行预测[6-9]。曹卫东等人运用贝叶斯网对引起
航班延误的各种因素和延误传播情况进行了研究[10-11]。
应对航班延误,一种方法是在航班延误发生前,根据天气和机场状况等信息,及早
向机场,航空公司发出预警,为各单位应对航班延误提供决策支持。另一种是在航
班延误发生后,进行优化调度,尽可能地减少航班延误带来的损失。第二种方式已
有部分研究成果,而第一种方式还有待进一步深入研究,这是因为影响航班延误的
因素较多,随机性较大,航班延误的预测较为困难。同其他事物一样,在某些情况
下航班运行也具有一定的规律,在大量的历史航班数据中包含了这些不易被发现的
规律。因此,可以运用数据挖掘的方法对航班历史数据进行挖掘,从中发现这些潜
在的规律,并运用挖掘出的信息对航班的延误状况进行预测。
1.1航班过站时间
通常情况下,航空公司为了提高飞机的使用效率,会安排一架飞机在一天之内执行
多个航班。图1为某飞机连续两天的航班执行情况。
飞机在执行前后衔接的航班时,中间在机场停留的时间即是过站时间。过站时间分
为计划过站时间与实际过站时间。计划过站时间等于班期时刻表中规定的下一航班
的起飞时间减去上一航班的降落时间,实际过站时间等于下一航班的实际起飞时间
减去上一航班的实际降落时间。图2为计划过站时间与实际过站时间的关系。
一般来说,实际过站时间同计划过站时间呈正相关关系,计划过站时间越长,实际
过站时间也越长。但是受诸多因素的影响,使得图1中大部分点偏离了直线y=x(x
为计划过站时间,y为实际过站时间),即实际过站时间并不严格等于计划过站时
间。飞机进港后,倘若对过站时间有准确的估计,后续航班离港时间及延误情况也
便可以得出,如图3所示。
因此,可以针对过站时间进行研究,对不同情况下的过站时间进行估计,从而到达
对离港时间进行估计的目的。
1.2过站时间影响因素分析
通过对历史数据分析,结合经验知识,确定对过站时间有影响的因素如下。
(1)计划过站时间
在航班执行正常的情况下,飞机的实际过站时间和计划过站时间相差不大,在其他
因素施加的影响下,实际过站时间才与计划过站时间有了偏差。发生延误时,当实
际过站时间小于计划过站时间,能够吸收延误,当实际过站时间大于计划过站时间
时,延误状况会加剧。
(2)前航班到达延误时间
前航班到达时间与航班时刻表中的到达时间相差不大时,下一航班发生起飞延误的
可能性较小,实际过站时间与计划过站时间基本相等。当前航班到达时间晚于计划
达到时间时,为了吸收延误,确保下一航班能够正常起飞,实际过站时间可能会小
于计划过站时间。
(3)飞机类型
一般来说,机型越大,过站时间也越长。在下文的实验中,针对不同座位数,把飞
机分成了4种类型,90座以下为机型A,90~160座为机型B,160~230座为
机型C,230座以上为机型D。
(4)机场
不同的机场,过站时间会有所不同。在繁忙机场,飞机的过站时间相对于其他机场
偏长。本文针对目前过内八大繁忙机场(北京首都机场、上海虹桥机场、上海浦东
机场、广州白云机场、深圳宝安机场、成都双流机场、西安咸阳机场及昆明长水机
场)和其他部分国内机场,对过站时间做了分析。除八大繁忙机场外,其他机场作
为同一类机场。
(5)前航班到达时间段
当上述因素相同的条件下,在不同的时间段,实际过站时间可能会有不同。若前航
班到达的时间是在机场相对繁忙的时间段,实际过站时间可能相对于其他时间段偏
长。
2.1贝叶斯网概述
贝叶斯网起源于人工智能中的不确定性问题的研究,是概率论和图论相结合的产物。
它一方面用图论的语言直观揭示问题的结构,另一方面又按照概率论的原则对问题
的结构加以利用,降低推理的计算复杂度。贝叶斯网是一个有向无环图,其中节点
代表随机变量,节点之间的边代表变量间的直接依赖关系。每个节点都附有一个概
率分布,根节点所附的是它的边缘分布P(X),非根节点附的是条件概率分布
P(X/π(X)),其中π(X)表示的是X的父节点。贝叶斯网将复杂的联合概率推理变成
一系列相对简单的模块,从而大大降低了知识获取的难度和概率推理的复杂度,使
人们可以把概率论应用于大型问题[12]。
对于一般贝叶斯网,联合概率分布可以分解为
贝叶斯网学习是指从数据中学习,得到贝叶斯网结构和参数的过程。在结构确定的
条件下,贝叶斯网参数学习有两种方法:最大似然估计和贝叶斯估计。最大似然估
计用于在先验知识未知的情况下,而贝叶斯估计用于有先验知识的情况下。
2.1.1最大似然估计
一个由n个变量X=[X1,X2,…,Xn]构成的贝叶斯网N,设节点Xi共有ri个取值:
1,2,…,ri,父节点π(Xi)的取值共有qi个组合:1,2,…,qi,网络参数为
式中:i的取值范围为1~n,对于各异固定的i,j和k的取值范围分别为1~qi和
1~ri。用θ表示所有θijk组成的向量。设D=(D1,D2,…,Dm)是一组关于N
的完整数据,则θ的似然函数为
对数似然函数为
定义样本Dl的特征函数
那么
定义
则mijk是数据中满足Xi=k,π(Xi)=j的样本数量。对数似然函数化为
式中{mijk/i=1,…,n;j=1,…,qi;k=1,…,ri}为充分统计量。
对于固定的i,j,由于θijk=1,当θijk取如下值时
当表达式mijklogθijk的值达到最大,从而l(θ/D)达到最大。直观上有
2.1.2贝叶斯估计
假设P(θij.)为狄利克雷分布D[αij1,αij2,…,αijri],在贝叶斯网全局独立性和局部独立
性假设下
为乘积狄利克雷分布。由贝叶斯公式
由于P(D)为一归一化常数,所以
即
P(θ/D)也为乘积狄利克雷分布,具有全局独立性和局部独立性,并且P(θij./D)为
狄利克雷分布D[mij1+αij1,mij2+αij2,…,mijri+αijri]。θijk的期望值为
因为P(θij./D)为狄利克雷分布D[mij1+αij1,mij2+αij2,…,mijri+αijri],所以
2.2过站时间动态估计
图4为过站时间估计的贝叶斯网结构图。当各影响因素确定时,各影响因素之间
有没有因果关系,过站时间的概率分布都是相同的。因而可以将用于过站时间估计
的贝叶斯网模型结构简化为图4形式。
由于航班记录的不断增加,需要对不断增加的航班数据进行学习。根据上面介绍的
两种贝叶斯网参数学习方法,可以把两种方法结合,达到参数增量学习的目的。首
先在没有先验知识的情况下采用最大似然估计进行贝叶斯网参数学习。在有新样本
时,把之前的学习结果作为先验知识,采用贝叶斯估计修正贝叶斯网参数。这样能
够顺序地加入训练数据,使得模型参数能够动态调整。贝叶斯网参数动态修正流程
如图5所示。
基于贝叶斯网参数动态修正的方法,可以对过站时间进行动态估计,图6为过站
时间动态估计流程。
首先对历史数据进行预处理得到训练样本,根据经验确定贝叶斯网结构,然后采用
最大似然估计学习贝叶斯网参数。假设θijk为贝叶斯网参数,根据式(9)计算θijk,
其中mijk为历史数据中满足Xi=k和π(Xi)=j的样本的数量;
中mijk=0,则设参数为均匀分布。计算完参数后,可对贝叶斯网模型进行推理,
得出不同条件下的过站时间。当有新的训练样本时,把之前的学习结果作为先验知
识,结合新的训练样本,根据式(17),采用贝叶斯估计修正贝叶斯网参数,其中
αijk为先验知识中满足Xi=k和π(Xi)=j的样本的数量,mijk为新样本中满足
Xi=k和π(Xi)=j的样本的数量。这样当不断有新的数据产生时,重复以上过程,
能够使贝叶斯网模型不断调整,以适应不断变化的情况。
2.3实验结果及灵敏度分析
实验中所用的数据为国内某大型航空公司在某省的航班数据,从中选取对过站时间
有影响的属性,用5个月的数据进行参数学习,得到的结果如图7所示。
经过之前的学习,把学习结果作为先验知识,再继续用1个月的数据对模型进行
学习,学习后得到的结果如图8所示。通过比较可以看到各个变量的概率分布发
生了细微的变化。当航班记录不断增加时,通过重复之前的过程,可以不断调整模
型参数,以适应不断变化的情况。
若要得到一个确切的过站时间值,可以用期望值作为过站时间估计值。计算方法如
下
式中:E(t)为在其他条件确定时过站时间期望值;Ti为第i个过站时间区间的中值;
P(i)为过站时间在第i个区间中的概率。表1所示为部分情况下两种学习结果的过
站时间估计值。
当计划过站时间为90~100min,前航班到达延误时间为60~70min,飞机类
型为B,到达机场为Apt7,到达时间段为上午10时时,两个学习结果的过站时
间估计值分别为72min和71min。在此种情况下,飞机到达已晚点严重,为了
能够让后续航班恢复正常,吸收延误,实际过站时间小于计划过站时间。例如再对
倒数第二条数据作分析,即使该飞机已经发生的前航班延误,但是在机场的繁忙时
间段,为了保证其他正常航班的执行,实际过站时间会大于计划过站时间,在此种
情况下,延误会加剧。
再运用未来一个月的航班数据对以上两个学习结果的性能进行测试,以平均绝对误
差作为评价模型性能的标准
式中:yi为预测值,为真实值。表2给出了两个学习结果的误差。
可以看到运用增量学习结果预测误差比5个月学习结果预测误差小,这是因为增
量学习结果中对近期数据进行了学习,更能够反应最新的航班运行规律。但是并不
是不断对新增加的数据进行学习就能持续减小误差,在运用此方法对过站时间估计
时,误差范围存在一个下界。
在影响航班实际过站时间的因素中,有的影响比较显著,有的影响相对较小,为了
分辨不同因素对实际过站时间影响的大小,对于上面的实验结果进行灵敏度分析
[13]。其中度量准则选取的是两个变量之间的互信息,其定义如下
式中:Q为查询变量,在本文中为实际过站时间;F为其他变量;q和f分别为查询
变量和其他变量的某一状态。互信息可以用来衡量随机变量之间的相关性。单独观
察Q时,得到的信息量是H(Q)。在已知F后,Q的信息量变为H(Q|F)。了解了
F后,Q的信息量减少了I(Q,F)=H(Q)-H(Q|F)。这个减少量是得知F后提供的关
于Q的信息量。当F和Q相互独立时,F的取值不会给Q提供任何信息量,因此
I(Q,F)=0。当F和Q相互不独立时,I(Q,F)>0。
分析结果如表3所示,其中变量与实际过站时间的互信息所占比重越大,表明影
响越显著。
从结果中可以看到,对实际过站时间的影响由大到小依次为计划过站时间、飞机类
型、机场、前航班到达时间段及前航班到达延误时间。
本文针对航班链中飞机在机场的过站时间,分析了影响过站时间的不同因素,用贝
叶斯网估计了不同状况下的过站时间。利用贝叶斯网增量学习的性质,可以动态修
正模型参数,更新过站时间估计值。数据表明,采用的方法能够较好地对各种情况
下的过站时间进行估计。最后对各影响因素进行了灵敏度分析。
【相关文献】
[1]TuYufeng,BallMO,tingflightdeparturedelaydistributions—A
statisticalapproachwithlong-termtrendandshort-termpattern[J].Journalofthe
AmericanStatisticalAssociation,2008,103(481):112-125.
[2]EunY,HwangI,larrivalflightsequencingandschedulingusing
discreteairbornedelays[J].IntelligentTransportationSystems,IEEETransactionson,
2010,11(2):359-373.
[3]LaskeyKB,XuN,ationofdelaysinthenationalairspace
system[C]//Proceedingsofthe22ndConferenceonUncertaintyinArtificial
Intelligence(UAI2006).[S.l.]:ComputerScience—ArtificialIntelligence,2012.
[4]PyrgiotisN,MaloneKM,ingdelaypropagationwithinanairport
network[J].TransportationResearchPartC:EmergingTechnologies,2013,27:60-75.
[5]马正平,崔德光.机场航班延误优化模型[J].清华大学学报:自然科学版,2004,44(4):474-477.
MaZhengping,zingairportflightdelays[J].JournalofTsinghua
University:ScienceandTechnology.2004,44(4):474-477.
[6]丁建立,杨海彤,顾彬.基于模糊免疫策略的机场航班延误自适应实时预测方法[J].南京航空航天
大学学报,2011,43(2):257-261.
DingJianli,YangHaitong,vereal-timeforecastingmethodofairdrome
flightdelaybasedonfuzzyimmunizationstrategy[J].JournalofNanjingUniversityof
Aeronautics&Astronautics.2011,43(2):257-261.
[7]丁建立,仝冠生,徐涛.基于免疫否定选择算法的机场航班延误状态检测与实现[J].高技术通讯,
2008,18(4):387-391.
DingJianli,TongGuansheng,ingandimplementingofairportscheduled
flightdelaystatebasedonimmunenegativeselectionalgorithm[J].ChineseHigh
TechnologyLetters.2008,18(4):387-391.
[8]徐涛,丁建立,顾彬,等.基于增量式排列支持向量机的机场航班延误预警[J].航空学报,
2009,30(7):1256-1263.
XuTao,DingJianli,GuBin,stwarninglevelofflightdelaysbasedon
incrementalrankingsupportvectormachine[J].ActaAeronauticaetAstronauticaSinica,
2009,30(7):1256-1263.
[9]吕晓杰,王红.大型枢纽机场大面积航班延误预警方法研究[J].计算机工程与设
计,2009,30(19):4564-4566.
LvXiaojie,forsweptflightdelayearlywarningoflargeaeronautic
hub[J].ComputerEngineeringandDesign,2009,30(19):4564-4566.
[10]曹卫东,贺国光.连续航班延误与波及的贝叶斯网络分析[J].计算机应用,2009,29(2):606-610.
CaoWeidong,annetworksanalysisforsequenceflightdelayand
propagation[J].JournalofComputerApplications.2009,29(2):606-610.
[11]刘玉洁.基于贝叶斯网络的航班延误与波及预测[D].天津:天津大学,2009.
delaytransmitforecastbasedonBayesianNetwork[D].Tianjin:Tianjin
University,2009.
[12]张连文,郭海鹏.贝叶斯网引论[M].北京:科学出版社,2006.
ZhangLianwen,uctiontoBayesiannetwork[M].Beijing:Science
Press,2006.
[13]CastilloE,GutiérrezJM,ivityanalysisindiscreteBayesiannetworks[J].
Systems,ManandCybernetics,PartA:SystemsandHumans,IEEETransactionson,
1997,27(4):412-423.
本文发布于:2023-02-20 10:20:30,感谢您对本站的认可!
本文链接:http://www.yoguilin.com/write/167685963050167.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |