技术探讨
【摘要】 根据5GC大区集约化运营要求,5GC网元AMF、SMF、UDM等在大区集中建设和维护,为了确保5G网络安全运行,需要部署网络安全可靠性技术。本文从运营商角度考虑,在设备层面、网络层面、业务层面进行了可靠性分析和探讨,总结出网络可靠性技术部署方法,并对现网进行部署,确保5GC网络运行安全可靠,具备快速容灾能力。
【关键词】 5G 网络 可靠性 云资源 引言
网络的可靠性是指网络在实际连续运行过程中完成用户的正常通信需求的能力。 从运营商的角度考虑,HA(高可靠性)可以分为几个层级的要求:
第一层级,系统不出故障,业务尽量走最短路由,保证设备运行环境良好。第二层级,允许有故障,但不要中断链路,业务不受影响,可通过增加系统冗余,增加系统隔离度,考虑负荷分担机制。第三层级,允许有路由中断,但要能尽快恢复业务,需要故障及时发现,减少故障处理时间,制定重大故障的紧急恢复预案等。通过分析网络可靠性影响因素,我们建议在设备、网络、业务三个方面建立评估模型,设备层面即评估设备本身的可靠性因素,包括设备的元件、电路、单板、物理链路的可靠性。网络层面即评估网络拓扑、路由机制对可靠性的影响,包括冗余链路、快速检测等。业务层面即针对网络中承载的各种业务的特点评估的指标,如收敛速度,时延,抖动对业务的影响。
1. 设备层面 1.
1.
虚拟化设备
1.
计算资源
5GC资源池采用双DC设计,云化网络的主用DC和备用DC部署在不同局址,通过划分HA(主机组)方式并预留20%冗余资源实现硬件容灾,采用主机反亲和方式部署,两个虚拟机必须部署在不同的主机里。当一台服务器故障时,业务虚拟机会自动热迁移到其他服务器,确保业务不受影响。
1.
1.
1.
存储资源
存储分为集中存储和分布式存储,其中集中存储采用RAID技术,分布式存储采用三副本模式。当前主流RAID技术主要有RAID0、RAID1、RAID5、RAID6、RAID10等技术,下面分别对这几种RAID技术进行比较。
RAID 0采用数据条带技术,整个逻辑盘的数据是被条带化分布在多个物理磁盘上,可以并行读/写,提供最快的速度,但没有冗余能力,要求至少两个磁盘。我们通过RAID 0可以获得更大的单个逻辑盘的容量,且通过对多个磁盘的同时读取获得更高的存取速度。
RAID1又称镜像方式,也就是数据的冗余。在整个镜像过程中,只有一半的磁盘容量是有效的(另一半磁盘容量用来存放同样的数据)。同RAID 0相比,RAID 1首先考虑的是安全性,容量减半、速度不变。
RAID5把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上,其中任意N-1块磁盘上都存储完整的数据,当RAID5的一个磁盘发生损坏后,不会影响数据的完整性,从而保证了数据安全。
RAID6是在 RAID5 的基础上为了进一步增强数据保护而设计的一种 RAID 方式,它可以看作是一种扩展的 RAID5 等级,校验数据可以分别存储在两个不同的校验盘上,或者分散存储在所有成员磁盘中。当两个磁盘同时失效时,即可通过求解两元方程来重建两个磁盘上的数据。RAID6 具有快速的读取性能、更高的容错能力,主要用于对数据安全等级要求非常高的场合。
RAID10是条带加镜像结构,即先采用条带结构按RAID 0分成两组,再分别对两组按RAID 1方式镜像,兼顾冗余(提供镜像存储)和性能(数据条带形分布),实际应用比较广泛。
基于5GC网络重要性考虑,集中存储采用RAID10模式,兼顾安全性和速度,确保5GC重要数据万无一失。
1.
1.
1.
网络资源
5GC云网络资源包括TOR、EOR、DC-GW、FW等,所有网络设备全部采用1+1负荷分担方式,5GC云池内部包括网元与网络设备之间的连接全部采用交叉连接,5GC资源池外联网络全部采用口字型结构,确保网络设备互为备份,网络结构安全可靠。
1.
1. 专用设备
核心网专用设备应采用双电源模块互备供电方式,各类网元的主处理板、业务处理板、电源板等核心板卡必须有冗余备份机制,当其中某块板卡故障时不影响业务的连续提供,单个网元的重要业务和电路应承载在不同机框和不同板卡上。核心网专用设备内部各类模块的处理能力均应达到或超过整套设备采购的容量要求,不应存在某个或某些模块的处理能力显著低于容量要求而成为瓶颈,确保设备在高业务量冲击下仍能正常运行。核心网专用设备主处理模块运行负荷应在安全合理范围内,原则上到达设计容量时CPU负荷(一套设备内同类模块平均值)
不超过70%。对外接口带宽负荷应在容灾备份机制的安全合理范围内,确保单边路由不可达时仍能正常承载全部业务。
1. 网络层面
在网络层面建议部署BFD快速检测、链路聚合、IGP FRR、VPN FRR等,加速路由收敛及链路检测,确保发生链路中断或路由变化时,业务路由收敛时间在毫秒级完成,以保障业务安全可靠。
1.
BFD快速检测
BFD是一个简单的“hello”协议,用于检测两个转发点之间故障。BFD是一种双向转发检测机制,可以提供毫秒级的检测,可以实现链路的快速检测,BFD通过与上层路由协议联动,可以实现路由的快速收敛,确保业务的永续性。
在承载网上,在链路检测、OSPF、BGP等协议中全部部署了BFD快速检测,承载网设备设置BFD延时UP机制,延时时间3分钟。承载网与业务侧设备互联链路配置BFD 链路故障检测功能,并绑定业务侧静态业务路由。承载网络设备之间检测时间为150ms,承载网与业务网元之间的检测时间按照业务设备要求配置。
1. 链路聚合
链路聚合是将—组物理接口捆绑在一起作为一个逻辑接口来增加带宽及可靠性的方法。相关的协议标准可参考IEEE 802.3ad。通常情况下,在链路聚合中配置静态LACP协议,实现端口快速检测。静态LACP模式链路聚合是一种利用LACP协议进行参数协商选取活动链路的聚合模式。该模式由LACP协议确定聚合组中的活动和非活动链路,又称为M:N模式,即M条活动链路与N条备份链路的模式。这种模式提供了更高的链路可靠性,并且可以在M条链路中实现不同方式的负载均衡。
通过配置链路聚合和LACP协议,一方面可增加冗余链路,另一方面可以快速检测光口单通,防止链路单通对业务路由造成影响,提升了网络可靠性。
1. IGP FRR
IGP FRR是一项综合性的技术,它通过ISPF、PRC来实现单路由器上的路由快速计算,结合链路状态信息的快速通告、指数退避定时器等技术来实现整个网络的路由快速收敛。IGP快速收敛技术主要关注于链路状态信息的接收、发送,以及路由计算过程的优化,其中,路由计算过程是重点。当网络拓扑比较复杂,路由量巨大的情况下,全部网络信息重新计算一遍不仅消耗的时间长、收敛慢,而且会耗费大量的CPU资源,对网络设备造成一定的冲击。常规SPF必须通过全部的计算过程来确定最短路径树,并计算出路由。但SPF并不保存这个计算结果,当有信息发生变化时,SPF只能重新计算一次,耗时耗力。而ISPF只处理网络拓扑的信息,即只负责计算出最短路径树。它会保存一个直接反映网络拓扑的“图”状数据库,而计算出的最短路径数则保存在这个“图”中。当链路状态信息发生变化时,ISPF会判断出哪部分网络拓扑受到影响,从而只计算受到影响的部分,而不是全网拓扑,可以加速路由收敛。在现网上针对OSPF、ISIS等已部署IGP FRR技术,实现了IGP路由快速切换。
1. VPN FRR
VPN FRR利用基于VPN的私网路由快速切换技术,通过预先在远端PE中设置指向主用PE和备用PE的主备用转发项,并结合PE故障快速探测,在VPN路由收敛完成之前,先将VPN流量切换到备份路径上。这样,解决了PE节点故障恢复时间与其承载的私网路由的数量相关的问题,实现了VPN路由的快速切换。在现网中共有20多个业务VPN,通过部署VPN FRR,保障了业务的可靠性和快速重路由。
1. 业务层面
承载网与5G网元之间启用BFD For BGP、VPN FRR、交叉连接等可靠性技术,确保控制面与用户面5G业务可以快速检测与切换。5GC网元之间通过部署池组或1+1主备容灾方式,实现安全可靠运行。
AMF采用组池方式容灾,当某台AMF故障不可达时,网络会自动切换至池内其他网元。当故障AMF仍能登陆时,配置使故障网元隔离,关闭所有对外端口或关闭虚拟机,优先在AMF手动触发到NRF的去注册。当故障AMF不能登录时,则在NRF上禁止该AMF实例,使该AMF暂时不被其他NF发现。
SMF采用组池方式进行容灾,当某台SMF设备故障时,会切换至池内其他SMF设备。当故障SMF仍能登陆时,应立即在该SMF手动触发到NRF去注册,使该SMF暂时不被其他NF发现设置去活速率,去活故障SMF用户;去激活S5接口,避免用户从4G接入融合网关。当故障SMF无法登陆时,通过下电虚拟机将此故障SMF隔离。
UDM/PCF采用1+1主备方式容灾,利用容灾FE、BE承载业务,相关STP、DRA提前设置容灾数据,故障时业务倒换至容灾FE、BE。当互备的FE1、FE2设备中的某个FE1故障,对端网元HSTP/DRA到FE1信令点(远端实体)不可达,NRF/AMF到UDM服务化请求消息失败。BE1到FE1 Ud口故障,HSTP/DRA自动把信令消息发送到其FE2处理,FE2就近访问本地的BE2。NRF主动向订阅方发送FE可用信息。此时可将故障FE1业务容灾倒换至备用FE2,由备用FE2接管故障FE1的业务。当互备的BE1、BE2设备中的某个BE1故障,此时FE1通过IP承载网络访问BE2。MAP/Diameter/业务不受影响,但业务发放失败。需要倒换主用BE和备用BE,切换业务发放系统连接到备用BE。
UPF采用组池方式进行容灾,某台UPF故障,短时间无法修复,业务持续受损,直接隔离此故障UPF,锁定UPF,去活会话,关闭业务出接口平面对应的所有子接口,将业务疏导到POOL内其他正常UPF。
在实际应用中,通过在承载网与网元、网元与网元之间部署不同的容灾方式,实现业务的安全可靠。
1.
总结
在大区集约化运营场景下,大区5GC网元AMF、SMF、UDM等在大区集中建设和集中维护,部署网络安全可靠性技术尤为重要。在实际网络中,需要从设备层面、网络层面、业务层面分别部署,确保设备供电及板卡安全、网络路由快速收敛、业务快速容灾切换,提高5G网络运营能力,提升5G用户感知。
参考文献:
[1] 王光鹏.5G网络通信技术及核心网架构的研究[J].数字通信世界,2019,0(1):63
[2] 寇晓荷.计算机网络可靠性分析与设计[J].电子技术与软件工程,2017(02):17.
[3] 刘小龙.关于计算机通信网络可靠性设计技术的分析[J].中国新通信,2017,19(15):32-33.
[4] 黄宁. 网络可靠性及评估技术/可靠性新技术丛书[].国防工业出版社, 2020-05
因篇幅问题不能全部显示,请点此查看更多更全内容