无线通信基站系统在现场应用中会受到散热、灰尘、油烟、湿度、腐蚀等环境因素的影响,而运营商降低建设成本和维护成本的考虑使得设备工作环境更加恶化。从实践角度出发,基于实际部署经验,系统性地分析了上述因素对设备可靠性的影响,提出综合设备设计和应用环节统筹考虑以减轻影响的思路,并针对设备设计和部署给出了具体建议。
运营商降低TCO,主要包含降低建设成本(CAPEX)和维护成本(OPEX)两方面。为了降低CAPEX,通信设备尤其是接入网设备的工作环境,从机房、空调方舱等被改变为包括室外柜、弱电井、楼道、车库、铁皮柜等各种复杂环境,同时对通信设备提出了体积小、重量轻、安装成本低的要求,还要维持设备本身的低成本;为了降低OPEX,设备要尽量降低功耗、尽可能地被室外化、工作环境相对过去高温化,以节省电费,同时还要求设备尽量减少维护,以降低维护人工的成本。接入网电信设备从精密、娇贵的设备,已经变成无所不在的IT 化设备,甚至工作环境更为恶劣。简易机房土坯墙面脱落,设备工作环境的恶劣情况如图1 所示。
图1 设备工作环境恶劣情况
在这个背景之下,电信设备近年来面临各种新的环境适应性问题,设备设计的一些思路也需要有发生转变,从遵从标准到理解标准,满足应用场景,以适应不同的应用需求。
对设备在不同环境下工作以及设计约束的研究,传统上属于可靠性方面。但是,传统的可靠性方法,并没有针对实际工程应用给出足够的指导意见。设备设计制造需要对环境适应力的深入理解和把握,以及从系统多个维度上进行平衡。
1、研发过程的可靠性方法
传统的可靠性增长方法,主要从可靠性预计和可靠性指标分配开始,通过预算、设计、控制等过程,保证产品的质量[1]。
可靠性预计基于对器件失效模型的认识,通过概率与数理统计方法,首先对系统建立可靠性数学模型,然后评估其平均无故障时间(MTBF)、平均恢复前时间(MTTR)等指标。参照的方法很多来源于美国军用手册MIL-HDBK-217。但是,这些方法在实际应用中有非常大的局限性,存在估算数据不准确,参考意义不足等诸多问题[2-3]。
有一些人认为,这些方法估计不准确的主要原因是在于手册制订时间过早,电子工业经过多年的发展,手册不符合实际的情况,有一些通过经验进行修正尽量使得估计准确。但是仍然有很多因素使得估算不能准确进行:一个主要因素是失效模型受到诸多外界因素的影响,故障往往都不是模型中考虑的,多为过应力使用、非设计场景的恶劣环境等,无法在模型里考虑充分;另外一个主要因素是系统模型异常复杂,实际的分析不可行。
以目前通信基站系统来看,一个系统中存在若干个单板,有一些故障模式并不能完全用串联或者并联描述,存在关联性。每个单板中可能存在超过100~200 种、数千个物料,存在多种失效模式。失效模式、失效模式对应的器件范围,甚至一种失效模式在不同的情况下对系统的影响均不相同。这样,使得可靠性预计更加困难,难以有效实施。而且,随着IT 化和商用货架产品(COTS)的广泛使用,可靠性分析对设计的指导作用更加有限。从设备设计和生产实际的经验认为,主要的设备故障和异常往往来自于环境等外部不可控因素影响,而不是部件自身老化或者偶发失效,这也使得可靠性预计的准确度大大降低。
有一些更激进的观点认为,可靠性预计已经变成数字游戏,对产品的质量和设计没有指导意义。能够保证设计系统可靠的是可靠性增长试验和失效物理(可靠性筛选和监控属于控制范畴,本文不讨论)。
失效物理通过研究某一种因素对部件的影响,分析部件会在何时、何处、何种原因,发生何种类型的失效。通过研究扩散、相变、腐蚀、应力、静电泄放等物理化学过程对器件的影响,来分析器件可能产生的问题。失效物理的分析为进一步的改进和增加可靠性提供了很好的基础(分析的例子如图2 所示)。
图2 陶瓷电容横贯裂纹、芯片ESD损毁形貌
目前可靠性增长试验中,应用较为广泛的包括四角测试、强加速寿命试验(HALT)等,还包括盐雾、灰尘、湿尘、振动、渗漏等。这些试验有意无意地采用失效物理分析的一些因素,例如HALT 实际上考虑的是高低温应力、高低温循环带来的应力、叠加强振动等,来寻找系统设计的薄弱环节;盐雾考虑的是腐蚀的问题;振动主要评估结构在应力下的表现。因为设备寿命远远长于试验所能够接受的周期,在可靠性试验设计中,常常也采用加速的方法,加大应力(电压、温度、湿度、温变速率等),增加样本数量,来评估系统实际工作中的寿命。图3 就是室内无线基站设备的加强灰尘试验,评估极端灰尘环境对设备连接可靠性和散热的影响。这些试验对改进设计、提高实际应用的可靠性起到了很大的作用,也是设计中保证设计指标的必要手段。但是为了控制分析的复杂度,试验剖面设计一般只针对某一类应力、机理或者失效模式,和现场应用的复杂环境有所区别。
图3 中兴通讯无线接入网设备的加强 应力灰尘试验
系统设计上,要综合考虑可靠性方法、电路设计方法、结构设计、环境设计方法等,结合降低CAPEX 和OPEX 的要求,确保设备的可用性。
2、设备常面临的环境问题
设备工作的环境情况非常复杂。北大西洋公约组织将全球的气候根据温度和湿度作了划分,作为设计指导的依据[4]。温度和湿度对设备存在一定的影响,但是设备的工作和更多的环境因素、人为操作因素相关联。美国军用标准MIL-HDBK-338B第7 部分,对环境因素和对设备的影响进行了一些描述,但是也没有给出设计指导意见[5]。
因为环境对设备的影响相互关联,很难独立的进行分析。本文尽量将关联的因素进行归类,分析对设备带来的影响以及设计应用中需要进行的考虑。
2.1 散热及相关
温度对设备有很多方面的影响,与散热相关的设计是设备最关注的方向之一,并且和包括灰尘等方向相关联。
从可靠性角度来看,温度影响着器件内粒子的扩散速度,过高的温度会加速迁移的速率,最终导致器件的失效。同时,温度还会加速腐蚀的进行。温度的昼夜、季节变化导致设备各个部件的热胀冷缩。热胀冷缩率的不同,对器件封装、组装等各个环节产生循环的应力。温度对设备寿命的影响在可靠性分析中已经有很多的研究,一般认为,温度每升高10度,设备的寿命缩短为原来一半。
从可靠性预计角度来看,为了延长设备寿命,应该使设备保持较低的温升。实际上,为了满足日益增长的处理复杂度需要,设备的集成度持续提升,设备比以往要耗散更多的电力。要把这些热散出去,需要增加设备的体积,或者增加设备的风流量,增加辅助的散热设施。这些措施的采用,直接抬高了CAPEX;降低设备温度,还意味着风扇/空调的转速更高,作为运动部件的风扇,比电子零部件更容易失效,这也就意味着降低温度实际使得设备更容易失效;更大的风流量,也意味着防尘网需要更频繁的清洗,增加了人力维护成本;更大的风流量,还意味着更多的耗电、更大的噪音。作为设计折中,系统设计中,比较倾向于让器件的工作温度在保证降额的情况下,贴近高温区,减少散热带来的电费增加以及风扇磨损、噪音等相关问题。不但如此,系统设计中让设备工作温度靠近高温区,还可以降低设备内湿度。但是,贴近高温区,也可能使半导体器件漏电导致设备消耗更多能量,需要平衡各因素进行考虑。