工作总结
发表时间:2026-04-21网络年终工作总结。
一年下来,机房温湿度曲线平稳,设备告警灯没乱闪过,这就是最好的成绩单。不扯虚的,说三个今年实打实啃下来的问题。
第一个,核心交换机板卡反复重启,差点被厂家忽悠换硬件。
三月份,数据中心一台S12708,业务板卡每隔两三天就重启一次,每次掉三十多台虚机。厂家看了日志说“疑似硬件故障”,建议换板卡,报价十二万。我没签字,因为日志里没有任何明确的硬件报错码,只有一条“power supply transient”的提示。
那天晚上故障又复现,我带两个新人蹲在机柜前盯着。观察到温度传感器读数在故障前两分钟从42℃慢慢爬到51℃,然后又降回44℃。这个“爬升再回落”的曲线不像是风道彻底堵死——堵死的话温度只会升不会降。拆开前面板,发现问题不在进风口,而是机柜背部的理线槽太密,把交换机自身的散热孔堵了三分之二。更关键的是,这块板卡上方恰好有一台老式光纤收发器,它的风扇朝下吹,热风直接灌进交换机进风口。两个热源叠加,导致板卡电源模块区域温度累积到临界点,触发过温保护重启。冷下来之后恢复,过一阵子又循环。 wwW.fW76.CoM
处理不复杂:把那个光纤收发器移走,在机柜后门加装两个抽风风扇。之后跑了九个月,再没重启过。教训:排故障不能只看单一设备的指标,要看相邻设备的互相影响。后来我要求每次机柜上架新设备,必须用热成像扫一次相邻区域的温度场,形成记录存档。
第二个,跨地市专线凌晨闪断,查了一个月,最后栽在光模块老化上。
八月份,总部到分公司的MSTP专线,每天凌晨两点左右闪断一到两次,每次几十秒自己恢复。传输侧说光功率正常,路由器侧说物理状态UP,两边互不认账。用户凌晨跑批作业天天失败,分公司IT经理在群里炸了锅。
我调出过去两周的syslog,发现闪断时间点不是固定的两点整,而是两点零几分到十几分之间随机。更关键的是,每次闪断前十几秒,入方向都有几个CRC错误计数,但很快清零。这不是物理链路中断的特征——物理断纤不会自己恢复这么快。我让团队把光模块的DDM数据拉出来,盯着偏置电流这条曲线。正常范围是8到12毫安,但这个模块在凌晨两点温度最低时,偏置电流突然从9.5跳到18毫安,然后掉回9.8。跳变的那几毫秒,信号质量劣化到触发LDP会话重置,但物理层还没来得及报down就恢复了。
现场怎么验证的?没有用焊台去烤,那太危险。我申请了一个凌晨窗口,用光衰减器慢慢增加衰减量,同时监控偏置电流。当衰减增加到3dB时,偏置电流开始不稳定跳动,和日志里的尖峰吻合。换了同型号新光模块后,同样的衰减量下偏置电流纹丝不动。问题确认是光模块早期老化——激光器阈值漂移,低温时尤其明显。
后来我把“光模块偏置电流日波动幅度”加入监控项,超过30%就预警。用这个方法提前换了另外两个站点的隐患模块。这件事让团队里一个年轻工程师学会了看DDM数据,而不是只会敲display interface。
第三个,办公区无线改造,质量验收差点被施工队糊弄过去。
老办公区会议室一到三十人以上就掉线,换高密AP的方案我定的。但施工是外包的,线缆端接那一块我信不过。项目进行到布线阶段,我抽查了六个点位,用福禄克测试,两个不合格——近端串扰余量只有1.2dB,标准要求至少3dB。施工队长说“能上网就行”,我当场让他拿笔记本打iperf测长距离吞吐量,合格的线跑900兆,不合格的掉到400兆还丢包。他没话说了。
返工时我盯了一个下午,带着两个团队成员一起压水晶头。我让他们每人压五根,然后上测试仪对比。有个小伙子压的线总是串扰超标,我让他把外皮剥长一点,看清线对绞合情况——原来是他在理线时把一对线拆开太多,绞距被破坏了。标准里写着六类线终端处开绞长度不超过13毫米,他以前从来不看。那天之后,他主动把TIA-568-C.2里关于线缆弯曲半径、开绞长度的几个关键数字贴在了工作台上。
验收阶段我加了两个硬指标:每个点位必须提供福禄克测试的永久链路报告,报告中PS NEXT和PS ACR-F两项的余量都不得低于3dB。施工方多花了三天返工,但最后交付的质量确实不一样。后来有一次大会议室开百人培训,无线全程没掉过链子。
- ●76范文网编辑部墙裂安利:
- 网络销售工作总结 | 网络安全工作总结 | 网络推广年终工作计划 | 网络推广年度工作总结 | 网络年终工作总结 | 网络年终工作总结
说几个今年吃了亏才明白的事。
故障排查最忌讳先入为主。板卡重启那个案例,如果当时信了厂家的“换板卡”,能暂时消停,但热源问题还在,过几个月别的板卡照样坏。我现在要求团队写故障报告时,必须写清楚“排除了哪几个可能性”和“排除的依据是什么”,不准只写“最终定位为”。
数据要真,别凑数。今年全年重大故障3起,一般故障44起,平均修复时长从去年47分钟压到23分钟,设备完好率算下来99.96%,年累计离线4.2小时。这些数字我有每周的统计表,每个故障的起止时间精确到分钟。团队里谁负责填表,谁就得附上操作日志截图。
带人这件事,说一百遍不如让他亲手错一次。那个压水晶头的小伙子,以前觉得标准是摆设,等他亲眼看到同一根线自己压的和老师傅压的差了一倍吞吐量,就再也不嘴硬了。现在我让他们轮流当故障主查,我只在旁边看,不提示,等他们走投无路了再给方向。今年三个人独立处理了六起故障,虽然比我慢,但流程是对的。
明年计划就两件事,不画大饼。第一,把光模块偏置电流的监控脚本用Python写出来,每天自动跑一遍,超阈值钉钉推给我。第二,把机柜散热检查做成月度巡检项,用热成像和风速仪测,数据记进设备履历表里。工具都现成的,就差把习惯固化下来。
网络这行,不出事靠的是较真。较真不是喊口号,是凌晨两点爬起来看日志,是拿测试仪一根一根线去测,是敢跟施工队拍桌子说“返工”。明年继续。
- 欲了解工作总结网的更多内容,可以访问:工作总结