基于国产化设备的园区物联网建设方案研究
——以某企业园区物联网建设为例
摘要
随着 5G、Wi-Fi 6/7 的发展,边缘计算与工业物联网迅速兴起,园区级物联网成为保障生产安全、提高运维效率与推进智能制造的关键基础设施。本文以 2023 年 3 月由本人牵头在某企业园区实施的物联网建设项目为例,系统阐述了政策背景与调研判断、分层网络与设备选型、存储与容灾备份策略,以及基于等保 2.0 的安全体制与信创兼容体系建设。工程采用国产化软硬件平台与虚拟化融合架构,安全体系覆盖物理、身份、准入、传输、审计与漏洞管理,SIEM/态势感知与 SOAR 联动实现主动防护。经联调与测试,项目于 2023 年 9 月顺利通过交付验收并投入运行;整体稳定,仅个别远端室外监测点的电源与光纤冗余需在后续建设中补强。本人作为本项目的网络规划与总体设计负责人,负责拓扑方案制定、信创兼容性验证及安全体系规划。
正文
引言:背景与政策支持与项目总体说明
国家推动制造业智能化与信息化的政策导向, 为园区物联网建设提供了清晰指引。 自2015 年提出《中国制造2025》的智能制造愿景以 来, 政策体系持续深化: 工业和信息化部于 2016年发布《智能制造发展规划(2016—2020 年)》,并在此后数年密集出台配套文件,强调并着力推动工业互联网、5G、边缘计算及数据平台在制造业的深度融合与应用。且为保障产业链安全与供应链稳定,本项目经充分评估后,决定全面采用国产化设备,规避潜在断供风险。
基于上述政策背景和企业数字化转型的内在需求,我单位于 2023 年 3 月立项开展园区物联网与网络升级改造工作。项目目标是通过国产化设备与分层架构,实现环境与设备的统一感知、生产过程的在线可视化、运维流程的自动化与合规审计能力,从而保障业务连续性并提升安全可控性,提升智能感知与数据决策能力。试点验证成功后,项目迅速推广至全园区,并于 2023 年 9 月完成交付验收并进入稳定运行阶段。
调研与需求分析
为保证设计方案切实满足业务需求并具备工程可落地性,项目前期历时约 3 周开展了系统调研工作,涵盖现场勘察、关键岗位访谈、历史故障与事故统计、网络与流量测量、射频扫描及安全评估等内容。
(1)现网问题分析
调研结果表明,现有园区网络架构陈旧、资源分配不均、安全能力不足,主要存在以下问题:
老旧设备占比高(约 40%):核心与汇聚设备仍为 2014 年前型号,无法支持 VXLAN、堆叠及能源管理模块,导致维护风险高、兼容性差、能耗大;
链路利用率严重不均:部分生产区汇聚端口平均利用率长期低于 20%,而视频监控区端口峰值带宽利用率高达 95%,存在明显的带宽瓶颈与局部拥塞风险;
无线信号盲区与同频干扰:射频扫描结果显示,厂区北区平均 RSSI −75 dBm 以下区域占比约 18%,部分高密环境存在同频干扰,影响终端漫游体验与稳定性;
安全审计缺失:现网仅具备基础防火墙日志,缺乏终端准入、身份追溯与集中审计机制,无法满足等保 2.0 对访问控制与安全监测的要求。
综上所述,系统性升级与重新规划势在必行,以支撑园区后续的智能制造与物联网业务发展。
(2)业务与功能性需求
结合园区业务特征与未来发展目标,主要需求集中在以下几个方面:
生产与安全监测:需实现温湿度、烟感、漏水、粉尘等关键参数的实时采集、毫秒级上报与联动控制;
设备可用性与实时控制:生产控制环节对时延、抖动和丢包敏感,需以有线方式保障稳定性;
视频与带宽负载:高清视频回传与存储需高带宽与中心统一归档分级管理机制,以提升分析效率并降低成本;
终端接入与安全合规:系统需承载万级传感器与千级移动终端并发接入,具备QoS优先级调度与无线侧快速漫游能力。
合规与审计要求:满足等保2.0设计,包括设备身份认证、网络分区隔离、日志审计、态势感知等。
据此确立总体设计思路为 “分层架构 + 混合接入 + 中心化治理 + 信创合规 + 等保防护”。
设备选型与总体分层架构
在明确总体建设思路后,项目在网络架构设计阶段遵循“分层、模块化与国产化优先”原则,形成了可扩展、可演进的园区物联网网络体系,具体架构如下:
分层架构概览(实施情况)
核心层采用两台华为 S12700E 系列设备作为园区核心交换机,配置双引擎、双电源、双交换版,实现单设备冗余,并通过 CSS2 实现控制与转发平面融合备份。任何一台设备出现故障都不影响业务正常运行,显著提升了网络可靠性,也简化网络管理。核心侧与数据中心互联采用双上行高可用设计,实现控制平面与数据平面的双机冗余,彻底消除核心单点故障。
汇聚层采用华为 S6730-H 系列堆叠交换机,两两堆叠,通过多模光模块上行至核心层,构建 40G 高速骨干链路,从而在保持高带宽的同时实现多链路冗余。该设备还原生支持100G模块和VXLAN硬件转发能力,并保留丰富扩展槽位,支持未来带宽平滑升级与园区虚拟化扩展需求。
接入层:接入交换机采用华为 S5735-S,支持PoE++(单端口90W),为 AP、摄像头与传感器提供电力与接入。接入交换机双上行到不同汇聚以避免单链路与单设备故障。考虑到不同区域需求,本次部署多种类型的无线AP。其中室外园区采用华为防护型 AP7060DN,具备防水防尘功能,适应室外恶劣环境,支持远距离覆盖;室内高密度会议室采用华为高密AP,配置智能天线,支持100人接入,能有效减少AP部署数量,防止同频干扰;室内小办公室采用墙面AP,保障每个角落信号无死角覆盖。厂区采用华为 AirEngine 6761‑22T 瘦 AP,该型号支持室内定位、资产盘点与 BLE 实时位置服务(RTLS),在物联网场景中支撑移动资产管理与人员定位。 并使用iMaster NCE‑WLAN 的 AC 功能对所有AP进行统一管理、配置下发,实现快速漫游与策略一致性,也能保障无线用户在整个园区网实现无缝漫游。
边缘层部署 Huawei IoT Edge网关与FusionServer边缘计算节点。由边缘网关完成协议聚合、边缘节点统一由Atlas AI 模块,通过 iMaster NCE orchestrator 编排部署轻量化AI算法镜像,实现算力与任务调度的可视化管理 ,负责本地规则引擎与阈值告警,对视频流及传感信息时序流进行实时分析,识别安全生产风险事件(如人员闯入、未戴安全帽、烟火)与设备异常状态,确保本地检测毫秒级响应,并提取疑似异常特征数据,实时上传至中心平台进行深度AI分析,并在网络质量受限时,可保证本地事件上报的可靠排队与重发机制,确保极端网络中断下关键告警不丢失。
该架构在保证“控制平面高可靠、数据平面高吞吐、管理平面可审计”的同时,通过虚拟化技术提升资源利用率,也为上层网络的虚拟化与精细化安全隔离提供了坚实的 Underlay 基础。并为未来园区的云边协同与AI推理提供良好支撑。
存储选型与容灾备份策略
为支撑园区海量的异构数据,存储方案的设计必须兼顾性能、成本、扩展性与数据安全。我们首先对项目核心数据类型进行了特征分析:
视频录像:非结构化数据,容量大,写入频繁,读取较少,对成本敏感。
系统日志:半结构化数据,持续生成,需支持快速检索与长期归档。
物联传感数据:典型的时序数据,具备高并发写入、低延迟查询和高压缩比的特性。
基于上述分析,并对比了 FC-SAN、iSCSI 等方案后,我们认为单一存储架构无法高效满足所有需求。因此,我们确立了“基于数据特性的分层混合存储”策略:
针对视频与日志,采用华为 OceanStor NAS 与对象存储的组合。NAS 承载近期视频与热日志,提供高性价比的在线访问;对象存储则作为冷数据归档层,通过其优秀的扩展性和成本优势,满足长期留存(6个月以上)的合规要求。
针对万级传感器毫秒级上报的并发压力,我们选用国产华为openGemini 高性能时序数据库存储。其高吞吐、低延迟的特性完美匹配传感数据的实时处理与查询需求,为上层AI分析提供有力支撑。
同时,为保障业务连续性与数据可信,我们构建了多层次的容灾与安全机制:
数据冗余:启用日级快照与异地异步复制,确保关键数据具备RPO/RTO分钟级的恢复能力。
数据防篡改:采用“SHA-256 + SM3”双算法校验数据完整性,签名则使用“RSA-2048 + SM2”国密算法,并对传输与静态数据强制加密及细粒度访问审计。
生态兼容:所有关键元数据统一同步至信创数据库(GaussDB),确保与国产软件生态的无缝对接。
该架构不仅实现了对不同数据生命周期的精细化管理,优化了TCO(总体拥有成本),更在满足等保2.0要求的同时,为未来对接云上大数据平台奠定了坚实基础。`
安全体制、等保 2.0 要点与态势感知能力(制度—技术—运行)
我们的安全体系围绕这些威胁展开设计。
为满足等保 2.0 在物联网场景下的合规要求,并确保信创环境下的安全可控,考虑到园区物联网面临的三大典型威胁:轻量级终端易被仿冒接入;东西向流量(如摄像头到存储)可能被窃听;供应链投毒风险。我们的安全体系围绕这些威胁展开设计。本项目安全体系以“纵深防御 + 零信任 + 信创可信计算”为核心理念,形成覆盖制度、技术与运行的三层体系。
- 在 身份与准入控制 方面,系统基于国产密码算法实现 PKI 体系,采用 PKI 与 802.1X的EAPTLS认证方式,实现端口级访问控制与身份可信,确保设备与运维人员的身份可验证、通信可加密;对无法证书化的轻量终端,采用网关代理与白名单方式实现受控接入,同时符合等保 2.0 “身份鉴别最小化”原则。
- 在 网络安全与虚拟化防护 方面,园区网络实施 IT/OT/DMZ/访客 四区隔离,并在边界部署 NGFW、IDS/IPS 与流量镜像探针。核心层 CSS2 虚拟化系统通过 VRF + VXLAN 技术实现逻辑多租户隔离,防止虚拟化平面攻击扩散。关键链路启用 MACsec 与 IPsec 双层加密,控制面采用国密隧道协议确保通信机密性与完整性。
- 在 审计与态势感知 层面,项目建立基于 国产 SIEM 平台,华为 iMaster SecoManager作为集中日志与事件分析中心,融合 UEBA 与威胁情报(CTI)进行异常检测。通过 SOAR 自动化响应体系,可实现事件自动隔离、工单触发与恢复闭环,将平均响应时间从人工 3 小时缩短至 15 分钟以内。
- 此外,系统构建了覆盖漏洞扫描、灰度补丁发布、固件签名验证及设备退役销毁的全生命周期可信管理机制,从设计源头防止供应链攻击,形成了“信创可信 + 虚拟化隔离 + 主动感知”的国产化安全体系。
管理与运维(自动化与可审计)
资产与配置管理方面,构建了 NAC 与 CMDB 联动机制,实现设备接入即登记、变更即备案,覆盖设备属性、证书、固件版本与责任人等关键信息;所有入网与变更操作均纳入审批流程并留痕。
为降低人工错误并提升变更效率,运维采用模板化配置与脚本化发布,借助 Ansible 与自动化流水线实现批量下发、补丁发布与快速回滚,且所有变更均通过审批并记录审计日志,确保配置一致性与可追溯性。
在日常运维中,我们建立了明确的监控职责与响应流程。由NMS平台实时监控网络性能与可用性,任何故障告警将触发运维工单;而所有安全事件则统一由SIEM平台聚合分析,并根据预设剧本(Playbook)自动触发SOAR执行响应,或在需要人工研判时,生成安全事件工单,交由值班团队处置。
为保障运行韧性与持续改进,建立了明确的值班机制与 RTO/RPO 指标,定期开展等保自查、容灾演练和红蓝攻防演练;同时完善知识库与故障手册,组织定期运维与安全培训,确保制度与技术同频落地。
结论与展望
系统已按设计完成部署并通过专家组与用户验收。上线运行后满足既定 KPI(关键区域无线覆盖≥99.9%、关键控制消息端到端延迟<50ms、漫游切换<50ms、系统可用率≥99.95%)与合规要求,安全体系通过等保2.0三级测评,实现安全事件平均响应时间(MTTR)<30分钟。
不过,仍存在不足:个别远端室外监测点因初期预算限制采用临时供电方案,极端天气下需人工干预。建议下阶段实施双路供电+光纤冗余改造并预留专项资金。
综上所述,本项目成功验证了在 国产化与虚拟化融合环境 下构建高可靠园区物联网的可行性与可复制性,为后续智慧园区、工业互联网场景提供了可推广的设计模板。本次建设显著提升了园区生产可视化与运维效率。未来将进一步深化国产软硬件适配,通过昇腾NPU加速边缘AI推理性能,结合openEuler实时内核增强确定性时延性能,夯实自主可控技术底座,持续提升运营韧性。
论智算中心(AIDC)的多维融合网络架构规划与实践
——以某大型科研机构AIDC建设项目为例
摘要
在人工智能与大模型驱动的时代背景下,智算中心(AIDC)已成为承载国家战略与前沿科研的核心基础设施。其对网络的需求超越了传统数据中心,呈现出极致性能、智能调度、内生安全与高效运维等多维度挑战。本文以2024年某大型科研机构智算中心建设项目为例,由本人作为主要负责人深度参与规划设计,系统性地阐述了一套多维融合的网络架构方案。
该方案在物理层,采用基于Clos架构的无损以太网承载RoCEv2流量;在虚拟层,引入SRv6与VXLAN技术构建云网算一体化的算力网络;在存储方面,选择了NVMe-oF实现高性能存算互联;在安全方面,围绕“零信任”理念构建了贯穿物理层到应用层的纵深防御体系,并完成了信创环境下的安全兼容性验证;在运维方面,规划并落地了AIOps智能运维平台**,显著提升了运维效率。
项目成功交付后,各项性能指标均超越设计预期,并顺利通过等保2.0三级测评,为该机构在大模型训练与科学计算领域的研究提供了坚实可靠的算力底座。
项目背景与规划目标
随着以Deepseek为代表的大语言模型参数量呈指数级增长,AI训练模式已演进至万卡规模的并行计算集群。这种变革对网络提出了颠覆性的“三高一低”要求:即高带宽、高并发、高可靠(零丢包)和超低时延。我所在的大型科研机构于2024年初启动了“国家级人工智能与科学计算平台”项目,旨在构建一个拥有超过2000个计算节点的智算中心。为支撑该平台,我们确立了构建一张性能卓越、智能敏捷、安全可靠、自主可控的智-算-存一体化网络的总体目标,并制定了明确的KPI指标:存算访问端到端时延低于20μs,网络转发实现零丢包,关键故障平均定位时间(MTTR)小于15分钟,并通过等保2.0三级测评。
网络架构与设备选型
为实现上述目标,我们确立了“物理融合、逻辑解耦”的设计哲学。
在物理架构(Underlay)方面,我们采用业界主流的Spine-Leaf三级Clos架构。该架构具备无阻塞、低延迟和水平扩展的天然优势,是构建大规模高性能网络的最佳选择。为实现零丢包的“无损网络”,我们放弃了传统PFC技术,选择了更先进的基于ECN(显式拥塞通知)和DCQCN(数据中心量化拥塞通知)的端到端拥塞控制方案。
在虚拟架构(Overlay)方面,我们利用VXLAN技术实现多租户隔离,并创新性地引入SRv6技术,构建真正的“算力网络”,实现了业务意图与网络路径的直接映射。
在设备选型上,我们进行了详尽的评估与博弈。Spine交换机我们选用了华为CloudEngine 16808,Leaf交换机则为CloudEngine 8850系列。这一组合的核心优势在于:首先,它们均提供高密度的400GE端口,并具备向800GE平滑演进的能力,满足了项目对带宽的长期规划。其次,CloudEngine 16808拥有业界领先的超大缓存和动态负载均衡算法,能有效吸收AI训练产生的突发流量。更重要的是,在AIOps平台选型博弈中,我们对比了另一家厂商的同类产品,其虽然性能指标接近,但Telemetry数据模型为私有格式。而华为CloudEngine系列全面支持基于gNMI的开放遥测标准。考虑到AIOps平台对开放数据采集的强依赖是保障长期运维效率的关键,我们最终确定了华为方案。这一决策体现了我们“运维优先于极限性能”的规划原则。计算与存储节点的网卡,我们统一采用了华为IN500系列智能网卡,它不仅支持RoCEv2硬件卸载,还内置了可编程的引擎,为后续网络功能的灵活扩展预留了空间。
存储网络选择与容灾设计
AI训练的本质是数据搬运,高性能存储网络是AIDC的基石。在存储网络方案选型阶段,我们最终选择了基于RoCEv2的NVMe-oF方案,因为它在性能、成本和生态开放性上达到了最佳平衡。我们选用了华为OceanStor Pacific系列分布式存储作为存储底座。
在数据可靠性设计上,我们进行了多层次的深入规划。首先,针对多副本机制,我们摒弃了传统的硬件RAID技术。因为在AIDC的大规模分布式场景下,RAID的“写放大”问题严重,且单盘故障后的重构过程漫长,对整个系统性能冲击巨大。取而代之的是,我们采用了更为先进的基于软件定义的纠删码(Erasure Coding, EC)技术。我们配置了“16+4”的EC策略,即数据被分成16个数据块和4个校验块,分散存储在20个不同的节点上。这种方式不仅磁盘利用率高达80%(远超三副本的33%),而且在节点或硬盘故障时,可以由多个节点并行进行数据重构,恢复速度比传统RAID提升一个数量级,极大地保障了业务的连续性。
在数据完整性与机密性方面,我们构建了双重保障。我们采用“SHA‑256 + SM3”双算法对写入数据进行完整性校验,签名使用“RSA‑2048 + SM2”国密算法;对传输与静态数据强制加密,并配合细粒度访问审计,确保数据全生命周期的可信与可追溯。
等保合规与内生安全设计
AIDC承载着机构最核心的数据与算力资产,安全是与性能同等重要的生命线。我们以零信任为核心,构建了“物理/链路—网络—管控/审计”三道防线。
第一道防线是物理与链路层安全。我们在所有CloudEngine交换机之间的互联端口上启用MACsec硬件加密。
第二道防线是网络层隔离与访问控制。我们利用VXLAN和分布式防火墙技术,实现了“微隔离”,有效遏制了威胁在数据中心内部的横向移动。
第三道防线是管控与审计层安全。我们部署了国产SIEM/SOAR平台作为安全大脑。在此过程中,我牵头负责了安全体系的信创兼容性验证,通过大量测试,我们解决了国产密码算法(SM2/3/4)与硬件加密引擎的适配问题、PKI及SIEM日志解析的适配问题,形成了一套完整且自主可控的安全解决方案,确保安全体系既自主可控又能满足等保2.0三级要求。
自动化运维保障
我们规划并落地了一套AIOps平台作为整个网络的“智慧大脑”。该平台采用“数据湖 + AI引擎 + 自动化编排”的三层架构,通过Telemetry流式遥测采集数据,为智能分析提供了高质量的基础。
在平台落地初期,我们曾遇到告警风暴收敛效果不佳的棘手问题。作为该模块负责人,我牵头排查发现根源在于知识图谱缺失了应用与服务器的关联关系。为此,我提出并主导了CMDB与AIOps平台的‘双向同步’改造,将应用依赖关系实时注入知识图谱。改造后,根因定位准确率从70%提升至95%以上。这个过程让我深刻认识到,AIOps的“智能”源自于数据的“全息”。
项目交付总结与展望
项目于2025年6月成功交付。 经严格测试,各项关键指标均达到或优于设计目标:网络平均端到端时延稳定在15μs,万兆并发下的丢包率为0,GPU算力利用率(XPU a-like Ratio)从未采用RDMA网络的60%提升至92%。AIOps平台上线后,98%的网络异常能够在影响业务前被感知和处置,MTTR从小时级降至15分钟内,项目顺利通过等保2.0三级测评。
回顾整个项目,最大的挑战在于多技术栈的深度融合。一个相对遗憾的点是,由于项目周期紧张,我们优先保障了计算和存储网络的建设,而带外的管理网络建设则沿用了较为传统的方案,其自动化和安全水位未能与主网络完全看齐,这是下一阶段优化工作的重点。
展望未来,我们将进一步探索基于意图的网络(IBN),并前瞻性地研究抗量子密码(PQC)在数据中心网络中的应用,持续夯实国家科研基础设施的数字底座。