实实在在的100G——华为赛门铁克USG9560评测报告

来源:计算机世界
关键字:华为,赛门铁克,USG9560
发布时间:2012-01-13 17:35

　　毫无疑问，我们已经步入了云时代。放眼神州大地，一座座数据中心如雨后春笋般拔地而起，服务器数量与网络基础架构的规模屡创新高；互联网建设也在高速发展，骨干与接入带宽的不断提升，为用户业务带来了日新月异的应用体验；而3G与无线技术的普及，又让移动终端成为后PC时代真正的宠儿，正在掀开移动互联的新篇章。

　　从底层网络的角度看，通信技术的发展构建了多个维度的高速通路，让一切变为现实。同样，用户也必须借助不断创新的安全技术，建立与网络规模相匹配的防护体系，为业务保驾护航。经过国内外安全厂商的不懈努力，目前顶级防火墙的处理能力已经达到百G级别。这并不是个宣传意义大于实际意义的噱头，因为用户的需求已经迫在眉睫。在今年国内运营商的安全产品招标中，对高端防火墙的性能要求达到了40G.80G，距离部署百G产品的日子已不再遥远。针对这一趋势，华为赛门铁克也于近期推出了全新的USG9500系列产品，再次升级了高端产品线。我们也在第一时间对USG9560这款产品进行了测试，亲身体会了新一代百G产品带来的与众不同的应用体验，在此与读者朋友们分享。

　　规格领先功能全面

　　华为赛门铁克USG9500系列包含USG9520、USG9560、USG9580三款产品，均基于华为高端路由硬件平台打造。设备中所有部件均为冗余设计，其中单板、电源模块和风扇支持热插拔，符合电信级别的高可靠性要求。三款产品的区别主要体现在扩展槽位的数量与整机性能方面，最高端的USG9580提供了多达16个接口/业务扩展槽位，标称具有2.56T交换容量及240G接口容量，是新系列中的旗舰产品；最低端的USG9520则针对主流的万兆及多千兆接入环境设计，提供3个接口/业务扩展槽位，标称最大40G的整机处理能力，具有灵活的扩展性和相对较高的性价比。我们测试的这台中端定位的USG9560则需占用14U的机架空间，提供了11个扩展槽位，其中3个用于安装主控交换（SRU）及交换引擎（SFU）。SRU主要负责设备管理、系统监控与调度、路由计算等工作，同时内置一个交换引擎。当插满两个SRU与1个SFU时，两套主控系统会工作在主备状态，3个交换引擎工作在2主1备的状态，提供1.44T的交换容量。这种设计可以保证设备在任意一块SRU或SFU出现故障时还能正常工作，且性能不会出现瓶颈。

　　USG9560上剩余的8个槽位用于安装业务卡（SPU）与接口卡（LPU），考虑到未来接口容量与性能的升级，每槽位设计带宽达到双向200G。在SPU与LPU的设计上，华为赛门铁克采用了模块化的思路，显得非常独特。SPU板载了两颗1GHz主频的NetLogicXLR732处理器，具有10G的处理能力。该卡同时提供了一个子卡插槽，可安装同样配置的业务处理子卡（SPC），将单板处理能力提升至20G。而LPU也提供两个子卡插槽，可安装不同类型的接口模块子卡（包括以太网与POS），目前可实现单子卡两个万兆或20个千兆的接口密度。与我们去年测试过的USG9110不同的是，USG9500系列产品中的SPU和LPU之间没有任何强制性的对应要求，用户可根据需要进行灵活搭配。

　　在基本功能与安全业务方面，USG9500系列产品已经实现得相当全面。该产品可以支持NAT端口复用，能够有效减少海量用户使用互联网时对公网IP的依赖，对运营商、行业用户及园区网用户有很大的实际意义。除了防火墙，USG9500还具有VPN、应用流量识别控制、IPS和抗DDoS的能力（后两者使用单独的业务插板实现），以满足数据中心为代表的新应用场景的复杂需求。

　　借助华为在数通领域的长期积累，USG9500系列产品在路由支持的种类、兼容性等方面有着先天优势，既能可靠地独立或参与组网，亦可在遭到DDoS攻击时与上下游网络设备联动，实现流量的牵引、清洗与回注。

　　架构灵活性能强大

　　与USG9000家族中的其他产品一样，USG9500系列产品也采用了“两分布、一统一”的设计思路，即分布式处理、分布式转发与统一管理。由于集成了高性能的网络处理器，LPU可以实现基于多种策略的数据分发操作，将流量尽可能均衡地交给每个SPU上的每一颗处理器进行处理。这也意味着，该产品可以通过增加SPU数量的方式，线性提升整机的处理能力。

　　我们在随后的测试中使用了多至5块内置SPC子卡的SPU及3块具有4个万兆XFP接口的LPU，组成20G.100G规格的多种配置，对这一特点进行了验证。测试仪器为搭配了多个10G-LSM-XM4S网络层测试模块和Acceleron-NP应用层测试模块的IXIAOptixiaXM12。当USG9560中只有1块SPU卡工作时，该系统（路由模式，1条全通策略，后同）在IMIX模型（UDP混合包，64Byte：594Byte：1518Byte=7：4：1）下的吞吐量为20G，平均延迟为85微秒。如果再增加一块SPU，IMIX吞吐量马上提升至40G，平均延迟保持不变。当5块SPU卡均处于工作状态时，系统的整机IMIX吞吐量达到100G，平均延迟则小幅上升至106微秒。在这个过程中，每颗CPU的使用率都保持一致，系统的负载均衡效果十分优秀。我们也试着在处理能力留有足够余量的情况下在线减少SPU卡的数量，USG9560会立刻自动对负载进行重新分配，达到新的均衡处理状态。

　　除了吞吐量与延迟外，分布式处理、转发的优势在连接相关的性能指标上也有所体现。当使用1块SPU卡时，我们测得的整机HTTP新建能力（64Byte页面，后同）为每秒669463个连接，最大并发连接数为8340904，达到并超过50万/800万的标称值；两块SPU同时工作时，HTTP新建连接数提升至1360407，最大并发连接数也达到了16681108。由于测试仪器的限制，我们没有再对配备更多SPU卡时的性能进行测试，但仅从这两组数据中，已经可以看出整机的连接处理能力可以随着SPU板卡数量的增多而线性提升。

　　对于数据中心这样的应用场景来说，其可能受到攻击的规模之大、种类之复杂，是集成于UTM、NGFW等设备中的抗DDoS功能所难以抵御的。针对这种情况，华为赛门铁克将该功能独立出来，以专用业务卡的形式提供了高性能抗DDoS解决方案（单卡标称10G流量清洗能力，同样可以通过扩展子卡提升一倍）。我们也利用手头的测试仪器，对插入1块抗DDoS业务卡（不含扩展子卡）的USG9560进行了测试。面对测试仪分别生成的10G线速SYN-Flood、UDPFlood和DNS-Flood攻击流量（64Byte，后同），该设备可以将攻击流量完全阻断，同时保证后端服务器的正常访问，此时DDoS业务卡上的CPU使用率分别为87%、70%、83%；我们又按1：1：1的比例发起了包含三种攻击的混合流量，USG9560依然可以将攻击完全阻断，此时的CPU平均使用率为81%，仍留有部分余量。

　　TCAM：让天堑变通途

　　作为成本、查找速度均极为惊人的可寻址存储器，TCAM大多被用于核心路由器、数据中心交换机等高端数据通信产品，在安全设备中极少出现。不过，我们去年在USG9110产品测试中，已经注意到其业务板上配备有TCAM。如今，这一设计被USG9500系列产品所沿用，大有发扬光大之势。这是个令人费解的举动，因为厂商在设计产品时会本着“次优”和“榨干”硬件处理能力的原则，选择能满足需求的最简单、成本最低的解决方式。对于TCAM这种成本极高昂的器件来说，除非它能让产品性能产生革命性的变化，否则绝无使用的道理。那么，华为赛门铁克坚持在高端安全产品中使用TCAM意义何在？我们通过混合非法流量和访问控制列表（以下简称ACL）查找两个测试用例，进行了一系列的验证。

　　在合法数据流中混合非法流量，是安全产品测试中不可或缺的手段之一。目前，几乎所有状态检测防火墙都借助快速转发技术提升性能，当合法数据流建立后，流信息会被下发到防火墙状态表中，剩余报文可根据状态信息直接转发；非法流量则通常不会建立状态，这就意味着流中每一个数据包均要由处理器进行完整流程上的处理，其中就包括了资源开销非常大的ACL查找操作。当非法流量的比例达到一定程度的时候，防火墙就会因资源耗尽导致性能大幅下降。以我们去年测试过的一款64ByteUDP帧吞吐量达到8Gbps的防火墙为例，当测试流量由合法的8G变为6G合法流量+2G非法流量后，该设备的吞吐量竟然下降到100Mbps以下。

　　由于TCAM的存在，USG9560在处理非法流量时的性能开销大幅减小，处理能力也就得到了保证。我们在1块SPU处于工作状态的前提下，向设备的ACL中加入一条阻断特定流量的策略，再使用测试仪先后发起16G的正常流量与4G应被阻断的非法流量（均为UDP/386Byte帧长）。USG9560在只有正常流量通过的情况下，可以做到不丢包转发，此时的CPU使用率仅为21%；当加入4G非法流量后，正常流量的转发没有受到任何影响，非法流量则被完全阻断。此时SPU卡的CPU占用率上升至47%，仍有余力处理其他安全业务。从这个结果中可以看出，虽然TCAM没能让设备的理论性能得到进一步提升，却在处理非法流量时弥补了性能短板，在实际环境中体现了其存在的价值。

　　与混合非法流量的测试相比，ACL查找能力测试更偏向底层，但在园区网、骨干网和数据中心规模不断扩大的今天，许多用户需要借助防火墙实现更加复杂的访问控制，这个原本偏重理论层面的测试用例也就有了更多的实际意义。我们知道，大部分采用状态检测机制的防火墙会在启动时对用户设定的ACL进行预处理，将其转换为引擎可识别、查找的树或矩阵。转换算法的优劣决定了存储空间的占用、转换速度和查找性能，是厂商核心技术能力的体现。好的转换算法不但能以较低的资源代价实现较高的查找性能，还可以对ACL进行有效的优化合并。比如许多测试中使用的针对1个C段内连续IP而设定的策略，最优状态下可以被合并为1条等效策略，其测试数据显然不能代表设备在实际环境下的性能。

　　有鉴于此，我们在制定实验室安全产品测试规范的过程中，包含了基于复杂策略的测试用例。该用例中的ACL列表模拟部分用户的配置思路，包含了5000条不相关联的策略。它使用有针对性的算法生成，阻止主流转换算法对其进行优化，且令生成的树或矩阵变得极其复杂，显著提升了设备查找时的性能开销。一些产品在测试中无法正常加载此ACL，或会在加载后性能大幅下降。这样的产品如果被部署在实际环境中，会为用户带来无穷无尽的烦恼。某行业信息中心主管与我们交流时就曾谈到这样一个情况：当他们逐步将分散的服务器群组迁移至数据中心后，防火墙的ACL数量已接近3万条。此时设备从加电到进入正常工作状态需要长达40多分钟的时间，且设备每次在添加新的访问控制策略时，都会有1分多钟处于无响应状态。而他们先前使用的产品则在加载1万条左右的策略后直接罢工，严重影响了业务的正常开展。

　　不过，我们在对USG9560的测试中没有丝毫担心，因为TCAM的工作机制决定了其策略查找性能不受策略复杂度的影响。测试数据也很好地证明了这一点：在加载复杂策略的情况下，USG9560的开机时间仅由之前1条全通策略时的9分4秒增加到12分12秒。在此基础上使用测试仪发起命中第4999条策略的16G正常流量（UDP/386Byte），系统可实现不丢包转发，CPU占用率为33%；当另外加入命中第5000条策略的4G非法流量后，正常流量的转发没有受到影响，非法流量也被完全阻断，此时CPU占用率上升至55%。这样完美的测试结果，足以保证USG9560在海量策略的应用场景中保持应有的性能表现。

　　应用识别步入

　　百G免费时代

　　从用户群体的需求角度出发，高端防火墙通常强调高性能、高可靠性，提供的安全业务并不像企业级产品那样全面。如果要增加特定功能，通常也会以专用业务插板的形式实现，尽可能减小对设备性能的影响。不过华为赛门铁克在USG9500系列产品中，将应用流量识别控制与防火墙、NAT、VPN等一同列为产品的基础特性，免费交付给用户使用，令人十分惊讶。众所周知，应用流量识别控制确实是一个快速增长的市场需求，以此为基础甚至诞生了下一代防火墙（NGFW）这一新产品形态，但因其需要消耗大量系统资源，对防火墙性能造成很大影响，罕有厂商会在最高端产品中加入该特性。华为赛门铁克此举，是为运营商及大型行业用户提供增值服务，还是为了迎合市场的推广策略？

　　只有测试能给出答案。我们使用BreakingPoint提供的测试仪表，对配备1块SPU的USG9560进行了检测率与性能测试。该测试仪可以模拟多种互联网应用，实时生成近乎真实的测试流量，而不是简单地利用PCAP回放进行仿真。在开启防火墙与应用流量识别控制功能（路由模式，加载1条全通策略，只识别不做控制）的情况下，USG9560对测试仪发出的包含HTTP、BT、eDonkey、流媒体等业务的10G混合流量（预设并达到每秒10万新建连接/最大保持200万并发连接）可以做到完全识别与线速转发。此时SPU上的CPU占用率比单纯防火墙模式时略有小幅上升，数据包转发的平均延迟也仅增至160微秒。不过也许是为了减少大流量时的系统负载，设备并没有在内置的图形化界面中提供应用层流量的相关统计，而是通过eLog集中分析报表系统进行统一的挖掘与呈现。

　　作为USG9500系列产品的基础功能，应用识别特性以进程形式工作在SPU中，理论上性能可随SPU数量增加而线性提升。我们也在之前测试100G吞吐量的硬件配置下，对开启应用识别功能时的整机处理能力进行了考察。BreakingPoint测试仪此时已无法生成如此巨大的测试流量，所以我们改用IXIAOptixiaXM12以发送双向UDP报文（IMIX模型，包含800个并发连接）的方式进行测试。在100G的UDP流量压力下，USG9560仍然顺利完成了测试，将数据报文正常识别为未知UDP流量，性能也如预期般达到线速转发。我们在测试过程中也注意了设备的资源占用情况，可以看到5块SPU上的20颗处理器基本保持着同样的负载，不存在单点瓶颈的隐患，并且开启应用流量识别后，CPU负载并没有上升很多，相信在错综复杂的现网环境中仍可保证线速处理。集成高性能的应用识别引擎并免费交付给用户，无疑是USG9500系列产品的最大亮点之一。从华为赛门铁克公布的信息来看，该引擎目前已能鉴别超过1000种应用协议，且有专人对协议特征进行扩充与更新。对于运营商与行业用户来说，集防火墙、NAT、应用流量识别控制功能于一身的高端设备正是他们目前梦寐以求的产品形态。我们感觉华为赛门铁克的思路很清晰，即短期以免费流控和应用防火墙为卖点，增强产品的竞争力，争取更多的市场份额。长期来看，应用识别的价值绝不仅仅在于流控或应用防火墙，它是未来几乎所有安全业务的核心，以此为基础通过升级的方式增加新的安全业务，对供求双方来说都是双赢的结果。

　　计算机世界实验室韩勖

　　测试后记

　　彪悍的产品不需要解释

　　我们主要就是一条连教育网的万兆出口，高峰期上下行流量加起来也不过10G出头，厂商却建议我至少在防火墙上插三块标称20G处理能力的业务引擎，这到底是为什么？”面对不久前交流时某高校信息中心主管抱怨式的咨询，我们感到很难回答。客观原因是存在的，任何安全产品在真实环境中的性能都会低于实验室中测得的理论值，当应用场景非常复杂时，下降幅度甚至会超过50%。为保障业务的正常运行，厂商一般会建议用户部署时做性能预留，但即便如此，要求用户至少购买3块业务卡的做法也是难以理解的。分布式防火墙本身就有着按需配置的特点，用户凭什么要为用不着的性能买单呢？

　　抛开技术上的因素，我们也许触及到一个比较敏感的话题，那就是性能标称值的准确性。它不像产品测试，有很多业界公认的评价标准，依据某一标准测得的性能，对任何产品都是公平有效的。而厂商在进行产品包装时的性能度量方法，是不存在任何统一标准的，也许吞吐量你标IMIX，我标1518Byte帧，或者新建连接你标HTTP我标TCP。个别厂商甚至本着“人有多大胆、地有多大产”的思路，虚报出一个产品根本无法达到的性能。这种不负责任的做法给用户的选型工作增加了许多不必要的麻烦，也让用户对厂商宣称的性能指标产生了强烈的不信任感。所以我们看到，虽然越来越多的厂商开始在产品规格表中注明标称性能的测试环境，用户却完全不在乎了。他们怕了，他们伤不起了。

　　换个角度看，厂商即便给出了实实在在的性能参数，又有多大意义呢？用户买产品是要解决问题，他们没有兴趣研究为什么开启某功能后一块业务卡的性能就不再是20G，然后还得折算用多少块业务卡才能在理论上满足需求，最后再战战兢兢地通过测试去证明。彪悍的产品不需要解释，华为赛门铁克显然认识到了这一点，并成功地将其付诸实践。就像USG9560，不管我们怎么折磨，其单板性能永远等于标称值，包括本应属于下一代防火墙定义范畴的应用识别控制功能，你开或者不开，20G的性能就在那里。这样的产品，才是对用户最大的尊重。

　　做到这一点真的很难。从产品角度看，华为赛门铁克为实际应用中的性能损耗做了充分的资源预留，这也是一块业务卡配备4颗NetLogicXLR732处理器的主要原因。在没明白这一点之前，我们甚至一度怀疑华为赛门铁克的研发实力，因为这样的处理器即便拿出一颗做业务卡，也完全有理由标称20G处理能力（实际上，大多数高端分布式防火墙也是这么做的）。该公司能顶住成本与研发上的压力，放低姿态去做“不需要解释”的产品，其魄力值得称赞。“千淘万漉虽辛苦，吹尽狂沙始到金”，任何用户都不会冷落这样一款实实在在的产品，这一点，不管你信不信，我反正信了。（文/韩勖）

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容