虚拟化平台解决方案

发表时间:2024-03-05 15:52

第一章           项目概述

随着我国国内经济的崛起、海上丝绸之路的兴起,以及国内民众对物质生活日益递增的需求。我国目前正在大力发展港口行业,拓展贸易规模。港口的运转模式,依赖于港机对货物集装箱的 搬运工作。在目前的港口港机作业中,普通的港机作业依靠司机在司机室通过操作手柄手动控制进行本地作业。在进行装卸操作时,司机需要兼顾周围的环境状况,查看吊具或抓斗及电缆卷盘运行状态,效率低下,并且在操作上存在安全隐患。这种普通作业模式,司机人员的作业环境非常恶劣,往往伴随着高噪音、高振动和空间狭窄等情况,对于司机身心都会造成一定的伤害。针对以上本地作业的缺点,码头行业开始朝着港机自动化作业的方向发展。

***为适应港口业务发展需求,针对自动化港机的需求,我司预设计提供一套满足现有生产业务的底层硬件平台。 主要包括港口网络系统,虚拟化平台系统,区域安全边界需求,数据安全存储平台。

第二章           项目需求

2.1   网络需求

2.1.1        网络链路冗余性需求

本次设计的网络是较为重要的生产网络,需要考虑单个链路故障的情况下,生产系统仍然需要可以正常使用,不影响生产作业。

2.1.2        网路硬件的冗余性要求

生产系统的网络,必须要保证在单台设备设备故障的时候,仍然能保障网络的正常运行,不会造成生成作业的停工。

2.1.3        不同业务的相互隔离

口岸涉及的不同业务需要有不同的访问权限,业务域业务之间需要进行相互隔离,避免网络风险的扩大。

2.1.4        网络系统的安全防护功能

网络设备要有一定的安全防护能力,在受到一些简单的攻击情况下,可以正常进行网络数据的传输。

2.2   安全需求

对于生产网络的安全需求,需要保障网络的内部系统与外部系统之间做一道安全隔离,避免业务直接暴露在互联网或者是其他的网络界面,降低网络被攻击的风险,对于可能存在外部风险,可以进行一定的安全防护,与危险告警,便于运维人员进行分析与干预。

2.3   虚拟化需求

2.3.1        业务系统的硬件需求

配置满足本口岸业务系统相关的虚拟化平台硬件,并预留一些冗余配置,便于后续业务的升级使用。

鉴于目前已知的业务,具体需求如下,

序号

设备名称

CPU

内存

硬盘

网络

操作系统

必装软件

1

ECS服务器(主)

*

*

*

*

Win2019

Office 2019及以上+杀毒软件

2

ECS数据库服务器(主)

*

*

*

*

Win2019

SqlServer 2019 企业版

3

ECS服务器(备)

*

*

*

*

Win2019

Office 2019及以上+杀毒软件

4

ECS数据库服务器(备)

*

*

*

*

Win2019

SqlServer 2019 企业版

5

ECS UI服务(主)

*

*

*

*

Linux

Redis+MQ服务

6

ECS UI服务(备)

*

*

*

*

Linux

Redis+MQ服务

7

ECS 文件服务器(主)

*

*

*

*

Win2019


8

ECS 文件服务器(备)

*

*

*

*

Win2019


2.3.2        虚拟化系统的容灾

目的为了解决一台物理服务器故障导致业务服务器无法正常使用的情况,建设虚拟化平台,从而使一台虚拟机故障的情况下,可以快速的拉起另一台虚拟机,降低业务的终端概率,提升业务的恢复时间。

2.4   存储需求

存储容量需要高于本次业务相关所需的容量,并且保留一部分备用。实现数据的存储安全,存储的读写的高可用性。

实现统一的虚拟化存储接口,并同时提供跨厂商平台的镜像、快照、瘦分配,可以完善地支持整个云计算平台的运行 。

第三章           总体技术方案

3.1   总体解决方案

3.1.1        项目方案的设计原则:

3.1.1.1   先进性原则

服务器虚拟化平台必须严格遵循国际标准、国家标准和国内通信行业的规范要求。需符合IT行业的发展趋势,所选用的产品型号已规模上量,必须采用主流成熟的硬件平台和专业的软件平台保证设备本身的先进性,符合业界技术的发展趋势,既体现先进性又比较成熟,并且是各个领域公认的领先产品。所有的系统处于先进的技术水平,确保较长时间内技术上不落伍。系统的处理能力要达到业内领先,对于本次业务的使用要留有一定的余量,以满足后续升级的需求。

3.1.1.2   高可用原则

虚拟化平台的稳定可靠性是业务运行的基础,影响着企业日常办公、业务的发展。系统的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个方面。云平台的分布式架构,从整体系统上提高可靠性,降低系统对单设备可靠性的要求。系统的可用性是通过冗余、高可用集群、应用与底层设备松耦合等特性来体现,从硬件设备冗余、链路冗余、应用容错等方面充分保证整体系统的可用性。

3.1.1.3   可拓展原则

企业的业务不断发展,数据中心也在发展阶段,其数据中心也会不断的扩充变化,要求在保证数据中心安全的基础上具有灵活的、平滑可扩展性。

支撑数据中心的资源需要根据业务应用工作负荷需求进行弹性伸缩,IT基础架构应与业务系统松耦合,这样,在业务系统进行容量扩展时,只需增加相应数量的IT硬件设备,即可实现系统的灵活扩展。

3.1.1.4   开放兼容性原则

数据中心的安全产品设计规范、技术指标符合国际和工业标准,支持多厂家产品,从而有效的保护投资。

3.1.1.5   最小安全授权原则

数据中心的安全产品设计规范、技术指标符合国际和工业标准,支持多厂家产品,从而有效的保护投资。

3.1.2        项目方案的总体设计图:虚拟化网络3.1.2.png

设备组网结构说明:

出口区域:设计使用一台防火墙设备,做到内外部的业务的安全隔离,对外对接各种专线,对内采用多条链路万兆光纤互联至核心交换机。

核心区域:使用华为两台核心交换机进行互联,形成设备的堆叠,对上采用多条链路与防火墙互联,对下采用万兆光纤与服务器接入见换机互联。保障链路冗余与链路带宽。

接入区域:交换机采用光纤与存储还有服务器分别互联,使用千兆电口与设备的BMC(管理接口)互联,同时做到了管理与业务的分离。

业务区域: 存储与服务器分别采用万兆光纤互联至接入交换机,采用电口接入至互联交换机的管理平面。

3.2   网络解决方案

3.2.1        方案设计说明

本次设计采用华为框式交换机S7706,设备采用双主控,双电源,管理与业务平面分离,可以保障在主控故障或者电源故障的情况,还可以正常的进行业务的转发。

同时为了进一步保障生产系统的冗余性质,本次设计采用2台7706设备进行CSS集群技术的布置,可以实现单台设备整体故障的极端情况下,网络系统的正常数据转发,极大的提升了网络系统的安全可靠性。

由于采用2台设备,那么设备与设别之间的互联,设计采用E-trunk技术进行多链路的捆绑,保证了网络带宽的成倍增长的同时,还可以保障链路的冗余。

3.2.2        技术说明

3.2.2.1   S7706硬件结构说明:

正面结构图虚拟化网络3.2.2.png

槽位配置

S7706机框提供6个业务板槽位、2个主控板槽位、2个集中监控板槽位、4个系统电源槽位、4个PoE电源槽位。虚拟化网络3.2.2.1.png

电源设计

S7706设备的PWR1~PWR4槽位为系统电源模块槽位,支持直流(DC)和交流(AC)两种电源模块。其中:PWR1~PWR2为A区,PWR3~PWR4为B区,A区和B区为热备份关系,PWR1和PWR2互为负载分担,PWR3和PWR4互为负载分担虚拟化网络3.2.2-散热设计.png

散热设计

S7706的风扇模块位于机框后部,防尘网位于机框左侧。

S7706配置了两个风扇模块,采用吸风的方式将机框工作过程中各个部件模块产生的热量带出机框,保证机框工作在正常的温度范围内

防尘网可以阻挡气体流动过程中携带的灰尘进入机框,保证机框能够正常工作。

S7706采用分区设计策略,支持在单板不满配时,对应区域的风扇系统以较低的速度运转,以降低系统的功耗和噪声。

S7706有两个风扇模块,上下两个风扇分区,每个风扇模块负责对应分区内四块单板的散热。散热设计.png

S7706机框采用吸风散热的方式,气流由设备左侧及前方进入,设备后侧排出机框.png

3.2.2.2   CSS2技术说明:

集群简介:

集群交换机系统CSS(Cluster Switch System),又称为集群,是指将两台支持集群特性的交换机设备组合在一起,从逻辑上虚拟成一台交换设备。

交换机集群技术的发展有两个阶段:

传统的集群交换机系统(传统的CSS):专指主控板集群卡集群或业务口集群两种方式。

第二代集群交换机系统(CSS2,Cluster Switch System Generation2):专指交换网板上通过集群卡方式建立的交换网硬件集群,并且在原有集群技术的基础上,增加了集群主控1+N备份等技术

与传统的CSS相比,CSS2的主要优势在于:

CSS2采用交换网板硬件集群

相对于传统业务口集群而言,集群系统的控制报文和数据报文不需要经由业务板转发,而是直接通过交换网一次转发,这样不仅减少了软件故障可能带来的干扰,降低了单板故障带来的风险,在时延上也大大缩减;相对于传统主控板插集群卡集群而言,组建集群时的连线更为简单,在启动阶段交换网板与主控板并行启动,启动性能更强。

CSS2支持主控1+N备份

集群系统中只要保证任意一框的一个主控板运行正常,两框业务即可稳定运行。相对于传统业务口集群而言,每个框至少要有一块主控板运行正常的限制,CSS2进一步提高了集群系统的可靠性;相对于传统主控板集群卡集群对硬件环境的严格限制而言,CSS2就更加灵活了。详细介绍请参见集群主控1+N备份

3.2.2.3   E-trunk技术说明:

以太网链路聚合简介

以太网链路聚合Eth-Trunk简称链路聚合,通过将多个物理接口捆绑为一个逻辑接口,可以在不进行硬件升级的条件下,达到增加链路带宽的目的。

链路聚合技术主要有以下三个优势:

增加带宽

链路聚合接口的最大带宽可以达到各成员接口带宽之和。

提高可靠性

当某条活动链路出现故障时,流量可以切换到其他可用的成员链路上,从而提高链路聚合接口的可靠性。

负载分担

在一个链路聚合组内,可以实现在各成员活动链路上的负载分担。

3.3   安全解决方案

3.3.1        方案设计说明

本次设计采用华为防火墙USG6555F设备支持部署与系统边界,起到安全隔离的作用。防火墙主要是起到安全防护的作用,通过策略的设置可以实现内部流量访问外界流量,外界流量无法访问内部流量的需求。极大的保护了内部虚拟化平台的数据安全。另外对于外部访问的数据可以做到访问控制的安全过滤,对于市面上已经存在的病毒可以做到很有效的安全防护,将病毒隔绝在外部,起到安全防护的作用。

3.3.2        功能说明

3.3.2.1   入侵防御检测

入侵防御(Intrusion Prevention System,IPS)是一种基于攻击特征库检测入侵行为,并采取一定响应措施实时中止入侵的安全机制。

木马、蠕虫、僵尸网络、间谍软件、溢出攻击以及注入攻击等层出不穷,时刻威胁网络安全。另外操作系统、应用程序的安全漏洞,也给黑客提供了可乘之机。针对此问题,华为提供入侵防御功能,全方位防御各种攻击行为,保护网络免受侵害。

如图所示,当外网用户访问企业内网时,设备对访问流量进行检测。如果发现入侵行为则阻断连接;反之则放行。

同样当内网用户访问外网时,如果访问的网页或服务器包含恶意代码时,设备将阻断连接;反之则放行。3.3.2.png

入侵防御的主要优势如下:

实时阻断攻击:设备直路部署在网络中,能够实时对入侵活动和攻击性网络流量进行拦截,将对网络的影响降到最低。

深层防护:新型的攻击都隐藏在TCP/IP协议的应用层里,入侵防御不但能检测报文应用层的内容,还可以对网络数据流重组进行协议分析和检测,并根据攻击类型、策略等确定应该被拦截的流量。

全方位防护:入侵防御可以提供针对蠕虫、病毒、木马、僵尸网络、间谍软件、广告软件、CGI(Common Gateway Interface)攻击、跨站脚本攻击、注入攻击、目录遍历、信息泄露、远程文件包含攻击、溢出攻击、代码执行、拒绝服务、扫描工具等多种攻击的防护措施,全方位保护网络安全。

内外兼防:入侵防御不但可以防止来自于企业外部的攻击,还可以防止发自于企业内部的攻击。设备对经过的流量都可以检测,既可以对服务器进行防护,也可以对客户端进行防护。

精准防护:入侵防御特征库持续更新,使设备拥有最新的入侵防御能力。您可以从云端安全中心定期升级设备的特征库,以保持入侵防御的持续有效性。

3.3.2.2   反病毒简介

病毒是一种恶意代码,一般通过邮件或文件共享的相关协议进行传播,可感染或附着在应用程序或文件中。病毒可能会占用网络带宽、窃取数据、控制主机权限甚至对主机硬件造成破坏,严重威胁用户设备和网络的安全。常见的病毒包括木马、蠕虫、间谍软化、漏洞利用程序等。除了这些属于已知威胁的病毒和漏洞,近年来未知威胁病毒也被广泛应用在APT(Advanced Persistent Threat)攻击事件中。

反病毒(Antivirus)是一种安全机制,包括基于已知威胁的病毒特征检测的反病毒功能以及应对未知威胁的APT防御功能。

随着网络技术的不断发展,企业用户越来越频繁地在网络上传输、下载和共享文件,随之而来的病毒威胁也越来越大。

如图所示,内网用户经常需要访问外网并从外网下载文件,同时,内网部署的服务器也经常会接收到外网用户上传的文件。将设备部署在企业网络的入口处并配置基于特征库的反病毒功能和APT防御后,设备会放行正常文件进入内部网络,并通过阻断、告警等手段对检测出的病毒文件进行干预或提醒。反病毒示意图.png

设备上配置的反病毒功能和APT防御在功能上协作互补,由于针对的威胁不同,二者同时使用可以更有力的保障用户主机和网络的安全。

基于特征库的反病毒功能凭借庞大且不断更新的病毒特征库有效保护内网用户和服务器免受已知病毒文件的侵害。

APT防御则需联动本地沙箱。对于病毒特征库中未更新的未知病毒,设备先向沙箱发送待检测文件,沙箱收到后将该文件的行为和沙箱独有的行为特征库进行匹配,判断出该文件是否为恶意程序。

3.3.2.3   Web应用防护

Web应用防护(Web Application Firewall,WAF)是一种安全机制,Web应用防护可以通过检测HTTP流量实现针对Web应用常见攻击手段的防御。

Web业务在互联网中被广泛应用于门户网站、交易平台、邮箱等各类应用,与此同时Web业务也成为了恶意网络攻击的目标。攻击者通常会针对Web业务开放的HTTP端口进行攻击,这些攻击无法被普通的防火墙或者入侵防御检测。

如图所示,针对Web业务系统面临的安全威胁,通过配置Web应用防护功能,设备可以对HTTP流量进行解析,有效地识别HTTP的请求和响应行为,告警或阻断恶意攻击。web用户防护功能.png

3.3.2.4   攻击防范检测

攻击防范通常指设备对网络中各种攻击的防御,主要包含针对DDoS攻击的防御和单包攻击的防御。

通常情况下,在大中型企业、数据中心等网络中往往部署着服务器,而服务器(如邮件服务器、Web服务器等)已成为网络攻击的重点。目前有针对性的攻击往往采用大流量的DDoS类型的攻击,如常见的SYN Flood、UDP Flood、ICMP Flood、HTTP Flood、HTTPS Flood、DNS Flood和SIP Flood攻击,这些DDoS类型的攻击不仅造成网络带宽拥塞,同时还严重威胁着服务器正常提供业务,甚者造成服务器宕机。所以,有效防范网络中各种DDoS攻击至关重要。

设备的攻击防范功能能够帮助大中型企业、数据中心等客户有效防范网络中各种常见的DDoS攻击。

设备部署在企业内网出口处并开启攻击防范功能,能够区分出正常流量和攻击流量,对正常流量进行放行,对于攻击流量进行阻断。从而有效保障了企业内网服务器和PC的正常运行,使服务器能够响应正常用户的业务需求,内网用户的PC能够正常工作。

3.4   虚拟化平台解决方案

3.4.1        虚拟化平台的架构设计

在虚拟化套件场景,所有资源整合后在逻辑上以单一整体的形式呈现,这些资源根据需要进行动态扩展和配置,信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。

虚拟化是云计算的基础,在虚拟化套件场景,通过虚拟化技术将物理服务器进行虚拟化,具体为CPU虚拟化、内存虚拟化、设备I/O虚拟化等,实现在单一物理服务器上运行多个虚拟服务器(虚拟机),把应用程序对底层的系统和硬件的依赖抽象出来,从而解除应用与操作系统和硬件的耦合关系,使得物理设备的差异性与兼容性与上层应用透明,不同的虚拟机之间相互隔离、互不影响,可以运行不同的操作系统,并提供不同的应用服务。

系统逻辑架构图如下:虚拟化系统逻辑架构图.png

华为虚拟化套件主要由:虚拟化基础引擎FusionCompute、虚拟资源管理VRM以及各类灾备工具组成。一套虚拟化环境部署一对VRM主备节点,对外提供统一的管理Portal。

FusionCompute

FusionCompute提供基础的虚拟化功能,提供服务器、存储、网络的虚拟化功能。每套FusionCompute由一对主备VRM进行管理。一对VRM对应一个物理集群(或者叫站点)。一个物理集群中可以把多台服务器划分成一个资源集群(又叫HA资源池),一个计算资源池有相同的调度策略,为了使用热迁移相关的调度策略要求资源池主机CPU同制。计算资源池不包括网络资源与存储资源。一个物理集群中可以包含多个资源集群。VRM主备.png

FusionStorage Block(可选)

FusionStorage Block是一种存储与计算高度融合的分布式存储软件,在通用X86服务器上部署该软件后,可以把所有服务器的本地硬盘组织成一个虚拟存储资源池,提供块存储功能。

eBackup(可选)

eBackup是虚拟化备份软件,配合FusionCompute快照功能和CBT(Changed Block Tracking)备份功能实现FusionSphere的虚拟机数据备份方案。

UltraVR(可选)

UltraVR是容灾业务管理软件,利用底层SAN存储系统提供的异步远程复制特性,提供虚拟机关键数据的数据保护和容灾恢复。

3.4.2        虚拟化资源池的设计

服务器是虚拟化应用场景的核心,其承担着数据中心“计算”功能。对于虚拟化应用场景中的服务器,通常都是将相同或者相似类型的服务器组合在一起,安装云操作系统(FusionSphere),使其计算资源能以一种虚拟服务器的方式被不同的应用使用,即所谓的虚拟化资源池。这里所提到的虚拟服务器,是一种逻辑概念。对不同处理器架构的服务器以及不同的虚拟化平台软件,其实现的具体方式不同。

在搭建虚拟化资源池之前,首先应该确定资源池的数量和种类,并对服务器进行归类。归类的标准通常是根据服务器的CPU类型、型号、配置、物理位置来决定。对虚拟化应用场景而言,属于同一个资源池的服务器,通常就会将其视为一组可互相替代的资源。所以,一般都是将相同处理器、相近型号系列并且配置与物理位置接近的服务器——比如相近型号、物理距离不远的机架式服务器或者刀片服务器。云管理.png

本项目需要保证系统的安全,所以选用的云平台软件必须是成熟广泛应用的云平台软件。云平台提供计算虚拟化、网络虚拟化、存储虚拟化功能;灵活地将物理服务器、存储、网络设备虚拟成计算资源池、网络资源池(包括IP、虚拟网卡、分布式虚拟交换机等资源)、存储资源池。实现各子系统的计算资源和存储资源的动态伸缩和分配管理,便于按上层业务应用系统需求灵活分配资源。使整个系统具有以下优势:

通过虚拟机HA、虚机热迁移、存储热迁移功能,能够有效减少设备故障时间,确保核心业务的连续性,避免传统IT,单点故障导致的业务不可用。

易实现物理设备、虚拟设备、应用系统的集中监控、管理维护自动化与动态化。

便于业务的快速发放,缩短业务上线周期,高度灵活性与平滑可扩展性,提高管理维护效率。

利用云计算技术可自动化并简化资源调配,实现分布式动态资源优化,智能地根据资源负载进行弹性伸缩,从而大大提升系统的运作效率,使 IT 资源与业务优先事务能够更好地协调。

3.4.3        方案设计说明

本次采用3台华为硬件服务器,通过华为FusionSphere提供服务器整合资源,对计算、存储、网络进行虚拟化管理,形成统一的云计算信息系统平台。

业务系统中,如果某些应用不能进行虚拟化,可以把能虚拟化的业务进行虚拟化改造,不能进行虚拟化的业务,保持不变或采用物理机部署,由FusionSphere统一管理。

虚拟化平台的数据底层设计采用一套华为的独立存储进行业务数据的存储。

3.4.4        功能介绍

3.4.2.1   虚拟化HA技术

虚拟机高可用3.4.2.2云平台.png

云平台提供故障自动迁移(虚拟机HA(High Available))机制,可提升虚拟机的可用度,允许虚拟机出现故障后能够重新在资源池中自动启动虚拟机。

系统周期检测虚拟机状态,当物理服务器宕机、系统软件故障等引起虚拟机故障时,系统可以将虚拟机迁移到其他物理服务器重新启动,保证虚拟机能够快速恢复。目前系统能够检测到的引起虚拟机故障的原因包括物理硬件故障、系统软件故障。

3.4.2.2   虚拟化热迁移技术

云平台可提供基于共享存储的迁移以便满足故障和维护场景的业务连续性要求。

虚拟机热迁移特性是指在使用同一共享存储的主机之间将处于运行态的虚拟机由当前所在的主机迁移到另一台主机上,在迁移的过程中不影响用户对虚拟机的使用。

在对主机进行维护操作前将该主机上的虚拟机迁移到其他主机上,然后再作维护,可以降低因主机维护造成的用户业务中断。

通过将繁忙的主机上的虚拟机迁移到空闲的主机上,可以提升虚拟机用户的感受,并使全局业务均衡。

通过将空闲主机上的虚拟机聚拢到几台主机上,然后将没有负载的主机关闭,可以降低数据中心的电能消耗。

为了业务可靠性最大化,CPU可能是同一个厂家不同时期的产品,它们不同的CPU特性导致用户无法热迁移虚拟机。针对上述问题,虚拟化软件提供了异构热迁移技术,以解决在异构CPU上进行热迁移时存在的兼容性问题。

部分虚机可以采用物理服务器本地磁盘。虚拟化平台提供整机迁移。整机迁移是指将源物理机上指定的处于运行状态的非共享存储虚拟机迁移到另一台物理机上,以实现不同存储介质上的虚拟机在不同节点之间无缝在线迁移。

3.4.2.3   分布式虚拟交换机3.4.2.3 分布式虚拟交换机.png

虚拟机对外通信通过虚拟网卡实现,为了服务器上的虚拟机之间数据交换,华为FusionSphere提供分布式虚拟交换机功能。分布式交换机功能类似于普通的物理交换机,每台虚拟机都连接到分布式交换机中。分布式交换机的一端是与虚拟机相连的虚拟端口,另一端是与虚拟机所在主机上的物理以太网适配器相连的上行链路。通过它可以连接主机和虚拟机,实现系统网络互通。另外,分布式交换机在所有关联主机之间作为单个虚拟交换机使用。此功能可使虚拟机在跨主机进行迁移时确保其网络配置保持一致。

3.4.2.4   虚拟化安全隔离技术3.4.2.4 虚拟化安全隔离技术.png

本项目的运行了多个平台业务,为了满足各个平台之间的相互独立,互相不影响。云平台通过虚拟化隔离、VLAN网络划分、安全组隔离手段保障计算、存储、管理、接入等域的安全隔离。

云平台提供包括CPU调度、内存、内部网络隔离和磁盘I/O、虚机存储的安全隔离。

云平台提供三员分立的管理,实现系统管理员、安全管理员、安全审计员的权限制衡。系统管理员负责业务下发/操作,系统配置方面的操作;安全管理员负责分权分域的配置管理,密码策略的配置;安全审计员专项负责操作日志的审计工作。

3.4.2.5   存储热迁移技术3.4.2.5 存储热迁移技术.png

在虚拟机正常运行时,通过管理员手动操作,将虚拟机的卷迁移至其他存储单元中,可以在云管理下的同一个存储设备内、或不同存储设备间进行在线迁移。存储迁移带宽可控,避免对正常业务产生影响,支持跨集群迁移。存储热迁移技术便于对现有存储系统的扩容,减容,便于存储系统的更新换代。

3.5   存储资源池设计思路

存储系统应采用先进、成熟的技术和优良的系统设计,使系统在整体上具有很快的响应速度和更高的数据带宽,可长时间承受大量用户极高的访问频率和访问速度。在系统设计中,应切合云主机应用,将不同特点的数据均存储在大型集中的存储设备中,使整个存储系统具有高可靠性、异构平台共享、高性价比、可扩展、易管理、易使用、性能优良等一系列优势,并能平滑地升级扩展,很好地适应数据存储技术的发展,满足公司的中长期发展的数据存储需求。

(1)可靠性:一个好的存储系统设计,必须首先考虑可靠性的问题,不仅要保证存储设备和存储介质的高可靠,还需要保证整个存储网络的高可靠;云系统同时承载了大量网络监防的安全数据,更需要一个高可靠的存储系统;

(2)性能:性能是一个综合性的指标,只有一个良好存储系统,才能确保存储IO不会成为整个云系统的瓶颈,并保障用户的良好体验;

(3)扩展性:扩展性是指在系统不停顿的状态下,可以线性的增加或者减小系统的容量,云系统尤其需要一个高扩展性的存储系统;

(4)易管理性:系统应该易于管理、维护、配置和使用;

(5)性能价格比:在提供同等存储服务的条件下,应选择高性价比的方案;

(6)安全性:存储系统应该保障用户数据传递的安全,不同用户之间不能在非授权情况下进行数据访问;

本项目通过新增磁盘阵列。实现云计算平台存储资源的集中存储、统一管理。

3.5.1        SAN存储资源池的设计

华为FusionSphere提供存储虚拟化层,支持跨厂商平台管理各种结构各异、性能各异的存储设备,实现统一的虚拟化存储接口,并同时提供跨厂商平台的镜像、快照、瘦分配、远程容灾复制等高级功能,才可以完善地支持整个云计算平台的运行。

FusionSphere存储虚拟化平台主要由文件系统(VIMS)、磁盘驱动和磁盘工具组成。SAN设备和本地磁盘等块设备连接到服务器上后,经过设备驱动层和通用块层后,对主机呈现一个磁盘设备。FusionSphere 存储虚拟化技术定位于构建针对电信业务环境的高竞争力的虚拟化平台,通过对开源KVM进行安全加固、功能扩展、性能优化和可靠性保障,具备如下特点:

存储设备兼容性

对于不同的存储设备,包括IPSAN、FCSAN、本地磁盘。可以做到以文件系统进行屏蔽,统一提供文件级别的业务操作。

丰富的功能

除了虚拟磁盘基本生命周期管理操作,包括创建卷、删除卷、挂载卷、卸载卷等。还提供了包括精简置备磁盘(即瘦分配功能)、精简置备空间回收、增量快照、存储冷热迁移、链接克隆虚拟机、虚拟机磁盘扩容、裸设备映射(RDM)、等众多功能。

业务能力同质化

业务是在虚拟化层进行,基于各种存储设备可以提供相同的能力,对存储设备无特殊要求 。

3.5.2        存储的高可用

存储系统的高可用设计包括磁盘冗余、存储设备控制器冗余、存储链路冗余。

首先是磁盘冗余,在本方案对于虚拟机的系统盘采用SAS盘组RAID5方式,业务数据采用NL SAS组RAID10方式。两种不同级别的RAID均能保证任意一块磁盘的损坏都不会影响整个平台的运行及数据丢失,同时保证数据在读写的时候以并行方式进行存取,从而保证高性能。

存储路径冗余,最可靠的方法是采用双链路方式进行连接,采用两光纤交换机,服务器通过两块HBA卡分别连接到2台光纤交换机,同时通过多路径软件系统设置MultiPath多路径方式,工作在链路负载均衡模式,任一光纤交换机故障,任一服务器HBA卡故障等原因导致的链路失效,也不会影响业务数据的读写,从而保证了存储及数据的可靠性。

3.6   方案可靠性设计

3.6.1        服务器可靠性设计

服务器可靠性包括内存、硬盘、电源等多个层面的内容。

提供BIOS内存自检和ECC纠错技术。

支持硬盘热插拔和RAID功能,提供硬盘在线故障检测和预警。

支持电源1+1冗余和热插拔。

支持对CPU,内存,风扇,电源,硬盘等热关键器件的温度实时监控,设备故障时会产生告警,可以灵活对支持热插拔设备进行在线更换,不支持热插拔设备提前安排好业务后进行下电更换。配合智能的风扇调速和监控,确保系统运行的可靠性。

3.6.2        存储可靠性设计

存储多路径

每个计算节点与存储集群之间,至少配置两个完全冗余的路径,从而提供存储的多路径访问功能。多条路径间的故障切换由软件自动提供,从而避免单点故障带来的存储访问问题。

存储数据的冗余备份

采用SAN作为存储设备,在SAN高可靠性的基础之上,配置热备盘做冗余备份,保证数据不丢失和故障快速恢复。

存储冷迁移

在虚拟机关机情况下,通过管理员手动操作,将虚拟机的卷迁移至其他的存储单元中,可以在同一个VRM管理下的同一个存储设备内,不同存储设备间,块设备和存储虚拟化之间进行迁移。

存储热迁移

在虚拟机正常运行时,通过管理员手动操作,将虚拟机的卷迁移至其他存储单元中,可以在VRM管理下的同一个存储设备内、不同存储设备间,块设备和存储虚拟化之间进行迁移。

存储动态资源调度(DRS:Dynamic Resource Scheduler)

在存储热迁移的基础上,可以进一步提供存储DRS功能。虚拟化平台通过相关的数据采集(数据存储的空间使用率和IO延时),并制定采集的数据制定相应的存储自动调度计划,以保证业务连续性的情况下根据设置的参数来实现存储资源的合理调度,使得集群下的存储资源在使用率和IO性能上达到一定的均衡优化效果。

3.6.3        网络可靠性设计

网络路径全冗余

核心层交换设备通过使用交换机集群技术,保证对外与防火墙/NAT和对内汇聚交换机连接的冗余。

接入交换机通过使用交换机堆叠技术,保证对外与汇聚层交换设备和对内虚拟网络层连接的冗余。

虚拟网络层通过采用多网卡绑定等技术避免单个网卡故障引发的业务中断。

网络分平面通信

系统通信平面划分为业务平面、存储平面和管理平面。为了保证各种网络平面数据的可靠性,不同平面间采用VLAN等技术进行隔离,单个平面故障不影响其余两个平面的正常工作。

业务平面:主要为虚拟机虚拟网卡的通信平面,对外提供业务应用。

存储平面:主要为iSCSI存储提供通信平面,并为虚拟机提供存储资源,但不直接与虚拟机通信,而通过虚拟化平台转换。

管理平面:负责整个云计算系统的管理、业务部署、系统加载等流量的通信。

网卡负荷分担

对于各通信平面(业务、存储、管理)均采用双网卡,双网卡采用了Bonding模式,两网卡被绑定成逻辑上的“一块网卡”后,同步一起工作。既能对服务器的访问流量进行负荷分担,又能保证其中一块发生故障的时候,另外的网卡立刻接管全部负载,过程是无缝的,服务不会中断。

3.6.4        虚拟化可靠性设计

虚拟机热迁移

提供虚拟机的自动迁移和手动迁移方案,当前计算节点出现故障或者计算节点负载过高时,可以把虚拟机迁移到正常的计算节点或者负载相对较低的计算节点上,保证虚拟机的正常运行。

虚拟机HA

虚拟机高可用性(HA)是虚拟机的一个特性,当虚拟机所在的物理服务器故障(如宕机、掉电等)或重启后,虚拟机可以自动在其他物理服务器上运行,保证虚拟机能够快速恢复,它可以保护用户的业务程序对外提供不间断的服务,把因软件/硬件/人为造成的故障对业务的影响降低到最小程度。

快照

系统提供虚拟机、卷快照功能,系统正常状态下,可以触发一个系统快照,用于在系统出现故障的时候还原系统。

3.6.5        管理可靠性设计

计算和存储集群分离

通过采用计算集群和存储集群相分离的架构,提升系统的可靠性。计算集群完成虚拟机的按需分配以及集群内的热迁移,存储集群完成虚拟机的系统卷和用户卷的按需分配以及跨磁盘的存放。

管理节点HA

管理软件均采用1+1备份或负载均衡的方式运行。当一个管理节点的软件出现故障的时候,系统自动切换到备用节点,保证整个系统不间断运行。

故障检测

支持服务器、软件和资源的监控。通过在每个被监控的节点上运行检测程序,系统可以收集服务器的核心指标如CPU使用情况、基础网络流量和内存数据等,检测到诸如进程异常、管理和存储链路异常,节点异常、系统资源过载等各种故障,使系统具备完善的故障检测能力。

支持故障信息收集和存储集群节点可用性度量,并且可以在Web浏览器中显示。用户可查看集群管理和系统的分配负载,确定是否有:负载均衡问题、失控进程或硬件性能下降的趋势等问题。该功能对合理调整系统资源、提高系统整体性能起到重要作用。历史记录允许查看集群每日、每周、或者每年的硬件资源情况。

第四章           设备清单

设备清单额外提供


Address/地址: 武汉市东湖新技术开发区光谷大道58号关南福星医药园92501-0
Tel/联系电话: 18062502612
Mail/邮箱:719226481@qq.com