Multi-cloud
Fortgeschrittenes NSX 4.2 Multi-Site Design: Federation und Security Evolution
Im Jahr 2026 geht das Multi-Site-Networking über das Stretchen von Layer 2 hinaus, um alte Heartbeat-Anforderungen zu erfüllen; es dreht sich um die programmatische Synchronisierung von Security Posture und Stateful Services über Ausfalldomänen hinweg. Mit VMware NSX 4.2 (jetzt Teil des VCF 5.x/9.x Zyklus) ist der Wandel von „Global Manager als nachträglichem Gedanken“ zu „Global Manager als Quelle der Wahrheit“ abgeschlossen. Wenn Sie immer noch isolierte Local Manager mit manueller, skriptbasierter Synchronisierung aufbauen, bauen Sie technische Schulden in Ihre Private Cloud ein.
Die Evolution der NSX Federation in 4.2
Die NSX Federation hat sich von den fehlerbehafteten „Global“-Objekten der frühen 3.x-Tage zu einer robusten Synchronisations-Engine entwickelt, die mehrere Sites als ein einziges logisches Fabric behandelt. In NSX 4.2 konzentriert sich der architektonische Dreh- und Angelpunkt auf die Integration mit vDefend (ehemals NSX Distributed Firewall) und die Fähigkeit, massive Skalierungen über Global Manager (GM) und Local Manager (LM) hinweg zu handhaben.
Das Standarddesign für 2026 beinhaltet ein redundantes Paar von Global Managern – idealerweise in einem Management-Cluster, der physisch von der Datenebene getrennt ist. Der GM befindet sich nicht im Datenpfad; er ist der Control Plane Orchestrator. Wenn Ihr GM ausfällt, läuft Ihr Traffic weiter, aber Ihre Fähigkeit, Sicherheitspolicies zu aktualisieren oder das Routing über Sites hinweg zu ändern, entfällt. Wir empfehlen einen 3-Node GM-Cluster für Hochverfügbarkeit, mit 32 vCPUs und 128 GB RAM pro Node, um den Overhead der erweiterten Bedrohungsschutz-Telemetrie von vDefend zu bewältigen.
Tier-0 und Tier-1 Gateway Design: Stretched vs. Lokal
Die kritischste Entscheidung im NSX 4.2 Multi-Site-Design ist der North-South Egress Point. Sie haben drei primäre Patterns, aber nur zwei sind für hochperformante Unternehmen praktikabel:
- Primary-Secondary Stretched T0: Eine Site ist aktiv für den gesamten North-South-Traffic. Wenn Site A ausfällt, konvergiert BGP neu und Site B übernimmt. Dies ist am einfachsten zu verwalten, führt aber zu suboptimalem „Tromboning“ für den Egress-Traffic von Site B.
- Active-Active Stretched T0 (All Primary): Eingeführt, um das Latenzproblem zu lösen, ermöglicht dies Ingress/Egress an beiden Sites. Es erfordert jedoch eine sorgfältige BGP-Manipulation (AS-Path Prepending oder Communities), um symmetrische Rückwege zu gewährleisten.
- Local Egress: Der T0 ist lokal für jede Site, aber der T1 ist gestretched. Dies ist der Goldstandard für 2026.
# Beispiel: Konfiguration von BGP auf einem Stretched T0 über NSX CLI
set service bgp 65001
set neighbor 10.255.1.1 remote-as 65100
set neighbor 10.255.1.1 route-map PREPEND_OUT out
!
# Prepending an der sekundären Site zur Beeinflussung des Ingress
route-map PREPEND_OUT permit 10
set as-path prepend 65001 65001 65001
BGP-EVPN und der Tod der komplexen Stretched VNI
NSX 4.2 hat die BGP-EVPN-Implementierung für Multi-Site erheblich bereinigt. Während NSX intern GENEVE-Kapselung zwischen Transport Nodes (TEPs) verwendet, stützt sich die Übergabe an den physischen Core (Cisco Nexus 9300 oder Arista 7050X3) häufig auf EVPN, um Multi-Tenancy aufrechtzuerhalten. In 4.2 sehen wir, dass der „Route Server“-Modus zum Standard für große Federation-Implementierungen wird. Dies ermöglicht es dem Global Manager, Route Target (RT) und Route Distinguisher (RD) Konfigurationen an Local Manager zu pushen, ohne manuelle Kollisionsverwaltung.
Beim Design dieser Inter-Site-Links (ISL) sollten Sie die MTU nicht zu klein wählen. Sie benötigen mindestens 1700 Bytes, um den GENEVE-Overhead (50 Bytes) plus eventuelle interne Tags zu berücksichtigen. Wenn Sie über MPLS-Netze eines Providers oder Dark Fiber laufen und dieser Ihnen keine 1700+ MTU bieten kann, wird Ihre NSX-Performance aufgrund von Fragmentierung zusammenbrechen.
vDefend (NSX DFW) Policy Synchronisation
Sicherheit ist heute der Haupttreiber für NSX Federation. Mit vDefend in 4.2 ermöglicht der Global Manager die Definition von „Global Security Groups“ basierend auf Tags. Wenn eine VM von London nach New York (über HCX oder vMotion) verschoben wird, folgt ihr der Tag env:production, und die Micro-Segmentation-Regeln werden sofort lokal auf den New Yorker vSphere-Hosts angewendet.
Ein Vorbehalt: Distributed IDS/IPS (D-IDS/IPS) Signaturen werden auf GM-Ebene verwaltet. In 4.2 wurde die Synchronisationsfrequenz auf unter 30 Sekunden für Signatur-Updates über 16+ Sites hinweg optimiert. Wir befürworten einen „Global-First“-Policy-Ansatz. Definieren Sie Ihre „Ring-0“ (Management, AD, NTP) und „Ring-1“ (Prod, Dev, Test)-Regeln auf GM-Ebene. Nur anwendungsspezifische, site-eindeutige Regeln sollten an den Local Manager gepusht werden.
vSphere 8.0u3 + NSX 4.2: Der Hardware-Beschleunigungs-Vorteil
Der Betrieb von NSX 4.2 auf älteren Broadwell- oder SkyLake-CPUs ist eine Verschwendung von Lizenzgebühren. Um die volle Leistung des vDefend-Sandboxing und der NTA (Network Traffic Analysis) zu nutzen, sollten Sie auf vSphere 8.0u3 mit Data Processing Units (DPUs) wie der NVIDIA BlueField-2 oder AMD Pensando deployen. Dies verlagert die TEP-Kapselung und DFW-Lookups von den x86-Cores auf die DPU SmartNIC.
In einem Multi-Site-Design ermöglichen DPUs, selbst bei intensiver Deep Packet Inspection (DPI) über gestretched Segmente, einen Line-Rate-Durchsatz von 100 Gbit/s aufrechtzuerhalten. Ohne DPUs müssen Sie in Umgebungen mit hohem Datenaufkommen einen CPU-Overhead von 20-30 % auf Ihren ESXi-Hosts allein für die NSX-Encapsulation/-Decapsulation einkalkulieren.
Disaster Recovery: SRM vs. NSX Federation
Oft verwechseln Architekten die NSX Federation mit einem DR-Orchestrator. Federation bietet die *Infrastruktur* (IP-Verfügbarkeit und Security Policy), aber Site Recovery Manager (SRM) oder VMware Live Cyber Recovery (VLCR) bieten die *Automatisierung*. In 4.2 ist die Integration enger; SRM kann jetzt nativ den „Global Manager Switchover“ über API auslösen und einen Standby GM zum Active GM befördern, wenn die primäre Region zerstört wird.
Weitere Informationen zur Integration dieser Ebenen finden Sie in unserem Leitfaden zu vSphere 8 Networking Deep Dive. Ziel ist es, ein Recovery Time Objective (RTO) von Minuten statt Stunden zu erreichen, was nur möglich ist, wenn das Netzwerk an der sekundären Site über Federation bereits „vorgewärmt“ ist.
Edge Cluster Dimensionierung und Skalierung
Sparen Sie nicht an den Edge Nodes. Für eine Multi-Site 4.2 Bereitstellung empfehlen wir den VM-Formfaktor Large oder X-Large (8-16 vCPUs). Wenn Sie Stateful Services wie NAT, Load Balancing (AVI) oder VPN auf einem gestretched T1 nutzen, *müssen* diese Services auf den Edge Nodes laufen. In 4.2 bietet der „Active-Active Site-A/Site-B“ T1 lokalen Egress, hält aber die Stateful Services an eine primäre Site gebunden. Beachten Sie, dass, wenn Ihr T1 gestretched ist und Sie eine Stateful Firewall darauf verwenden, Ihr Traffic zu der Site zurückgeleitet wird, auf der die „Active“-Instanz dieses T1 residiert.
Operationalisierung des Fabric
Die Überwachung eines Multi-Site NSX Fabric erfordert mehr als nur vRealize Operations (Aria Operations). Sie benötigen NSX Intelligence (jetzt ein containerisierter Service innerhalb des NSX Managers), um Cross-Site Flows zu visualisieren. In 4.2 kann NSX Intelligence die Federation umfassen und Ihnen eine „God View“ darüber geben, wie Traffic von einem Webserver in Site A zu einer Datenbank in Site B fließt. Wenn Sie dies nicht nutzen, fliegen Sie bei einem lokalen Ausfall blind.
Die Kosten dieser Lizenzen (VCF Enterprise oder NSX Advanced/Enterprise Plus) sind beträchtlich und übersteigen oft 5.000 US-Dollar pro CPU-Sockel, wenn sie gebündelt sind. Lassen Sie diese Investition nicht verrotten – stellen Sie sicher, dass Ihr Team in den CLI-Befehlen get logical-routers und get firewall threshold geschult ist, um die Control Plane zu beheben, wenn die GUI bei einem globalen Synchronisationsereignis unvermeidlich im Rückstand ist.
Unser Team bei TechLeague ist spezialisiert auf hochverfügbare NSX-Implementierungen für Fortune 500-Unternehmen. Wenn Ihr aktuelles Design wie ein weitläufiges Durcheinander von VLANs und manuellen Firewallregeln aussieht, ist es an der Zeit, zu modernisieren. Informieren Sie sich über unsere Beratungsoptionen und Architekturreviews unter techleague.io.
Häufige Fragen
Welche Latenzanforderungen bestehen für NSX 4.2 Federation?+
NSX Federation erfordert eine Latenz (RTT) von 150 ms oder weniger zwischen dem Global Manager und den Local Managern und idealerweise unter 10 ms für gestretched Layer 2 Segmente, um eine Beeinträchtigung der Anwendungsperformance zu vermeiden.
Warum sollte ich ein Stretched Tier-0 Gateway verwenden?+
Stretched T0s ermöglichen IP-Mobilität über Sites hinweg und stellen sicher, dass eine VM ohne Änderung ihres Default Gateways von Site A nach Site B verschoben werden kann, obwohl dies eine sorgfältige BGP-Engineering erfordert, um suboptimales Routing zu verhindern.
Wie integriert sich vDefend in NSX 4.2 Multi-Site?+
vDefend ist die umbenannte und verbesserte Sicherheitssuite in NSX 4.2, einschließlich DFW, IDS/IPS und Malware Prevention. In einem Multi-Site-Setup werden vDefend-Policys auf Global Manager-Ebene verwaltet, um eine konsistente Durchsetzung zu gewährleisten.
Kann ich aktive-aktive Egress in zwei verschiedenen Rechenzentren haben?+
Ja, aber mit Einschränkungen. Um Hair-Balding zu verhindern, sollten Sie 'Local Egress'-Konfigurationen verwenden, obwohl Stateful Services wie NAT oder Load Balancing möglicherweise weiterhin an den Edge Cluster einer bestimmten Site gebunden sind.
Was ist die Mindestdimensionierung für Edge Nodes in einer Federation?+
Für Produktions-Multi-Site-Umgebungen sind 'Large' Edge VMs (8 vCPU, 32 GB RAM) das empfohlene Minimum, um den intensiven Synchronisations- und Routing-Overhead zu bewältigen.
Ersetzt NSX 4.2 Federation den Site Recovery Manager (SRM)?+
NSX Federation bietet die Netzwerkkonnektivität und die Persistenz der Sicherheitspolicy, aber es orchestriert nicht die VM-Power-on-Sequenzen oder die Speichereplikation; dafür benötigen Sie immer noch SRM oder ein ähnliches Tool.