AWS
AWS Transit Gateway : Patrons de Conception Multi-Comptes à Grande Échelle pour 2026
En 2026, l'AWS Transit Gateway (TGW) demeure l'épine dorsale incontestée de toute architecture multi-comptes de classe entreprise. Cependant, la lune de miel du modèle « hub-and-spoke » est terminée pour les ingénieurs qui ne tiennent pas compte de la fatigue des peering, des plafonds de quotas et de la nécessité absolue d'une inspection centralisée. Si vous gérez toujours des connexions de VPC peering individuelles ou la propagation manuelle de routes dans une prolifération de plus de 50 comptes, vous n'êtes pas en train d'architecturer ; vous attendez juste qu'une boucle de routage ou une exception « Quota Exceeded » mette votre stack de production hors service. La conception TGW moderne exige une focalisation implacable sur l'automatisation du Resource Access Manager (RAM), les domaines de routage isolés et l'intégration du Gateway Load Balancer (GWLB) pour résoudre la lacune de sécurité Est-Ouest.
La Réalité Multi-Comptes 2026 : Échelle ou Décès
L'époque d'un compte AWS monolithique unique est révolue. Les organisations atteignent maintenant plus de 500 VPC répartis sur des centaines de comptes gérés via AWS Organizations. À cette échelle, le TGW devient plus qu'un routeur ; c'est une couche d'abstraction. En utilisant AWS Resource Access Manager (RAM), vous pouvez partager un TGW unique (résidant dans un compte de Services Réseau/Hub dédié) à travers toute l'Organisation. Cela empêche le « shadow networking » où les développeurs déploient des VPC isolés qui satisfont les exigences locales mais enfreignent les politiques d'egress de l'entreprise.
Cependant, la mise à l'échelle à plus de 1 000 VPC introduit un ensemble spécifique de contraintes. Bien que le TGW supporte théoriquement 5 000 attachements par région, le véritable goulot d'étranglement est la limite de la table de routage TGW (actuellement 20 par TGW) et le nombre de routes par table de routage TGW (10 000). Pour survivre à l'échelle de 2026, vous devez abandonner le routage plat et adopter une approche de type VRF au sein du TGW en utilisant plusieurs tables de routage adaptées aux niveaux d'application (par exemple, Prod, Dev, Shared Services, Inspection).
Resource Access Manager (RAM) et le Pipeline d'Automatisation
Le partage manuel de TGW via la console est une faute grave. Dans un environnement CI/CD professionnel, le compte Hub devrait automatiquement partager la ressource TGW avec l'unité d organisation (OU) entière. Lorsqu'un nouveau compte est provisionné via Control Tower ou une usine de comptes personnalisée, il devrait automatiquement recevoir une « Demande d'Attachement TGW ».
# Terraform snippet for RAM sharing
resource "aws_ram_resource_share" "tgw_share" {
name = "central-tgw-share"
allow_external_principals = false
}
resource "aws_ram_principal_association" "org_association" {
principal = data.aws_organizations_organization.current.arn
resource_share_arn = aws_ram_resource_share.tgw_share.arn
}
resource "aws_ram_resource_association" "tgw_association" {
resource_arn = aws_ec2_transit_gateway.main.arn
resource_share_arn = aws_ram_resource_share.tgw_share.arn
}
Un conseil crucial : Désactivez toujours default_route_table_association et default_route_table_propagation sur le TGW. Si vous les laissez activés, chaque nouvel attachement VPC déversera automatiquement ses routes locales dans une table globale et recevra des routes vers tous les autres VPC. C'est un cauchemar de rayon d'explosion. Vous voulez un routage explicite et basé sur l'intention.
Le VPC d'Inspection : Implémentation du GWLB à la Périphérie
L'inspection approfondie des paquets (DPI) pour le trafic Est-Ouest (VPC-à-VPC) et Nord-Sud (VPC-à-Internet) est non négociable. La norme d'or pour 2026 est le modèle de VPC d'Inspection utilisant le Gateway Load Balancer (GWLB) et une flotte d'appliances FortiGate ou Palo Alto VM-Series. En utilisant TGW, vous pouvez diriger le trafic de n'importe quel VPC spoke vers le VPC d'Inspection avant qu'il n'atteigne sa destination.
Ceci estK réalisé via le Appliance Mode. Assurez-vous que le appliance_mode_support est activé sur l'attachement TGW au VPC d'Inspection. Sans cela, le TGW ne maintiendra pas la symétrie de flux, envoyant la requête via un pare-feu d'une AZ et la réponse via un autre, provoquant la chute du paquet par le pare-feu stateful. Pour une exploration plus approfondie de l'intégration des pare-feu, consultez notre guide sur les modèles de conception FortiGate GWLB.
Ingénierie du Trafic : Ségrégation de la Production, du Développement et des Services Partagés
Pour limiter le rayon d'explosion, traitez les tables de routage TGW comme des VRF dans le monde Cisco. Vous devriez avoir, au minimum :
- Prod_RT : Contient les routes pour les VPC de production. Se propage vers le VPC d'Inspection mais PAS vers le Dev_RT.
- Dev_RT : Contient les routes pour les environnements de développement. Isolé de Prod au niveau TGW.
- Inspection_RT : La table « d'atterrissage » pour tout le trafic nécessitant un nettoyage. Cette table possède une route par défaut (0.0.0.0/0) pointant vers l'endpoint GWLB dans le VPC d'Inspection.
- Edge_RT : Pour les attachements Direct Connect (DX) ou VPN.
L'impact des coûts de cette conception est prévisible mais significatif. Chaque attachement TGW coûte environ 36,50 $/mois par région (basé sur 0,05 $/heure) plus 0,02 $ par Go de données traitées. Dans un environnement de 1 000 VPC, vous envisagez 36 500 $/mois juste en frais d'attachement. Si vous poussez 1 Po de données via le TGW, ajoutez 20 000 $ supplémentaires. Pour les besoins à haut débit et faible latence, envisagez le VPC Peering pour des paires spécifiques à trafic élevé tout en conservant le TGW comme plan de gestion.
Atténuation du Rayon d'Explosion : Filtrage des Routes et Blackholing
Une seule route mal configurée dans une table de routage TGW peut faciliter un mouvement latéral de ransomware à travers toute votre entreprise. Utilisez les Blackhole Routes de manière stratégique. Si une plage CIDR spécifique ne doit jamais être joignable via le TGW (par exemple, votre sous-réseau de gestion legacy sur site qui a son propre DX), mettez-la explicitement en blackhole dans les tables de routage Spoke.
De plus, implémentez des Service Control Policies (SCPs) pour empêcher les développeurs de modifier les tables de routage dans leurs VPC locaux afin de contourner le TGW. La table de routage VPC locale doit avoir un 0.0.0.0/0 ou un CIDR spécifique pointant vers l'interface TGW pour que le trafic régional soit inspecté. Si un développeur change cela pour un Internet Gateway (IGW) directement, il a contourné votre pile de sécurité. Utilisez les SCP pour refuser ec2:CreateRoute et ec2:DeleteRoute lorsque l'ID de la passerelle est un IGW, sauf si le compte est explicitement sur liste blanche.
L'Intégration du Direct Connect Gateway (DXGW)
La connexion de votre centre de données sur site à un environnement TGW multi-comptes nécessite un Transit VIF sur votre Direct Connect. N'utilisez pas de Private VIF pour cela ; ils ne s'adaptent pas et ne fonctionneront pas avec TGW. Le Transit VIF se termine sur un Direct Connect Gateway (DXGW), qui est ensuite associé au TGW. Cela permet à jusqu'à 3 TGW (potentiellement dans des régions différentes) de partager la même connexion DX.
En 2026, nous observons que de plus en plus d'entreprises optent pour des connexions dédiées de 100 Gbps. À cette bande passante, la limite par flux du TGW (environ 10 Gbps par flux d'attachement VPC) devient le goulot d'étranglement. Pour atteindre des vitesses plus élevées, vous devez utiliser plusieurs flux ou envisager AWS Cloud WAN si votre empreinte est véritablement globale sur plus de 10 régions, car Cloud WAN automatise le peering inter-régions que le TGW exige que vous construisiez manuellement.
Mise à l'Échelle au-delà de 1000 VPC : TGW Peering vs. Cloud WAN
Une fois que vous dépassez les limites physiques ou logiques d'un seul TGW, ou lorsque vos exigences de latence entre Tokyo et US-East-1 deviennent critiques, vous devez décider entre le TGW Peering et AWS Cloud WAN. Le TGW Peering est un processus statique et manuel. Vous créez l'attachement de peering, puis mettez à jour manuellement les tables de routage des deux côtés. C'est fastidieux et sujet à la « route rot ».
AWS Cloud WAN utilise un Network Function Manager et une Core Network Policy (un document JSON) pour définir comment les segments (comme Prod et Dev) interagissent globalement. Si vous opérez au niveau d'une entreprise du Fortune 100, Cloud WAN est la norme de 2026. Cependant, pour la plupart des entreprises, un hub TGW régional avec TGW Peering pour les 2-3 régions secondaires est plus rentable et plus facile à dépanner en utilisant les outils standard de Reachability Analyzer.
Conclusion : Le Verdict TechLeague
Construire un réseau multi-comptes en 2026 sans Transit Gateway est une recette pour la faillite opérationnelle. Cependant, le TGW est un routeur « stupide » à moins que vous ne l'enveloppiez dans un cadre de politique strict. Utilisez RAM pour la distribution, plusieurs tables de routage pour l'isolement et GWLB pour l'inspection centralisée. Tout le reste n'est qu'un réseau plat avec un prix de cloud. Si votre équipe réseau a du mal à découpler la sécurité de la connectivité à grande échelle, consultez nos audits d'infrastructure personnalisés sur techleague.io.
Questions Fréquemment Posées
Pourquoi ne pas simplement utiliser le VPC Peering, puisqu'il est gratuit pour le transfert de données au sein de la même AZ ?
Le VPC Peering crée un désordre de complexité en n^2. Bien qu'il réduise les frais de traitement des données, la surcharge de gestion de la mise à jour de centaines de tables de routage et de groupes de sécurité, combinée à l'absence de routage transitif, le rend impossible à gérer à grande échelle. Utilisez TGW pour le plan de gestion et le VPC Peering uniquement pour les flux « éléphants » à haut débit entre deux VPC spécifiques.
Comment gérer les CIDR qui se chevauchent dans un environnement TGW ?
Le TGW ne gère pas nativement les CIDR qui se chevauchent dans la même table de routage. Vous devez soit utiliser un Private NAT Gateway dans les VPC spoke pour traduire leur adresse IP source avant qu'elle n'atteigne le TGW, soit utiliser des tables de routage TGW distinctes et les mapper via un « VPC de Translation » contenant plus d'instances NAT ou de pare-feu effectuant du DNAT/SNAT.
Le TGW prend-il en charge le multicast ?
Oui, le TGW prend en charge le multicast IGMP. Vous devez créer un domaine Multicast sur le TGW et associer les sous-réseaux VPC spécifiques. C'est essentiel pour les applications financières legacy ou certains protocoles de streaming médiatique qui n'ont pas été modernisés pour les environnements de cloud unicast.
Quel est le débit maximal d'un seul TGW ?
Alors qu'AWS affirme que le TGW évolue « dynamiquement », chaque attachement VPC est limité à 50 Gbit/s de débit en rafale. Surtout, un seul flux TCP est généralement limité à 10 Gbit/s. Si vous avez besoin de 100 Gbit/s entre deux VPC, vous devez vous assurer que votre trafic est distribué sur de nombreux flux distincts (5-tuple).
Dois-je utiliser TGW Connect pour l'intégration SD-WAN ?
Absolument. Les attachements TGW Connect vous permettent d'exécuter des tunnels GRE sur le TGW, permettant le BGP peering directement entre vos appliances virtuelles SD-WAN (comme Cisco SD-WAN ou Silver Peak) et le TGW. Cela élimine le besoin de nombreuses IPsec VPN et simplifie considérablement la table de routage.
Comment l'Appliance Mode résout-il le problème de l'asymétrie de flux ?
Lorsque l'Appliance Mode est activé sur un attachement, le TGW garantit que pour la durée de vie d'un flux, il sélectionne la même interface réseau (et donc la même AZ) pour le trafic de retour que celle utilisée pour la requête initiale. Ceci est vital pour les pare-feu stateful dans un VPC d'Inspection qui, autrement, rejetteraient les paquets s'ils ne voyaient qu'un seul côté du three-way handshake.
Questions fréquentes
Pourquoi ne pas simplement utiliser le VPC Peering, puisqu'il est gratuit pour le transfert de données au sein de la même AZ ?+
Le VPC Peering crée un désordre de complexité en n^2 et manque de routage transitif. Bien que moins cher pour les données, la surcharge de gestion est prohibitive à grande échelle. Utilisez TGW pour le backbone et le Peering uniquement pour des flux « éléphants » spécifiques à haut débit.
Comment gérer les CIDR qui se chevauchent dans un environnement TGW ?+
Le TGW ne prend pas en charge les CIDR qui se chevauchent dans une même table de routage. Vous devez utiliser des Private NAT Gateways dans les VPC spoke ou un VPC de Translation dédié avec des capacités NAT pour mapper les adresses avant qu'elles n'entrent dans le cœur du transit.
Le TGW prend-il en charge le multicast ?+
Oui, via les domaines Multicast TGW. Vous associez les sous-réseaux VPC et utilisez IGMP pour gérer les groupes. C'est une fonctionnalité de niche mais vitale pour les applications financières ou de diffusion legacy.
Quel est le débit maximal d'un seul TGW ?+
Chaque attachement prend en charge jusqu'à 50 Gbit/s de débit agrégé, mais les flux individuels (5-tuple) sont généralement plafonnés à 10 Gbit/s. Les applications à haute performance doivent utiliser plusieurs flux pour atteindre la bande passante maximale.
Dois-je utiliser TGW Connect pour l'intégration SD-WAN ?+
Oui. TGW Connect utilise des tunnels GRE et le BGP peering pour simplifier l'intégration SD-WAN. Cela évite la surcharge et les problèmes de MTU associés aux IPsec VPN standard lors de la connexion d'appliances virtuelles.
Comment l'Appliance Mode résout-il le problème de l'asymétrie de flux ?+
L'Appliance Mode garantit que le TGW maintient la symétrie de flux en forçant le trafic de retour à passer par la même AZ et le même ENI que le trafic source. Cela empêche les pare-feu stateful dans un VPC d'Inspection de rejeter les paquets.