Datacenter

Storage-Performance wird im Netz gewonnen oder verloren.

Bei Ceph, iSCSI, NVMe/TCP und Live-Migration wird das Netzwerk selbst zur Infrastrukturkomponente. Bandbreite, MTU, Failure Domains und redundante Pfade müssen zu den Workloads passen, sonst verschwindet Storage-Performance zwischen Switches, Optiken und Fehlersuche.

HOSTS FABRIC STORAGE Host 1 Host 2 Host 3 Ceph iSCSI NVMe/TCP Fabric redundant Dual-Fabric Spine-Leaf RoCE

Warum das Netz mitentscheidet

Performance planbar machen

Storage- und Virtualisierungsperformance entsteht nicht nur in Disks und CPUs. MTU, Queueing, Latenz, Uplinks, Oversubscription und Fehlerdomänen entscheiden mit.

Störungen begrenzen

Management, VM-Traffic, Storage, Backup und Replikation werden sauber getrennt. Ein Problem in einem Pfad soll nicht das ganze Datacenter mitziehen.

Investitionen richtig setzen

25, 100 oder 200 GbE, RoCE, NVMe/TCP oder klassisches iSCSI sind Kostenentscheidungen. Wir dimensionieren nach Workload statt nach Bauchgefühl.

Wann das Netz zum Engpass wird

Wenn Storage-Latenz mal am Host, mal am SAN, mal am Netz liegt.

Ceph, iSCSI, NVMe/TCP oder Datenbank-Storage laufen über dasselbe Netz wie Office- oder Backup-Traffic.

Ein Cluster bekommt neue Hosts, aber Switches, Optiken oder Uplinks sind nicht für die Last geplant.

RoCE oder RDMA wird diskutiert, ohne dass PFC, ECN, Lossless-Design und Betriebskomplexität bewertet wurden.

Storage-Latenz ist unklar: mal ist der Host schuld, mal das SAN, mal das Netzwerk.

Neue 25/100-GbE-Hardware soll wirtschaftlich eingesetzt werden, ohne später teuer umzubauen.

Lösungswege

Das Storage-Netz muss zum Protokoll passen.

Ein Ceph-Cluster, ein iSCSI-SAN und ein RoCE-Fabric haben andere Anforderungen. Wir planen Netz, Storage und Betrieb gemeinsam, damit Performance nicht zufällig entsteht.

Dediziertes Storage-Netz

Getrennte Fabrics für Ceph, iSCSI, NVMe/TCP oder Backup. Typisch mit dualen Switches, klarer MTU, sauberen VLANs und redundanter Host-Anbindung.

Spine-Leaf für Cluster

Skalierbares 25/100/200-GbE-Design für wachsende Virtualisierungs-, Storage- oder GPU-Cluster mit planbarer Ost-West-Kommunikation.

RDMA / RoCE gezielt

RoCEv2 senkt Latenz und verlagert die Datenübertragung in die Netzwerkkarte, was die CPU spürbar entlastet. Der Preis ist ein verlustfreies Fabric mit PFC/ECN und Betriebserfahrung; iWARP läuft ohne Lossless über TCP, dafür mit höherer Latenz. Nicht jeder Workload rechtfertigt diese Komplexität.

Vorgehen

Erst den Traffic trennen, dann die Fabric bauen.

01

Traffic verstehen

VM, Storage, Backup, Replikation, Management, Live-Migration und Monitoring getrennt betrachten.

02

Bandbreite & Latenz

IOPS, Durchsatz, Ost-West-Traffic, Oversubscription, MTU und Ausfallmodell dimensionieren.

03

Fabric designen

Dual-Fabric, MLAG/Stacking/IRF, LACP, VLANs, Routing, QoS und Switch-Plattform festlegen.

04

Storage integrieren

Ceph public/cluster, iSCSI, NVMe/TCP, NFS, SMB oder Fibre Channel sauber anbinden und testen.

05

Betrieb prüfen

Failover, Firmware, Monitoring, Port-Fehler, Optiken, Kabelwege und Dokumentation belastbar machen.

Technische Bausteine

Bausteine für eine Fabric, die nicht rät.

Eine Auswahl typischer Bausteine, herstellerunabhängig und bewusst nicht abschließend. Wir favorisieren diese Optionen, legen uns aber nicht darauf fest.

Topologien

Dual-FabricSpine-LeafMLAGStacking / IRFLACPECMP

Bandbreiten

10 GbE25 GbE56 GbE100 GbE200 GbEDACOptiken

Storage-Protokolle

iSCSI / iSERNVMe/TCPNFSSMBFibre ChannelFCoECeph

RDMA

RoCEv2iWARPPFCECNDCQCNLosslessCPU-Offload

Switching

CiscoAristaHPEH3CHuaweiNVIDIADellEdgecore

Open Networking

SONiCOcNOSAutomationAnsible

Was die Fabric wirklich kostet

Der Switch-Preis ist erst der Anfang der Rechnung.

Optiken, DACs, Transceiver-Kompatibilität, Reserveports, Support und Strom bestimmen das Budget mit. Und zwei Switches ohne getestetes Failover sind keine Redundanz. Das machen wir vor dem Kauf sichtbar.

Faustregel

Ein sauber geplantes 25-GbE-Design schlägt 100 GbE ohne Konzept. Bandbreite ersetzt kein Design.

Switches sind nur ein Teil

Optiken, DACs, Breakout-Kabel, Transceiver-Kompatibilität, Support, Strom und Reserveports können das Budget stark beeinflussen.

25 GbE reicht oft lange

Viele Virtualisierungs- und Storage-Cluster profitieren mehr von sauberem Design als von sofortigem 100 GbE überall. High-IO- oder GPU-Workloads sind anders zu bewerten.

RoCE ist kein kostenloser Turbo

RDMA kann technisch stark sein, kostet aber Design-, Test- und Betriebsaufwand. Ohne saubere Lossless-Konfiguration erzeugt es mehr Risiko als Nutzen.

RDMA entlastet die Storage-CPU

RDMA verlagert die Übertragung in die Netzwerkkarte, der Datenpfad läuft ohne Kernel und ohne CPU-Zyklen pro Paket. Die Storage-CPU kann kleiner ausfallen oder liefert mehr Durchsatz pro Kern, was bei Core-basierter Lizenzierung direkt Kosten spart.

Redundanz richtig kaufen

Zwei günstige Switches ohne sauberes Failover-Konzept sind keine belastbare Fabric. Entscheidend sind Fehlerdomänen, Wartungsfenster und getestete Umschaltung.

Einsatzszenarien

Wofür wir Fabrics auslegen.

Ceph-Cluster

Getrennte Public- und Cluster-Netze, passende MTU, Bandbreite und Failure Domains.

VM-Cluster

Management, VM-Traffic, Live-Migration, Backup und Storage sauber getrennt.

Datenbank-Storage

Niedrige Latenz und klare Pfade für iSCSI, NVMe/TCP oder Fibre Channel.

GPU / KI

Hohe Ost-West-Last, RDMA-Optionen und Switch-Puffer bewusst dimensioniert.

Bevor Sie Switches bestellen.

Fragen zur Datacenter-Fabric.

Antworten auf typische Fragen zu Ceph-Netzen, iSCSI, NVMe/TCP, 25/100/200 GbE, RoCE und sauber getrennten Datacenter-Fabrics.

Datacenter-Netz besprechen

Nein. 25 GbE ist für viele Cluster ein sehr guter Einstieg, wenn Uplinks, Trennung, MTU, Queueing und Redundanz passen. 100 oder 200 GbE wird interessant bei vielen Hosts, hoher Ost-West-Last, NVMe-lastigen Workloads, GPU-Clustern oder sehr engen Latenzzielen.

Oft ja. Gebrauchte Mellanox- und NVIDIA-ConnectX-Adapter mit passenden Switches sind ein günstiger Weg zu RDMA-fähigen 56- oder 100-GbE-Fabrics für Storage- und Cluster-Netze. Entscheidend ist die Schnittstelle: RoCEv2 setzt mindestens einen ConnectX-3 Pro mit aktueller Firmware oder eine neuere Generation wie ConnectX-4 oder ConnectX-5 voraus, einfache ConnectX-3 können das nicht voll. Zu beachten ist außerdem, dass 56GbE ein Mellanox-eigenes Tempo ist und nur im reinen Mellanox-Verbund läuft; gegenüber Fremd-Switches fällt die Verbindung auf 40 GbE zurück. FDR-InfiniBand mit 56 Gbit/s ist davon zu unterscheiden. Wir prüfen Generation, Firmware, RoCE-Fähigkeit, End-of-Life und Verkabelung, bevor wir refurbished empfehlen.

Nein. RoCEv2 kann Latenz reduzieren und CPU entlasten, benötigt aber saubere PFC-/ECN-Konfiguration, passende Switches, NICs und Betriebserfahrung. Für viele iSCSI- oder NVMe/TCP-Setups ist ein gutes Ethernet-Design einfacher und robuster.

Im laufenden Datentransfer ja. RDMA verlagert die Transportverarbeitung in die Netzwerkkarte und überträgt direkt zwischen den Arbeitsspeichern beider Systeme, ohne TCP/IP-Stack, ohne Kernel-Eingriff und ohne CPU-Zyklen pro Paket; nur Verbindungsaufbau und Speicherregistrierung laufen einmalig über die CPU. In Hersteller-Benchmarks für NVMe-oF über RoCE sinkt die CPU-Last auf dem Storage-Server gegenüber iSCSI um grob 30 bis 45 Prozent, Microsoft nennt geringeren CPU-Verbrauch ausdrücklich als Vorteil von SMB Direct. Das bedeutet weniger CPU-Last bei gleichem Durchsatz oder mehr Durchsatz pro Kern; wo Software pro Kern lizenziert wird, etwa bei Datenbanken, wirkt das direkt auf die Kosten. Voraussetzung bleibt ein verlustfreies Fabric mit PFC und ECN. Wo das nicht gewünscht ist, ist iWARP über normales TCP eine einfachere, aber langsamere Alternative.

Ceph unterscheidet typischerweise Client/Public-Traffic und Cluster-/Replikationsverkehr. Je nach Größe und Last trennen wir diese Pfade logisch oder physisch, damit Rebalancing, Recovery oder Backfill nicht die VM- oder Client-Performance unkontrolliert beeinflussen.

Das hängt von Betrieb, Support, Budget und vorhandenen Standards ab. Wir betrachten unter anderem Cisco, Arista, HPE, H3C, Huawei, NVIDIA Networking, Dell und Edgecore sowie Open-Networking-Optionen wie das quelloffene SONiC oder das kommerzielle OcNOS, wenn das Betriebsteam dazu passt.

SONiC (Software for Open Networking in the Cloud) ist ein quelloffenes, Linux- und Debian-basiertes Netzwerk-Betriebssystem, bei dem jede Funktion als Container läuft. Über das Switch Abstraction Interface (SAI) arbeitet SONiC hardwareunabhängig auf Switches verschiedener Hersteller und ASICs: Hardware und Betriebssystem sind entkoppelt, kein Lock-in auf ein herstellereigenes NOS. Ursprünglich von Microsoft für Azure entwickelt, liegt SONiC seit 2022 bei der Linux Foundation; zum Ökosystem gehören unter anderem Microsoft, Google, Broadcom, NVIDIA, Dell, Arista und Cisco. Es läuft auf Whitebox- und Markenhardware von Edgecore, Dell oder NVIDIA auf Silizium von Broadcom, Marvell und NVIDIA. Die Stärken liegen genau dort, wo Datacenter-Fabrics sie brauchen: Spine-Leaf, BGP, ECMP, VXLAN/EVPN und hohe Portgeschwindigkeiten. OcNOS (IP Infusion) ist eine kommerzielle NOS-Alternative für offene, disaggregierte Hardware. Der Betrieb lebt von Automatisierung, etwa mit Ansible. Open Networking lohnt sich dann, wenn Sie eine herstellerunabhängige Fabric einheitlich automatisieren wollen und das Betriebsmodell dazu passt. Wir planen, integrieren und betreiben solche Setups, statt das Thema nur als Schlagwort zu führen.

Der nächste Schritt

Legen wir Ihr Datacenter-Netz so aus, dass Performance kein Zufall ist.

Wir bewerten Hosts, Storage, Switches, Protokolle, Kabelwege und Betrieb und entwickeln daraus ein Netzdesign, das Performance und Kosten zusammenbringt.

Netzdesign anfragen oder Formular ausfüllen