Performance planbar machen
Storage- und Virtualisierungsperformance entsteht nicht nur in Disks und CPUs. MTU, Queueing, Latenz, Uplinks, Oversubscription und Fehlerdomänen entscheiden mit.
Datacenter
Bei Ceph, iSCSI, NVMe/TCP und Live-Migration wird das Netzwerk selbst zur Infrastrukturkomponente. Bandbreite, MTU, Failure Domains und redundante Pfade müssen zu den Workloads passen, sonst verschwindet Storage-Performance zwischen Switches, Optiken und Fehlersuche.
Warum das Netz mitentscheidet
Storage- und Virtualisierungsperformance entsteht nicht nur in Disks und CPUs. MTU, Queueing, Latenz, Uplinks, Oversubscription und Fehlerdomänen entscheiden mit.
Management, VM-Traffic, Storage, Backup und Replikation werden sauber getrennt. Ein Problem in einem Pfad soll nicht das ganze Datacenter mitziehen.
25, 100 oder 200 GbE, RoCE, NVMe/TCP oder klassisches iSCSI sind Kostenentscheidungen. Wir dimensionieren nach Workload statt nach Bauchgefühl.
Wann das Netz zum Engpass wird
Ceph, iSCSI, NVMe/TCP oder Datenbank-Storage laufen über dasselbe Netz wie Office- oder Backup-Traffic.
Ein Cluster bekommt neue Hosts, aber Switches, Optiken oder Uplinks sind nicht für die Last geplant.
RoCE oder RDMA wird diskutiert, ohne dass PFC, ECN, Lossless-Design und Betriebskomplexität bewertet wurden.
Storage-Latenz ist unklar: mal ist der Host schuld, mal das SAN, mal das Netzwerk.
Neue 25/100-GbE-Hardware soll wirtschaftlich eingesetzt werden, ohne später teuer umzubauen.
Lösungswege
Ein Ceph-Cluster, ein iSCSI-SAN und ein RoCE-Fabric haben andere Anforderungen. Wir planen Netz, Storage und Betrieb gemeinsam, damit Performance nicht zufällig entsteht.
Getrennte Fabrics für Ceph, iSCSI, NVMe/TCP oder Backup. Typisch mit dualen Switches, klarer MTU, sauberen VLANs und redundanter Host-Anbindung.
Skalierbares 25/100/200-GbE-Design für wachsende Virtualisierungs-, Storage- oder GPU-Cluster mit planbarer Ost-West-Kommunikation.
RoCEv2 senkt Latenz und verlagert die Datenübertragung in die Netzwerkkarte, was die CPU spürbar entlastet. Der Preis ist ein verlustfreies Fabric mit PFC/ECN und Betriebserfahrung; iWARP läuft ohne Lossless über TCP, dafür mit höherer Latenz. Nicht jeder Workload rechtfertigt diese Komplexität.
Vorgehen
Traffic verstehen
VM, Storage, Backup, Replikation, Management, Live-Migration und Monitoring getrennt betrachten.
Bandbreite & Latenz
IOPS, Durchsatz, Ost-West-Traffic, Oversubscription, MTU und Ausfallmodell dimensionieren.
Fabric designen
Dual-Fabric, MLAG/Stacking/IRF, LACP, VLANs, Routing, QoS und Switch-Plattform festlegen.
Storage integrieren
Ceph public/cluster, iSCSI, NVMe/TCP, NFS, SMB oder Fibre Channel sauber anbinden und testen.
Betrieb prüfen
Failover, Firmware, Monitoring, Port-Fehler, Optiken, Kabelwege und Dokumentation belastbar machen.
Traffic verstehen
VM, Storage, Backup, Replikation, Management, Live-Migration und Monitoring getrennt betrachten.
Bandbreite & Latenz
IOPS, Durchsatz, Ost-West-Traffic, Oversubscription, MTU und Ausfallmodell dimensionieren.
Fabric designen
Dual-Fabric, MLAG/Stacking/IRF, LACP, VLANs, Routing, QoS und Switch-Plattform festlegen.
Storage integrieren
Ceph public/cluster, iSCSI, NVMe/TCP, NFS, SMB oder Fibre Channel sauber anbinden und testen.
Betrieb prüfen
Failover, Firmware, Monitoring, Port-Fehler, Optiken, Kabelwege und Dokumentation belastbar machen.
Technische Bausteine
Eine Auswahl typischer Bausteine, herstellerunabhängig und bewusst nicht abschließend. Wir favorisieren diese Optionen, legen uns aber nicht darauf fest.
Was die Fabric wirklich kostet
Optiken, DACs, Transceiver-Kompatibilität, Reserveports, Support und Strom bestimmen das Budget mit. Und zwei Switches ohne getestetes Failover sind keine Redundanz. Das machen wir vor dem Kauf sichtbar.
Faustregel
Ein sauber geplantes 25-GbE-Design schlägt 100 GbE ohne Konzept. Bandbreite ersetzt kein Design.
Optiken, DACs, Breakout-Kabel, Transceiver-Kompatibilität, Support, Strom und Reserveports können das Budget stark beeinflussen.
Viele Virtualisierungs- und Storage-Cluster profitieren mehr von sauberem Design als von sofortigem 100 GbE überall. High-IO- oder GPU-Workloads sind anders zu bewerten.
RDMA kann technisch stark sein, kostet aber Design-, Test- und Betriebsaufwand. Ohne saubere Lossless-Konfiguration erzeugt es mehr Risiko als Nutzen.
RDMA verlagert die Übertragung in die Netzwerkkarte, der Datenpfad läuft ohne Kernel und ohne CPU-Zyklen pro Paket. Die Storage-CPU kann kleiner ausfallen oder liefert mehr Durchsatz pro Kern, was bei Core-basierter Lizenzierung direkt Kosten spart.
Zwei günstige Switches ohne sauberes Failover-Konzept sind keine belastbare Fabric. Entscheidend sind Fehlerdomänen, Wartungsfenster und getestete Umschaltung.
Einsatzszenarien
Getrennte Public- und Cluster-Netze, passende MTU, Bandbreite und Failure Domains.
Management, VM-Traffic, Live-Migration, Backup und Storage sauber getrennt.
Niedrige Latenz und klare Pfade für iSCSI, NVMe/TCP oder Fibre Channel.
Hohe Ost-West-Last, RDMA-Optionen und Switch-Puffer bewusst dimensioniert.
Bevor Sie Switches bestellen.
Antworten auf typische Fragen zu Ceph-Netzen, iSCSI, NVMe/TCP, 25/100/200 GbE, RoCE und sauber getrennten Datacenter-Fabrics.
Datacenter-Netz besprechenNein. 25 GbE ist für viele Cluster ein sehr guter Einstieg, wenn Uplinks, Trennung, MTU, Queueing und Redundanz passen. 100 oder 200 GbE wird interessant bei vielen Hosts, hoher Ost-West-Last, NVMe-lastigen Workloads, GPU-Clustern oder sehr engen Latenzzielen.
Oft ja. Gebrauchte Mellanox- und NVIDIA-ConnectX-Adapter mit passenden Switches sind ein günstiger Weg zu RDMA-fähigen 56- oder 100-GbE-Fabrics für Storage- und Cluster-Netze. Entscheidend ist die Schnittstelle: RoCEv2 setzt mindestens einen ConnectX-3 Pro mit aktueller Firmware oder eine neuere Generation wie ConnectX-4 oder ConnectX-5 voraus, einfache ConnectX-3 können das nicht voll. Zu beachten ist außerdem, dass 56GbE ein Mellanox-eigenes Tempo ist und nur im reinen Mellanox-Verbund läuft; gegenüber Fremd-Switches fällt die Verbindung auf 40 GbE zurück. FDR-InfiniBand mit 56 Gbit/s ist davon zu unterscheiden. Wir prüfen Generation, Firmware, RoCE-Fähigkeit, End-of-Life und Verkabelung, bevor wir refurbished empfehlen.
Nein. RoCEv2 kann Latenz reduzieren und CPU entlasten, benötigt aber saubere PFC-/ECN-Konfiguration, passende Switches, NICs und Betriebserfahrung. Für viele iSCSI- oder NVMe/TCP-Setups ist ein gutes Ethernet-Design einfacher und robuster.
Im laufenden Datentransfer ja. RDMA verlagert die Transportverarbeitung in die Netzwerkkarte und überträgt direkt zwischen den Arbeitsspeichern beider Systeme, ohne TCP/IP-Stack, ohne Kernel-Eingriff und ohne CPU-Zyklen pro Paket; nur Verbindungsaufbau und Speicherregistrierung laufen einmalig über die CPU. In Hersteller-Benchmarks für NVMe-oF über RoCE sinkt die CPU-Last auf dem Storage-Server gegenüber iSCSI um grob 30 bis 45 Prozent, Microsoft nennt geringeren CPU-Verbrauch ausdrücklich als Vorteil von SMB Direct. Das bedeutet weniger CPU-Last bei gleichem Durchsatz oder mehr Durchsatz pro Kern; wo Software pro Kern lizenziert wird, etwa bei Datenbanken, wirkt das direkt auf die Kosten. Voraussetzung bleibt ein verlustfreies Fabric mit PFC und ECN. Wo das nicht gewünscht ist, ist iWARP über normales TCP eine einfachere, aber langsamere Alternative.
Ceph unterscheidet typischerweise Client/Public-Traffic und Cluster-/Replikationsverkehr. Je nach Größe und Last trennen wir diese Pfade logisch oder physisch, damit Rebalancing, Recovery oder Backfill nicht die VM- oder Client-Performance unkontrolliert beeinflussen.
Das hängt von Betrieb, Support, Budget und vorhandenen Standards ab. Wir betrachten unter anderem Cisco, Arista, HPE, H3C, Huawei, NVIDIA Networking, Dell und Edgecore sowie Open-Networking-Optionen wie das quelloffene SONiC oder das kommerzielle OcNOS, wenn das Betriebsteam dazu passt.
SONiC (Software for Open Networking in the Cloud) ist ein quelloffenes, Linux- und Debian-basiertes Netzwerk-Betriebssystem, bei dem jede Funktion als Container läuft. Über das Switch Abstraction Interface (SAI) arbeitet SONiC hardwareunabhängig auf Switches verschiedener Hersteller und ASICs: Hardware und Betriebssystem sind entkoppelt, kein Lock-in auf ein herstellereigenes NOS. Ursprünglich von Microsoft für Azure entwickelt, liegt SONiC seit 2022 bei der Linux Foundation; zum Ökosystem gehören unter anderem Microsoft, Google, Broadcom, NVIDIA, Dell, Arista und Cisco. Es läuft auf Whitebox- und Markenhardware von Edgecore, Dell oder NVIDIA auf Silizium von Broadcom, Marvell und NVIDIA. Die Stärken liegen genau dort, wo Datacenter-Fabrics sie brauchen: Spine-Leaf, BGP, ECMP, VXLAN/EVPN und hohe Portgeschwindigkeiten. OcNOS (IP Infusion) ist eine kommerzielle NOS-Alternative für offene, disaggregierte Hardware. Der Betrieb lebt von Automatisierung, etwa mit Ansible. Open Networking lohnt sich dann, wenn Sie eine herstellerunabhängige Fabric einheitlich automatisieren wollen und das Betriebsmodell dazu passt. Wir planen, integrieren und betreiben solche Setups, statt das Thema nur als Schlagwort zu führen.
Der nächste Schritt
Wir bewerten Hosts, Storage, Switches, Protokolle, Kabelwege und Betrieb und entwickeln daraus ein Netzdesign, das Performance und Kosten zusammenbringt.