Wydajność macierzy dyskowych systemów pamięci masowej w połączeniu z jednym hostem

Ogólnie rzecz biorąc, dyski lub macierze dyskowe mają najlepszą wydajność w scenariuszu połączenia z jednym hostem. Większość systemów operacyjnych opiera się na ekskluzywnych systemach plików, co oznacza, że ​​system plików może być własnością tylko jednego systemu operacyjnego. W rezultacie zarówno system operacyjny, jak i oprogramowanie optymalizują odczyt i zapis danych w systemie pamięci dyskowej w oparciu o jego charakterystykę. Optymalizacja ta ma na celu skrócenie czasu wyszukiwania fizycznego i skrócenie czasu reakcji mechanicznej dysku. Żądania danych z każdego procesu programu są obsługiwane przez system operacyjny, co skutkuje zoptymalizowanymi i uporządkowanymi żądaniami odczytu i zapisu danych na dysku lub macierzy dyskowej. Prowadzi to do najlepszej wydajności systemu pamięci masowej w tej konfiguracji.

W przypadku macierzy dyskowych, mimo że pomiędzy systemem operacyjnym a poszczególnymi dyskami dyskowymi dodawany jest dodatkowy kontroler RAID, obecne kontrolery RAID przede wszystkim zarządzają i weryfikują operacje odporne na awarie dysków. Nie wykonują one scalania, zmiany kolejności ani optymalizacji żądań danych. Kontrolery RAID są projektowane w oparciu o założenie, że żądania danych pochodzą z jednego hosta, już zoptymalizowanego i posortowanego według systemu operacyjnego. Pamięć podręczna kontrolera zapewnia jedynie bezpośrednie i obliczeniowe możliwości buforowania, bez kolejkowania danych w celu optymalizacji. Gdy pamięć podręczna zostanie szybko zapełniona, prędkość natychmiast spada do rzeczywistej prędkości operacji dyskowych.

Podstawową funkcją kontrolera RAID jest tworzenie jednego lub większej liczby dużych, odpornych na błędy dysków z wielu dysków oraz zwiększanie ogólnej szybkości odczytu i zapisu danych przy użyciu funkcji buforowania na każdym dysku. Pamięć podręczna odczytu kontrolerów RAID znacznie zwiększa wydajność odczytu macierzy dyskowej, gdy te same dane są odczytywane w krótkim czasie. Rzeczywista maksymalna prędkość odczytu i zapisu całej macierzy dyskowej jest ograniczona przez najniższą wartość spośród przepustowości kanału hosta, obliczeń weryfikacyjnych procesora kontrolera i możliwości sterowania systemem (silnik RAID), przepustowości kanału dyskowego i wydajności dysku (łączna rzeczywista wydajność wszystkie dyski). Ponadto niedopasowanie podstawy optymalizacji żądań danych systemu operacyjnego i formatu RAID, na przykład rozmiar bloku żądań we/wy niezgodny z rozmiarem segmentu RAID, może znacząco wpłynąć na wydajność macierzy dyskowej.

Różnice w wydajności tradycyjnych macierzy dyskowych systemów pamięci masowej przy dostępie do wielu hostów

W scenariuszach dostępu do wielu hostów wydajność macierzy dyskowych spada w porównaniu z połączeniami z jednym hostem. W małych systemach pamięci masowej z macierzami dyskowymi, które zazwyczaj mają jedną lub nadmiarową parę kontrolerów macierzy dyskowych i ograniczoną liczbę podłączonych dysków, na wydajność wpływają nieuporządkowane przepływy danych z różnych hostów. Prowadzi to do wydłużenia czasu wyszukiwania dysku, wydłużenia czasu wyszukiwania informacji nagłówkowych i końcowych segmentów danych oraz fragmentacji danych w procesach odczytu, scalania, obliczeń weryfikacyjnych i przepisywania. W rezultacie wydajność pamięci maleje w miarę podłączania większej liczby hostów.

W wielkoskalowych systemach pamięci masowej z macierzami dyskowymi spadek wydajności jest inny niż w przypadku małych macierzy dyskowych. Te wielkoskalowe systemy wykorzystują strukturę magistrali lub strukturę przełączania krzyżowego do łączenia wielu podsystemów pamięci masowej (macierzy dyskowych) i zawierają pamięci podręczne o dużej pojemności oraz moduły połączeń hostów (podobne do koncentratorów kanałowych lub przełączników) dla większej liczby hostów w obrębie magistrali lub przełączania struktura. Wydajność w dużej mierze zależy od pamięci podręcznej w aplikacjach do przetwarzania transakcji, ale ma ograniczoną skuteczność w scenariuszach z danymi multimedialnymi. Chociaż wewnętrzne podsystemy macierzy dyskowych w tych wielkoskalowych systemach działają stosunkowo niezależnie, pojedyncza jednostka logiczna jest zbudowana tylko w ramach jednego podsystemu dyskowego. Zatem wydajność pojedynczej jednostki logicznej pozostaje niska.

Podsumowując, w małych macierzach dyskowych wydajność spada z powodu nieuporządkowanych przepływów danych, podczas gdy wielkoskalowe macierze dyskowe z wieloma niezależnymi podsystemami macierzy dyskowych mogą obsługiwać więcej hostów, ale nadal napotykają ograniczenia w zastosowaniach do multimedialnych danych. Z drugiej strony systemy pamięci masowej NAS oparte na tradycyjnej technologii RAID i wykorzystujące protokoły NFS i CIFS do współdzielenia pamięci masowej z użytkownikami zewnętrznymi za pośrednictwem połączeń Ethernet charakteryzują się mniejszym spadkiem wydajności w środowiskach z dostępem do wielu hostów. Systemy pamięci masowej NAS optymalizują transmisję danych przy użyciu wielu równoległych transferów TCP/IP, umożliwiając maksymalną współdzieloną prędkość wynoszącą około 60 MB/s w jednym systemie pamięci masowej NAS. Zastosowanie połączeń Ethernet umożliwia optymalny zapis danych na system dyskowy po zarządzaniu i zmianie kolejności przez system operacyjny lub oprogramowanie do zarządzania danymi w cienkim serwerze. Dlatego sam system dyskowy nie ulega znacznemu pogorszeniu wydajności, dzięki czemu pamięć NAS nadaje się do zastosowań wymagających udostępniania danych.


Czas publikacji: 17 lipca 2023 r