Nie pozwól, aby przechowywanie stało się kluczowym wąskim gardłem w szkoleniu modeli

Mówi się, że firmy technologiczne albo walczą o procesory graficzne, albo są na dobrej drodze do ich nabycia.W kwietniu dyrektor generalny Tesli, Elon Musk, kupił 10 000 procesorów graficznych i oświadczył, że firma będzie nadal kupować dużą liczbę procesorów graficznych od NVIDII.Po stronie przedsiębiorstwa personel IT również usilnie naciska, aby procesory graficzne były stale wykorzystywane w celu maksymalizacji zwrotu z inwestycji.Jednak niektóre firmy mogą stwierdzić, że wraz ze wzrostem liczby procesorów graficznych bezczynność procesora graficznego staje się bardziej dotkliwa.

Jeśli historia nauczyła nas czegoś o obliczeniach o wysokiej wydajności (HPC), to tego, że pamięci masowej i sieci nie należy poświęcać kosztem nadmiernego skupienia się na obliczeniach.Jeśli pamięć masowa nie może skutecznie przesyłać danych do jednostek obliczeniowych, nawet jeśli masz najwięcej procesorów graficznych na świecie, nie osiągniesz optymalnej wydajności.

Według Mike'a Matchetta, analityka w Small World Big Data, mniejsze modele mogą być wykonywane w pamięci (RAM), co pozwala bardziej skupić się na obliczeniach.Jednak większe modele, takie jak ChatGPT z miliardami węzłów, nie mogą być przechowywane w pamięci ze względu na wysoki koszt.

„Nie można zmieścić miliardów węzłów w pamięci, więc pamięć masowa staje się jeszcze ważniejsza” — mówi Matchett.Niestety przechowywanie danych jest często pomijane podczas procesu planowania.

Ogólnie rzecz biorąc, niezależnie od przypadku użycia, proces uczenia modelu ma cztery wspólne punkty:

1. Szkolenie modelowe
2. Aplikacja wnioskowania
3. Przechowywanie danych
4. Przyspieszone przetwarzanie

Podczas tworzenia i wdrażania modeli większość wymagań traktuje priorytetowo środowiska szybkiej weryfikacji koncepcji (POC) lub środowiska testowe w celu zainicjowania szkolenia modeli, przy czym potrzeby przechowywania danych nie są brane pod uwagę.

Wyzwanie polega jednak na tym, że wdrażanie szkolenia lub wnioskowania może trwać miesiącami, a nawet latami.W tym czasie wiele firm szybko zwiększa rozmiary swoich modeli, a infrastruktura musi się rozszerzać, aby pomieścić rosnące modele i zbiory danych.

Badania Google dotyczące milionów obciążeń szkoleniowych ML pokazują, że średnio 30% czasu szkolenia jest poświęcane na potok danych wejściowych.Podczas gdy wcześniejsze badania koncentrowały się na optymalizacji procesorów graficznych w celu przyspieszenia szkolenia, nadal pozostaje wiele wyzwań związanych z optymalizacją różnych części potoku danych.Kiedy masz znaczną moc obliczeniową, prawdziwym wąskim gardłem staje się szybkość wprowadzania danych do obliczeń w celu uzyskania wyników.

W szczególności wyzwania związane z przechowywaniem i zarządzaniem danymi wymagają planowania wzrostu ilości danych, umożliwiającego ciągłe wydobywanie wartości danych w miarę postępów, szczególnie w przypadku bardziej zaawansowanych zastosowań, takich jak głębokie uczenie się i sieci neuronowe, które stawiają większe wymagania pod względem pojemności, wydajności i skalowalności.

W szczególności:

Skalowalność
Uczenie maszynowe wymaga obsługi ogromnych ilości danych, a wraz ze wzrostem ilości danych poprawia się również dokładność modeli.Oznacza to, że firmy muszą codziennie gromadzić i przechowywać coraz więcej danych.Gdy pamięć masowa nie może być skalowana, obciążenia intensywnie korzystające z danych tworzą wąskie gardła, ograniczając wydajność i skutkując kosztownym czasem bezczynności procesora graficznego.

Elastyczność
Elastyczna obsługa wielu protokołów (w tym NFS, SMB, HTTP, FTP, HDFS i S3) jest niezbędna do zaspokojenia potrzeb różnych systemów, a nie ograniczania się do jednego typu środowiska.

Czas oczekiwania
Opóźnienia wejścia/wyjścia mają kluczowe znaczenie dla budowania i używania modeli, ponieważ dane są wielokrotnie odczytywane i ponownie odczytywane.Zmniejszenie opóźnień we/wy może skrócić czas uczenia modeli o dni lub miesiące.Szybszy rozwój modelu bezpośrednio przekłada się na większe korzyści biznesowe.

Wydajność
Przepustowość systemów pamięci masowej ma kluczowe znaczenie dla wydajnego szkolenia modeli.Procesy szkoleniowe obejmują duże ilości danych, zwykle w terabajtach na godzinę.

Dostęp równoległy
Aby osiągnąć wysoką przepustowość, modele szkoleniowe dzielą działania na wiele równoległych zadań.Często oznacza to, że algorytmy uczenia maszynowego uzyskują jednocześnie dostęp do tych samych plików z wielu procesów (potencjalnie na wielu serwerach fizycznych).System pamięci masowej musi obsługiwać równoczesne wymagania bez uszczerbku dla wydajności.

Dzięki wyjątkowym możliwościom w zakresie małych opóźnień, wysokiej przepustowości i równoległych operacji we/wy na dużą skalę, Dell PowerScale jest idealnym uzupełnieniem pamięci masowej do obliczeń z akceleracją GPU.PowerScale skutecznie skraca czas potrzebny na modele analityczne, które uczą i testują zestawy danych o wielkości wielu terabajtów.W pamięci masowej PowerScale all-flash przepustowość zwiększa się 18-krotnie, eliminując wąskie gardła we/wy i można ją dodać do istniejących klastrów Isilon, aby przyspieszyć i uwolnić wartość dużych ilości nieustrukturyzowanych danych.

Ponadto wieloprotokołowe możliwości dostępu PowerScale zapewniają nieograniczoną elastyczność uruchamiania obciążeń, umożliwiając przechowywanie danych przy użyciu jednego protokołu i uzyskiwanie do nich dostępu przy użyciu innego.W szczególności zaawansowane funkcje, elastyczność, skalowalność i funkcjonalność klasy korporacyjnej platformy PowerScale pomagają sprostać następującym wyzwaniom:

- Przyspiesz innowacje nawet 2,7 razy, skracając cykl szkolenia modeli.

- Wyeliminuj wąskie gardła we/wy i zapewnij szybsze szkolenie i weryfikację modeli, lepszą dokładność modelu, zwiększoną produktywność analizy danych i maksymalizację zwrotu z inwestycji w przetwarzanie danych dzięki wykorzystaniu funkcji klasy korporacyjnej, wysokiej wydajności, współbieżności i skalowalności.Zwiększ dokładność modelu dzięki głębszym zestawom danych o wyższej rozdzielczości, wykorzystując do 119 PB efektywnej pojemności pamięci masowej w jednym klastrze.

- Osiągnij wdrożenie na dużą skalę, rozpoczynając od niewielkich i niezależnie skalujących się mocy obliczeniowych i pamięci masowej, zapewniając solidną ochronę danych i opcje zabezpieczeń.

- Zwiększ produktywność analityki danych dzięki analizom na miejscu i wstępnie zatwierdzonym rozwiązaniom w celu szybszych wdrożeń o niskim ryzyku.

- Wykorzystanie sprawdzonych projektów opartych na najlepszych w swojej klasie technologiach, w tym akceleracji GPU NVIDIA i architekturach referencyjnych z systemami NVIDIA DGX.Wysoka wydajność i współbieżność rozwiązania PowerScale spełnia wymagania dotyczące wydajności pamięci masowej na każdym etapie uczenia maszynowego, od pozyskiwania i przygotowania danych po szkolenie modeli i wnioskowanie.Wraz z systemem operacyjnym OneFS wszystkie węzły mogą bezproblemowo działać w ramach tego samego klastra opartego na OneFS, z funkcjami na poziomie przedsiębiorstwa, takimi jak zarządzanie wydajnością, zarządzanie danymi, bezpieczeństwo i ochrona danych, umożliwiając firmom szybsze ukończenie szkolenia i walidacji modeli.


Czas postu: lipiec-03-2023