Nie pozwól, aby przechowywanie stało się kluczowym wąskim gardłem w szkoleniu modelek

Mówi się, że firmy technologiczne albo szukają procesorów graficznych, albo są na dobrej drodze do ich nabycia. W kwietniu dyrektor generalny Tesli, Elon Musk, zakupił 10 000 procesorów graficznych i oświadczył, że firma będzie nadal kupować duże ilości procesorów graficznych od firmy NVIDIA. Po stronie przedsiębiorstwa personel IT również dokłada wszelkich starań, aby zapewnić ciągłe wykorzystanie procesorów graficznych w celu maksymalizacji zwrotu z inwestycji. Jednak w przypadku niektórych firm może się okazać, że wraz ze wzrostem liczby procesorów graficznych bezczynność procesora graficznego staje się poważniejsza.

Jeśli historia nauczyła nas czegokolwiek na temat obliczeń o wysokiej wydajności (HPC), to tego, że nie należy poświęcać pamięci masowej i sieci kosztem nadmiernego skupiania się na obliczeniach. Jeśli pamięć masowa nie może efektywnie przesyłać danych do jednostek obliczeniowych, nawet jeśli masz najwięcej procesorów graficznych na świecie, nie osiągniesz optymalnej wydajności.

Według Mike'a Matchetta, analityka w Small World Big Data, mniejsze modele można wykonywać w pamięci (RAM), co pozwala na większe skupienie się na obliczeniach. Jednak większych modeli, takich jak ChatGPT z miliardami węzłów, nie można przechowywać w pamięci ze względu na wysoki koszt.

„W pamięci nie można zmieścić miliardów węzłów, dlatego pamięć masowa staje się jeszcze ważniejsza” – mówi Matchett. Niestety, w procesie planowania często pomija się kwestię przechowywania danych.

Ogólnie rzecz biorąc, niezależnie od przypadku użycia, istnieją cztery wspólne punkty w procesie uczenia modelu:

1. Trening modelowy
2. Aplikacja wnioskowania
3. Przechowywanie danych
4. Przyspieszone przetwarzanie

Podczas tworzenia i wdrażania modeli większość wymagań nadaje priorytet szybkiej weryfikacji koncepcji (POC) lub środowiskom testowym w celu zainicjowania uczenia modeli, przy czym potrzeby przechowywania danych nie są brane pod uwagę.

Wyzwanie polega jednak na tym, że wdrożenie szkolenia lub wnioskowania może trwać miesiącami, a nawet latami. W tym czasie wiele firm szybko zwiększa rozmiary swoich modeli, a infrastruktura musi się rozwijać, aby pomieścić rosnące modele i zbiory danych.

Badania Google dotyczące milionów obciążeń szkoleniowych ML pokazują, że średnio 30% czasu szkolenia spędza się na potoku danych wejściowych. Chociaż wcześniejsze badania skupiały się na optymalizacji procesorów graficznych w celu przyspieszenia uczenia, nadal pozostaje wiele wyzwań związanych z optymalizacją różnych części potoku danych. Kiedy dysponujesz znaczną mocą obliczeniową, prawdziwym wąskim gardłem jest szybkość, z jaką możesz wprowadzić dane do obliczeń, aby uzyskać wyniki.

W szczególności wyzwania związane z przechowywaniem danych i zarządzaniem nimi wymagają planowania ich wzrostu, co pozwala na ciągłe wydobywanie wartości danych w miarę postępów, szczególnie w przypadku bardziej zaawansowanych zastosowań, takich jak głębokie uczenie się i sieci neuronowe, które stawiają wyższe wymagania pamięci pod względem pojemności, wydajności i skalowalności.

Zwłaszcza:

Skalowalność
Uczenie maszynowe wymaga obsługi ogromnych ilości danych, a wraz ze wzrostem ich objętości poprawia się również dokładność modeli. Oznacza to, że firmy muszą codziennie gromadzić i przechowywać więcej danych. Gdy pamięć masowa nie może być skalowana, obciążenia wymagające dużej ilości danych tworzą wąskie gardła, ograniczając wydajność i powodując kosztowne przestoje procesora graficznego.

Elastyczność
Elastyczna obsługa wielu protokołów (w tym NFS, SMB, HTTP, FTP, HDFS i S3) jest konieczna, aby zaspokoić potrzeby różnych systemów, a nie ograniczać się do jednego typu środowiska.

Utajenie
Opóźnienie we/wy ma kluczowe znaczenie przy tworzeniu i używaniu modeli, ponieważ dane są odczytywane i ponownie odczytywane wielokrotnie. Zmniejszenie opóźnień we/wy może skrócić czas uczenia modeli o dni lub miesiące. Szybszy rozwój modelu bezpośrednio przekłada się na większe korzyści biznesowe.

Przepustowość
Przepustowość systemów pamięci masowej ma kluczowe znaczenie dla wydajnego uczenia modeli. Procesy szkoleniowe obejmują duże ilości danych, zazwyczaj w terabajtach na godzinę.

Dostęp równoległy
Aby osiągnąć wysoką przepustowość, modele szkoleniowe dzielą działania na wiele równoległych zadań. Często oznacza to, że algorytmy uczenia maszynowego uzyskują dostęp do tych samych plików z wielu procesów (potencjalnie na wielu serwerach fizycznych) jednocześnie. System pamięci masowej musi obsługiwać równoczesne wymagania bez pogarszania wydajności.

Dzięki wyjątkowym możliwościom w zakresie małych opóźnień, dużej przepustowości i równoległych operacji we/wy na dużą skalę Dell PowerScale stanowi idealne uzupełnienie pamięci masowej do obliczeń akcelerowanych przez procesor graficzny. PowerScale skutecznie skraca czas potrzebny na modele analityczne, które szkolą i testują wieloterabajtowe zbiory danych. W pamięci masowej typu all-flash PowerScale przepustowość zwiększa się 18-krotnie, eliminując wąskie gardła we/wy. Można ją dodać do istniejących klastrów Isilon w celu przyspieszenia i odblokowania wartości dużych ilości nieustrukturyzowanych danych.

Co więcej, możliwości dostępu wieloprotokołowego PowerScale zapewniają nieograniczoną elastyczność uruchamiania obciążeń, umożliwiając przechowywanie danych przy użyciu jednego protokołu i dostęp do nich przy użyciu innego. W szczególności zaawansowane funkcje, elastyczność, skalowalność i funkcjonalność klasy korporacyjnej platformy PowerScale pomagają stawić czoła następującym wyzwaniom:

- Przyspiesz innowacje nawet 2,7 razy, skracając cykl szkolenia modeli.

- Wyeliminuj wąskie gardła we/wy i zapewnij szybsze szkolenie i weryfikację modeli, lepszą dokładność modelu, zwiększoną produktywność w zakresie analizy danych i maksymalny zwrot z inwestycji w przetwarzanie danych poprzez wykorzystanie funkcji klasy korporacyjnej, wysokiej wydajności, współbieżności i skalowalności. Zwiększ dokładność modelu dzięki głębszym zbiorom danych o wyższej rozdzielczości, wykorzystując do 119 PB efektywnej pojemności pamięci masowej w jednym klastrze.

— Osiągnij wdrożenie na dużą skalę, rozpoczynając od małych i niezależnie skalowanych mocy obliczeniowych i pamięci masowej, zapewniając niezawodne opcje ochrony i bezpieczeństwa danych.

- Zwiększ produktywność analityki danych dzięki analizie na miejscu i wstępnie zweryfikowanym rozwiązaniom w celu szybszych wdrożeń o niskim ryzyku.

- Wykorzystanie sprawdzonych projektów opartych na najlepszych w swojej klasie technologiach, w tym akceleracji GPU NVIDIA i architekturach referencyjnych z systemami NVIDIA DGX. Wysoka wydajność i współbieżność PowerScale spełniają wymagania dotyczące wydajności pamięci masowej na każdym etapie uczenia maszynowego, od gromadzenia i przygotowania danych po trenowanie modeli i wnioskowanie. Razem z systemem operacyjnym OneFS wszystkie węzły mogą bezproblemowo działać w ramach tego samego klastra opartego na OneFS, z funkcjami na poziomie przedsiębiorstwa, takimi jak zarządzanie wydajnością, zarządzanie danymi, bezpieczeństwo i ochrona danych, umożliwiając szybsze ukończenie szkolenia i walidacji modeli dla firm.


Czas publikacji: 03 lipca 2023 r