Водич за ХДФС: Увод у ХДФС и његове карактеристике



Овај блог водича за ХДФС помоћи ће вам да разумете ХДФС или Хадооп дистрибуирани систем датотека и његове карактеристике. Такође ћете укратко истражити његове кључне компоненте.

Водич за ХДФС

Пре него што кренемо даље у овом блогу водича за ХДФС, допустићу вам да вас прођем кроз неке сулуде статистике повезане са ХДФС-ом:

  • У 2010. години, Фејсбук тврдио да има један од највећих ХДФС кластера који складишти 21 петабајт података.
  • У 2012. години, Фејсбук изјавили да имају највећи појединачни ХДФС кластер са више од 100 ПБ података .
  • И Иахоо ! има више од 100.000 ЦПУ у преко 40.000 сервера покреће Хадооп, са својим највећим Хадооп кластером 4.500 чворова . Све речено, Иахоо! продавнице 455 петабајта података у ХДФС-у.
  • У ствари, до 2013. године, већина великих имена из Фортуне 50 почела су да користе Хадооп.

Претешко за варење? Јел тако. Као што је разматрано у , Хадооп има две основне јединице - С. тораге и Обрада . Када кажем део за складиштење Хадооп-а, мислим на ХДФС што стоји Дистрибуирани систем датотека Хадооп . Дакле, на овом блогу ћу вас упознати са ХДФС .





Овде ћу говорити о:

  • Шта је ХДФС?
  • Предности ХДФС-а
  • Карактеристике ХДФС-а

Пре него што причамо о ХДФС-у, рећи ћу вам шта је дистрибуирани систем датотека?



ДФС или дистрибуирани систем датотека:

Дистрибуирани систем датотека говори о управљање подаци , тј. датотеке или фасцикле на више рачунара или сервера. Другим речима, ДФС је систем датотека који нам омогућава складиштење података преко више чворова или машина у кластеру и омогућава више корисника да приступе подацима. Дакле, у основи има исту сврху као систем датотека који је доступан у вашој машини, на пример за Виндовс који имате НТФС (систем нових датотека) или за Мац који имате ХФС (хијерархијски систем датотека). Једина разлика је у томе што, у случају Дистрибуираног система датотека, податке складиштите на више машина, а не на једној машини. Иако су датотеке ускладиштене широм мреже, ДФС организује и приказује податке на такав начин да ће се корисник који седи на машини осећати као да су сви подаци ускладиштени на тој машини.

Шта је ХДФС?

Дистрибуирани систем датотека Хадооп или ХДФС је дистрибуирани систем датотека заснован на Јави који вам омогућава складиштење великих података у више чворова у Хадооп кластеру. Дакле, ако инсталирате Хадооп, добићете ХДФС као основни систем за складиштење података за складиштење података у дистрибуираном окружењу.

Узмимо пример да бисмо то разумели. Замислите да на свакој машини имате десет машина или десет рачунара са чврстим диском од 1 ТБ. Сада ХДФС каже да ако инсталирате Хадооп као платформу на врху ових десет машина, добићете ХДФС као услугу складиштења. Дистрибуирани систем датотека Хадооп дистрибуира се на такав начин да свака машина доприноси свом појединачном складишту за чување било које врсте података.



Водич за ХДФС: Предности ХДФС-а

1. Дистрибуирано складиште:

Дистрибуирано складиште - Водич за ХДФС - Едурека

Када приступите систему дистрибуираних датотека Хадооп са било које од десет машина у Хадооп кластеру, осећаћете се као да сте пријављени у једну велику машину која има капацитет складиштења од 10 ТБ (укупно складиште преко десет машина). Шта то значи? То значи да можете сачувати једну велику датотеку од 10 ТБ која ће бити дистрибуирана на десет машина (по 1 ТБ).Дакле то је не ограничавајући се на физичке границе сваке појединачне машине.

2. Дистрибуирано и паралелно рачунање:

Будући да су подаци подељени по машинама, то нам омогућава да то искористимо Дистрибуирано и паралелно рачунање . Да разумемо овај концепт на горенаведеном примеру. Претпоставимо да је потребно 43 минута за обраду датотеке од 1 ТБ на једној машини. Дакле, сада ми реците, колико времена ће бити потребно за обраду исте датотеке од 1 ТБ када имате 10 машина у Хадооп кластеру са сличном конфигурацијом - 43 минута или 4,3 минута? 4,3 минута, тачно! Шта се овде десило? Сваки од чворова паралелно ради са делом датотеке од 1 ТБ. Према томе, посао који је трајао 43 минута пре, завршава се за само 4,3 минута, пошто се посао поделио на десет машина.

3. Хоризонтална скалабилност:

Последње, али не најмање важно, разговарајмо о хоризонтално скалирање или скалирање у Хадооп-у. Постоје две врсте скалирања: вертикала и хоризонтални . Вертикалним скалирањем (увећавањем) повећавате хардверски капацитет вашег система. Другим речима, набављате више РАМ-а или ЦПУ-а и додајете га постојећем систему како бисте га учинили робуснијим и моћнијим. Али постоје изазови повезани са вертикалним скалирањем или скалирањем:

  • Увек постоји ограничење на које можете повећати свој хардверски капацитет. Дакле, не можете стално повећавати РАМ или ЦПУ машине.
  • Код вертикалног скалирања прво зауставите машину. Затим повећавате РАМ или ЦПУ како бисте га учинили робуснијим хардверским стогом. Након што повећате свој хардверски капацитет, поново покрећете машину. Ово време када заустављате систем постаје изазов.

У случају хоризонтално скалирање (умањивање) , додате више чворова постојећем кластеру уместо да повећате хардверски капацитет појединачних машина. И што је најважније, можете додајте још машина у покрету тј. Без заустављања система . Стога, док скалирамо, немамо ни време ни зелену зону, ништа такво. На крају, имаћете више машина које паралелно раде како би задовољиле ваше захтеве.

шта је __инит__ у питхон-у

ХДФС Водич за видео:

Можете погледати видео у наставку у коме су детаљно размотрени сви концепти повезани са ХДФС-ом:

ХДФС Водич: Карактеристике ХДФС-а

Ове функције ћемо детаљно разумети када истражимо ХДФС архитектуру у следећем блогу водича за ХДФС. Али, за сада, имајмо преглед карактеристика ХДФС-а:

  • Цена: ХДФС је генерално распоређен на робном хардверу попут вашег стоног рачунара / лаптопа који свакодневно користите. Дакле, врло је економичан у погледу трошкова власништва над пројектом. С обзиром на то да користимо јефтини робни хардвер, не треба да трошите огромну количину новца за скалирање вашег Хадооп кластера. Другим речима, додавање више чворова у ваш ХДФС је исплативо.
  • Разноликост и обим података: Када говоримо о ХДФС-у, онда говоримо о складиштењу огромних података, тј. Терабајта и петабајта података и различитих врста података. Дакле, у ХДФС можете похранити било коју врсту података, било да су структурирани, неструктурирани или полуструктурирани.
  • Поузданост и толеранција на грешке: Када складиштите податке на ХДФС-у, он интерно дели дате податке у блокове података и складишти их на дистрибуирани начин кроз ваш Хадооп кластер. Информације о томе који се блок података налази на којем од чворова података бележе се у метаподацима. НамеНоде управља мета подацима и ДатаНодес одговорни су за чување података.
    Чвор имена такође реплицира податке, тј. Одржава више копија података. Ова репликација података чини ХДФС врло поузданим и отпорним на кварове. Дакле, чак и ако било који од чворова не успе, можемо да преузмемо податке из реплика које се налазе на другим чворовима података. Фактор репликације је подразумевано 3. Према томе, ако 1 ГБ датотеке сачувате у ХДФС-у, коначно ће заузети 3 ГБ простора. Чвор имена повремено ажурира метаподатке и одржава фактор репликације доследним.
  • Интегритет података: Интегритет података говори о томе да ли су подаци ускладиштени у мом ХДФС-у тачни или не. ХДФС непрестано проверава интегритет података ускладиштених према својој контролној суми. Ако пронађе било какву грешку, о томе извештава чвор имена. Затим, чвор имена креира додатне нове реплике и стога брише оштећене копије.
  • Велика пропусност: Пропусност је количина посла обављеног у јединици времена. Говори о томе колико брзо можете приступити подацима из система датотека. У основи, даје вам увид у перформансе система. Као што сте видели у горњем примеру, где смо заједно користили десет машина за побољшање рачунања. Тамо смо успели да смањимо време обраде од 43 минута до пуког 4.3 минута пошто су све машине радиле паралелно. Стога смо паралелном обрадом података изузетно смањили време обраде и тако постигли велику пропусност.
  • Локација података: Локалитет података говори о премештању процесне јединице на податке, а не на обраду јединице. У нашем традиционалном систему користили смо да податке доводимо у слој апликације, а затим их обрађујемо. Али сада, због архитектуре и огромног обима података, довођење података на слој апликације хоћесмањити перформансе мреже у приметној мери.Дакле, у ХДФС-у преносимо рачунски део у чворове података у којима се подаци налазе. Дакле, не премештате податке, већ преносите програм или процесдео дела података.

Дакле, сада имате кратку идеју о ХДФС-у и његовим карактеристикама. Али верујте ми, момци, ово је само врх леденог брега. У мом следећем , Дубоко ћу заронити у ХДФС архитектура и открићу тајне успеха ХДФС-а. Заједно ћемо одговорити на сва она питања која се размишљају у вашој глави, као што су:

  • Шта се дешава иза кулиса када читате или пишете податке у дистрибутивном систему датотека Хадооп?
  • Који су алгоритми попут свести о рацку који чини ХДФС тако отпорним на кварове?
  • Како дистрибуирани систем датотека Хадооп управља и ствара реплике?
  • Шта су блок операције?

Сада када сте разумели ХДФС и његове карактеристике, погледајте Едурека, поуздана компанија за учење на мрежи са мрежом од више од 250 000 задовољних ученика раширених широм света. Едурека курс за обуку сертификата за велике податке Хадооп помаже ученицима да постану стручњаци за ХДФС, предиво, МапРедуце, ​​свињу, кошницу, ХБасе, Оозие, Флуме и Скооп користећи случајеве коришћења у реалном времену на малопродаји, друштвеним медијима, ваздухопловству, туризму, домену финансија.

Имате питање за нас? Молимо вас да то споменете у одељку за коментаре и јавићемо вам се.