Оператери у свињи Апацхе: Део 1- Релациони оператери



Овај пост описује операторе у Апацхе Пиг-у. Погледајте овај пост за Оператори у Апацхе Пиг: 1. део - Релациони оператери.

Овај пост говори о оператерима у Апацхе Пиг-у.Апацхе Пиг вам такође омогућава да напишете сложене трансформације података без знања Јава, што га чини заиста важним за .Хајде да на брзину погледамо шта су свиња и свиња латиница и различити начини у којима се њима може управљати, пре него што кренемо према оператерима.

Шта је Апацхе Пиг?

Апацхе Пиг је процедурални језик на високом нивоу за испитивање великих скупова података помоћу Хадооп-а и Мап Редуце Платформ. То је Јава пакет, где се скрипте могу извршавати из било које имплементације језика која се изводи на ЈВМ-у. Ово се у великој мери користи у итеративним процесима.





Апацхе Пиг поједностављује употребу Хадооп-а омогућавајући СКЛ-сличне упите дистрибуираном скупу података и омогућава стварање сложених задатака за брзу и ефикасну обраду великих количина података. Најбоља карактеристика Пиг-а је та што подржава многе релацијске функције попут Придруживања, Груписања и Збрајања.

Знам да Свиња звучи много више као ЕТЛ алат и има многе карактеристике заједничке ЕТЛ алатима. Али предност Пиг-а над ЕТЛ алатима је у томе што може истовремено да ради на многим серверима.



Шта је Апацхе Пиг Латин?

Апацхе Пиг креира једноставнију процедуралну апстракцију језика преко Мап Редуцеа како би изложио интерфејс сличан структурираном језику упита (СКЛ) за Хадооп апликације под називом Апацхе Пиг Латин, па уместо да пишете посебну апликацију Мап Редуце, ​​можете да напишете једну скрипту у Апацхе Свињска латиница која се аутоматски паралелизује и распоређује по грозду. Једноставним речима, свињска латиница је низ једноставних изјава који узимају улаз и дају излаз. Улазни и излазни подаци састоје се од врећа, мапа, корпи и скалара.

Начини извршавања свиња Апацхе:

Апацхе Пиг има два начина извршавања:

  • Локални начин рада

У „Локалном режиму“ изворни подаци би се бирали из локалног директоријума у ​​рачунарском систему. Режим МапРедуце може се навести помоћу команде ‘пиг –к лоцал’.



Оператери у Апацхе Пиг - 1

  • МапРедуце Моде:

Да бисте покренули Пиг у режиму МапРедуце, ​​потребан вам је приступ кластеру Хадооп и инсталацији ХДФС-а. Режим МапРедуце може се одредити помоћу команде ‘пиг’.

Апацхе свињски оператери:

Апацхе Пиг Операторс је процедурални језик на високом нивоу за упите великих скупова података користећи Хадооп и Мап Редуце Платформ. Изјава свињска латиница је оператор који узима релацију као улаз и производи другу релацију као излаз. Ови оператери су главни алати које Пиг Латин пружа за рад на подацима. Омогућавају вам да га трансформишете сортирањем, груписањем, спајањем, пројектовањем и филтрирањем.

Направимо две датотеке за покретање наредби:

Имамо две датотеке са именом „прва“ и „друга“. Прва датотека садржи три поља: корисник, урл и ид.

Друга датотека садржи два поља: урл и рејтинг. Ове две датотеке су ЦСВ датотеке.

Оператори Апацхе Пиг могу се класификовати као: Релациони и дијагностички.

Релациони оператери:

Релациони оператери су главни алати које Пиг Латин пружа за рад на подацима. Омогућава вам трансформацију података сортирањем, груписањем, спајањем, пројектовањем и филтрирањем. Овај одељак покрива основне релационе операторе.

ЛОАД:

Оператор ЛОАД се користи за учитавање података из система датотека или ХДФС меморије у везу свиња.

У овом примеру, оператор учитавања учитава податке из датотеке „први“ да би створио релацију „учитавање1“. Имена поља су усер, урл, ид.

ЗА СВАКИ:

Овај оператор генерише трансформације података на основу колона података. Користи се за додавање или уклањање поља из релације. Користите операцију ФОРЕАЦХ-ГЕНЕРАТЕ за рад са колонама података.

ФОРЕАЦХ резултат:

ФИЛТЕР:

Овај оператор бира корпе из релације на основу услова.

принт_р у пхп-у

У овом примеру, филтрирамо запис из „учитавања1“ када је услов „ид“ већи од 8.

ФИЛТЕР Резултат:

ПРИДРУЖИТИ:

ЈОИН оператор се користи за извођење унутрашњег, изједначеног спајања две или више релација на основу заједничких вредности поља. Оператор ЈОИН увек изводи унутрашње спајање. Унутрашња спајања занемарују нулл кључеве, па их има смисла филтрирати пре спајања.

У овом примеру, придружите две релације на основу колоне „урл“ из „лоадинг1“ и „лоадинг2“.

Придружите се резултату:

НАРУЧИ ПО:

Ордер Би се користи за сортирање релације на основу једног или више поља. Сортирање можете да извршите у растућем или силазном редоследу помоћу АСЦ и ДЕСЦ кључних речи.

У доњем примеру сортирамо податке у лоадинг2 у растућем редоследу на пољу оцена.

НАРУЧИ ПО РЕЗУЛТАТУ :

ДИСТИНЦТ:

Дистинцт уклања дуплиране корпице у релацији. Узмимо улазну датотеку као испод, која има амр, срање, 8 и амр, миблог, 10 два пута у досијеу. Када на податке из ове датотеке применимо различите, дуплицирани уноси се уклањају.

ДИСТИНЦТ Резултат:

ПРОДАВНИЦА:

Сторе се користи за спремање резултата у систем датотека.

Овде штедимо лоадинг3 податке у датотеку са именом чување на ХДФС-у.

РЕЗУЛТАТ ТРГОВИНЕ:

ГРУПА:

Оператор ГРОУП групише корпе са истим кључем групе (поље кључа). Поље кључа биће корпус ако кључ групе има више од једног поља, иначе ће бити истог типа као кључ групе. Резултат операције ГРОУП је релација која укључује један коријен по групи.

У овом примеру, група тх

е релација „учитавање1“ према урл-у колоне.

Резултат групе:

ЦОГРОУП:

ЦОГРОУП је исто што и оператер ГРОУП. Ради читљивости програмери обично користе ГРОУП када је укључена само једна релација и ЦОГРОУП када је укључено вишеструке релације.

У овом примеру груписите поља „лоадинг1“ и „лоадинг2“ по урл-у у обе релације.

ЦОГРОУП Резултат:

КРСТ:

Оператор ЦРОСС се користи за израчунавање унакрсног производа (картезијански производ) два или више односа.

Примена унакрсног производа на утовар1 и утовар2.

ЦРОСС резултат:

ОГРАНИЧЕЊЕ:

Оператор ЛИМИТ се користи за ограничавање броја излазних корпица. Ако је наведени број излазних корпица једнак или већи од броја корпица у релацији, излаз ће обухватити све корпе у релацији.

Резултат:

РАЗДЕЛИТИ:

СПЛИТ оператор се користи за поделу садржаја релације на две или више релација на основу неког израза. У зависности од услова наведених у изразу.

Подијелите утовар2 на два односа к и и. к релација створена учитавањем2 садржи поља за која је оцена већа од 8, а и релација садрже поља чија је оцена мања или једнака 8.

Имате питање за нас? Молимо вас да их наведете у одељку за коментаре и јавићемо вам се.

Повезани постови:

Оператори у Апацхе Пиг - дијагностички оператори

Кораци за стварање УДФ-а у Апацхе Пиг-у

јава код за повезивање на мискл