Један од највећих разлога зашто је популарност Хадоопа у последње време нагло порасла је чињеница да се на њему налазе функције попут Пиг и Хиве, омогућавајући не-програмерима функционалност која је раније била ексклузивна за Јава програмере. Ове карактеристике биле су последица све веће потражње за Хадооп професионалцима. Остале функције које користе Хадооп професионалци из не-Јава позадина су Флуме, Скооп, ХБасе и Оозие.
Да бисте разумели зашто вам Јава није потребна да бисте научили Хадооп, погледајте овај блог .
Хајде да разумемо како ове функције функционишу.
Сви знамо да је знање програмирања неопходно за писање МапРедуце кодова. Али шта ако имам алат који може извршити кодирање ако бих само пружио детаље? Ту Свиња показује своју снагу мишића. Пиг користи платформу која се зове Пиг Латин која апстрахује програмирање из идиома Јава МапРедуце у запис који чини МапРедуце програмирање на високом нивоу, слично оном у СКЛ-у за РДБМС системе. Кодови написани свињским латиничним МапРедуце аутоматски се претварају у еквивалентне МапРедуце функције. Зар то није страшно? Још једна несвакидашња чињеница је да је за замену 200 линија Јаве потребно само 10 свињских линија.
10 редова свиња = 200 редова Јава
То не само да значи да професионалци који нису Јава користе Хадооп, већ сведочи и о чињеници да Пиг користи једнак број техничких програмера.
Поред тога, ако желите да напишете свој МапРедуце код, то можете да урадите на било ком од језика као што су Перл, Питхон, Руби или Ц. Неке основне операције које можемо извршити на било којем скупу података користећи Пиг су Гроуп, Јоин, Филтер и Сорт . Ове операције се могу изводити на структурираним, неструктурираним и такође полуструктурираним подацима. Они пружају ад хоц начин за стварање и извршавање МапРедуце послова на врло великим скуповима података.
Следеће, хајде да разумемо Хиве. То је отворени извор, петабајтни оквир за складиштење података, заснован на Хадооп-у, за сумирање података, упите и анализу. Хиве пружа интерфејс налик СКЛ-у за Хадооп. Можете користити Хиве за читање и писање датотека на Хадооп-у и покретање извештаја из БИ алата. Неке типичне функционалности Хадооп-а су:
Дозволите ми да вам покажем демонстрацију помоћу скупа података Пиг он Цлицкстреам
Користићемо ове податке о току токова и извршићемо трансформације, спајања и групирања.
ЦлицкСтреам је низ кликова мишем које је корисник извршио током приступа Интернету, посебно надгледан како би проценио интересе неке особе у маркетиншке сврхе. Углавном га користе веб локације на мрежи као што су Флипкарт и Амазон које прате ваше активности да би генерисале препоруке. Скуп података Цлицкстреам који смо користили садржи следећа поља:
1. Тип језика који подржава веб апликација
2. Тип прегледача
3. Тип везе
4. ИД државе
5. Временски жиг
6. УРЛ
7. Кориснички статус
8. Тип корисника
Изгледаће овако са одговарајућим пољима.
Испод је листа типова прегледача које су разни људи користили приликом сурфовања на одређеној веб локацији. Међу њима су и прегледачи попут Интернет Екплорер-а, Гоогле Цхроме-а, Линк-а и тако даље.
Тип Интернет везе може бити Лан / Модем / Вифи. Комплетну листу погледајте на слици испод:
На следећој слици наћи ћете листу земаља из којих је веб локација привукла публику заједно са њиховим личним картама.
Једном када прикупимо све скупове података, морамо да покренемо Пиг'с Грунт љуску која се покреће како би се извршиле Пиг наредбе.
Прва ствар коју морамо да урадимо при покретању Грунт шкољке је учитавање података Цлицкстреам у Пиг-ову везу. Веза није ништа друго него табела. Испод је наредба коју користимо за учитавање датотеке која се налази у ХДФС-у на свињску везу.
Шему релације можемо верификовати наредбом десцрип цлицк_стреам.
Сада треба да додамо референтне датотеке које ће садржати детаље о листи земаља са њиховим ИД-овима и различитим типовима прегледача заједно са њиховим ИД-овима.
везани код листе у ц
Сада имамо две референтне датотеке, али их треба повезати да би се створила релација.
Покрећемо наредбу цоннецтион_реф да назначимо тип везе.
Сада када имамо радну везу и успостављену везу, показаћемо вам како можемо да трансформишемо те податке.
За сваки запис у Цлицкстреам-у генерисаћемо нови запис у другом формату, тј. Трансформисане податке. Нови формат ће садржати поља попут ТимеСтамп, тип прегледача, ИД-ове земаља и још неколико.
Можемо извршити операцију филтрирања да бисмо смањили велике податке. Различити типови корисника су администратори, гости или ботови. У нашој демонстрацији сам филтрирао листу гостију.
Ако се сећате, ИД државе је присутан у Цлицкстреам-у и учитали смо датотеку цоунтри_реф која садржи имена земаља заједно са њеним ИД-овима. Тако можемо извршити операцију придруживања између две датотеке и објединити податке да бисмо добили увиде.
Ако смо се придружили подацима, онда можемо групирањем утврдити различите земље из којих су корисници. Када добијемо ове податке, можемо извршити операцију бројања да бисмо идентификовали број корисника из одређене земље.
Није ракетна наука извлачење увида из великих података. Ово су само неке од многих карактеристика које сам имплементирао, а са алатима попут Хиве, Хбасе, Оозие, Скооп и Флуме постоји богатство података које тек треба истражити. Дакле, онима који се коче од учења Хадоопа, време је да се промените.
Имате питање за нас? Молимо вас да их наведете у одељку за коментаре и јавићемо вам се.
Повезани постови: