Данас је најпопуларнији термин у ИТ свету „Хадооп“. У кратком временском распону, Хадооп је масовно порастао и показао се корисним за велику колекцију различитих пројеката. Хадооп заједница се брзо развија и има истакнуту улогу у свом еко-систему.
Ево прегледа основних Хадооп алата који се користе за руковање великим подацима.
је постдипломски мастер
Амбари је Апацхе пројекат који подржава Хортонворкс. Нуди веб заснован ГУИ (графички кориснички интерфејс) са чаробњачким скриптама за подешавање кластера са већином стандардних компоненти. Амбари обезбеђује, управља и надгледа све кластере Хадооп послова.
Тхе ХДФС , дистрибуиран под Апацхе лиценцом нуди основни оквир за поделу збирки података између више чворова. У ХДФС-у су велике датотеке разбијене у блокове, где неколико чворова држи све блокове из датотеке. Систем датотека је дизајниран на начин да меша толеранцију на кварове са великом пропусношћу. Блокови ХДФС-а су учитани да би се одржао сталан пренос. Обично се не кеширају како би се смањила кашњења.
ХБасе је систем управљања базама података оријентисан на колону који се покреће на врху ХДФС-а. ХБасе апликације су написане на Јави, слично као и апликација МапРедуце. Садржи скуп табела, где свака табела садржи редове и колоне попут традиционалне базе података. Када подаци падну у велику табелу, ХБасе ће их сачувати, претраживати и аутоматски делити табелу на више чворова како би их МапРедуце послови могли локално покретати. ХБасе нуди ограничену гаранцију за неке локалне промене. Промене које се дешавају у једном реду могу истовремено успети или пропасти.
Ако већ течно говорите са СКЛ-ом, можете искористити Хадооп користећи Кошница . Хиве су развили неки људи на Фацебоок-у. Апацхе Хиве регулише поступак издвајања битова из свих датотека у ХБасе-и. Подржава анализу великих скупова података ускладиштених у Хадооп-овом ХДФС-у и компатибилним системима датотека. Такође пружа СКЛ језик попут ХСКЛ (ХивеСКЛ) који улази у датотеке и издваја потребне исечке за код.
Апацхе Скооп је посебно дизајниран за ефикасан пренос масовних података из традиционалних база података у кошницу или ХБасе. Такође се може користити за издвајање података из Хадооп-а и извоз у спољне структуриране складишта података попут релационих база података и складишта података предузећа. Скооп је алатка за командну линију, мапирање између табела и слоја за складиштење података, превођење табела у конфигурабилну комбинацију ХДФС, ХБасе или Хиве.
Када су похрањени подаци видљиви Хадоопу, Апацхе Пиг зарања у податке и покреће код који је написан на његовом језику, који се назива свињска латиница. Свињска латиница испуњена је апстракцијама за руковање подацима. Свиња долази са стандардним функцијама за уобичајене задатке попут усредњавања података, рада са датумима или проналажења разлика између низова. Свиња такође омогућава кориснику да самостално пише језике, који се називају УДФ (Усер Дефинед Фунцтион), када стандардне функције пропадну.
Чувар зоолошког врта је централизована услуга која одржава, конфигурише информације, даје име и обезбеђује дистрибуирану синхронизацију кроз кластер. Кластеру намеће хијерархију сличну систему датотека и чува све метаподатке машина, тако да можемо синхронизовати рад различитих машина.
НоСКЛ
Неки Хадооп кластери се интегришу са НоСКЛ складишта података која долазе са сопственим механизмима за складиштење података преко кластера чворова. То им омогућава да чувају и преузимају податке са свим карактеристикама базе података НоСКЛ, након чега се Хадооп може користити за планирање послова анализе података на истом кластеру.
Махоут је дизајниран за примену великог броја алгоритама, класификација и филтрирања анализе података у Хадооп кластер. Многи стандардни алгоритми као што су К-средства, Дирицхелет, паралелни образац и Баиесова класификација спремни су да се покрену на подацима помоћу мапе Хадооп стила и смање.
Луцене, написан на Јави и лако интегрисан са Хадооп-ом, природан је пратилац Хадооп-а. То је алат намењен индексирању великих блокова неструктурираног текста. Луцене се бави индексирањем, док Хадооп управља дистрибуираним упитима кроз кластер. Карактеристике Луцене-Хадооп се брзо развијају како се развијају нови пројекти.
Еуро је систем за сериализацију који обједињује податке заједно са шемом за њихово разумевање. Сваки пакет долази са ЈСОН структуром података. ЈСОН објашњава како се подаци могу рашчланити. Заглавље ЈСОН-а наводи структуру података, где се може избећи потреба за уписивањем додатних ознака у податке за обележавање поља. Излаз је знатно компактнији од традиционалних формата попут КСМЛ-а.
Посао се може поједноставити рашчлањивањем на кораке. На разбијању пројекта на више Хадооп послова, Оозие почиње да их обрађује у правом низу. Управља процесом рада како је наведено у ДАГ (Дирецтед Ацицлиц Грапх) и није потребан благовремени надзор.
ГИС Алати
Рад са географским мапама је велики посао за кластере који покрећу Хадооп. ГИС ( Географски информациони систем ) алати за Хадооп пројекте прилагодили су најбоље алате засноване на Јави за разумевање географских података за покретање са Хадооп-ом. Базе података сада могу да обрађују географске упите користећи координате, а кодови могу да примене ГИС алате.
Прикупљање свих података једнако је чувању и анализи. Апацхе Флуме отпрема „специјалне агенте“ ради прикупљања информација које ће бити ускладиштене у ХДФС-у. Прикупљене информације могу бити датотеке дневника, Твиттер АПИ или белешке веб локација. Ови подаци се могу повезати ланцима и подвргнути анализи.
Искра је следећа генерација која прилично функционише као Хадооп која обрађује податке кеширане у меморији. Његов циљ је да учини анализу података брзом за покретање и писање помоћу општег модела извршења. Ово може оптимизовати произвољне графичке операторе и подржати рачунарство у меморији, што му омогућава брже претраживање података од дисковних мотора попут Хадооп-а.
СКЛ на Хадооп-у
Када је потребно покренути брзи ад-хоц упит свих података у кластеру, може се написати нови Хадооп посао, али то траје неко време. Када су програмери то почели чешће да раде, дошли су до алата написаних на једноставном језику СКЛ. Ови алати нуде брз приступ резултатима.
Апацхе дрилл
Апацхе Дрилл пружа ад-хоц упите са малим кашњењем за бројне и различите изворе података, укључујући угнежђене податке. Дрилл, инспирисан Гоогле-овим Дремелом, дизајниран је за скалирање до 10.000 сервера и тражење петабајта података у секунди.
Ово су основни Хадооп алати за дробљење великих података!
Имате питање за нас? Молимо вас да их наведете у одељку за коментаре и јавићемо вам се.
Повезани постови:
Практични разлози за учење Хадооп-а 2.0