Основни Хадооп алати за дробљење великих података



Хадооп је модерна реч у ИТ свету данас, а овај пост описује основне Хадооп алате који крче велике податке.

Данас је најпопуларнији термин у ИТ свету „Хадооп“. У кратком временском распону, Хадооп је масовно порастао и показао се корисним за велику колекцију различитих пројеката. Хадооп заједница се брзо развија и има истакнуту улогу у свом еко-систему.





Ево прегледа основних Хадооп алата који се користе за руковање великим подацима.

је постдипломски мастер

ambari



Амбари је Апацхе пројекат који подржава Хортонворкс. Нуди веб заснован ГУИ (графички кориснички интерфејс) са чаробњачким скриптама за подешавање кластера са већином стандардних компоненти. Амбари обезбеђује, управља и надгледа све кластере Хадооп послова.

hdfs-logo

Тхе ХДФС , дистрибуиран под Апацхе лиценцом нуди основни оквир за поделу збирки података између више чворова. У ХДФС-у су велике датотеке разбијене у блокове, где неколико чворова држи све блокове из датотеке. Систем датотека је дизајниран на начин да меша толеранцију на кварове са великом пропусношћу. Блокови ХДФС-а су учитани да би се одржао сталан пренос. Обично се не кеширају како би се смањила кашњења.



hbaselogo

ХБасе је систем управљања базама података оријентисан на колону који се покреће на врху ХДФС-а. ХБасе апликације су написане на Јави, слично као и апликација МапРедуце. Садржи скуп табела, где свака табела садржи редове и колоне попут традиционалне базе података. Када подаци падну у велику табелу, ХБасе ће их сачувати, претраживати и аутоматски делити табелу на више чворова како би их МапРедуце послови могли локално покретати. ХБасе нуди ограничену гаранцију за неке локалне промене. Промене које се дешавају у једном реду могу истовремено успети или пропасти.

hive

Ако већ течно говорите са СКЛ-ом, можете искористити Хадооп користећи Кошница . Хиве су развили неки људи на Фацебоок-у. Апацхе Хиве регулише поступак издвајања битова из свих датотека у ХБасе-и. Подржава анализу великих скупова података ускладиштених у Хадооп-овом ХДФС-у и компатибилним системима датотека. Такође пружа СКЛ језик попут ХСКЛ (ХивеСКЛ) који улази у датотеке и издваја потребне исечке за код.

sqoop

Апацхе Скооп је посебно дизајниран за ефикасан пренос масовних података из традиционалних база података у кошницу или ХБасе. Такође се може користити за издвајање података из Хадооп-а и извоз у спољне структуриране складишта података попут релационих база података и складишта података предузећа. Скооп је алатка за командну линију, мапирање између табела и слоја за складиштење података, превођење табела у конфигурабилну комбинацију ХДФС, ХБасе или Хиве.

Pig1

Када су похрањени подаци видљиви Хадоопу, Апацхе Пиг зарања у податке и покреће код који је написан на његовом језику, који се назива свињска латиница. Свињска латиница испуњена је апстракцијама за руковање подацима. Свиња долази са стандардним функцијама за уобичајене задатке попут усредњавања података, рада са датумима или проналажења разлика између низова. Свиња такође омогућава кориснику да самостално пише језике, који се називају УДФ (Усер Дефинед Фунцтион), када стандардне функције пропадну.

zookeper

Чувар зоолошког врта је централизована услуга која одржава, конфигурише информације, даје име и обезбеђује дистрибуирану синхронизацију кроз кластер. Кластеру намеће хијерархију сличну систему датотека и чува све метаподатке машина, тако да можемо синхронизовати рад различитих машина.

НоСКЛ

Неки Хадооп кластери се интегришу са НоСКЛ складишта података која долазе са сопственим механизмима за складиштење података преко кластера чворова. То им омогућава да чувају и преузимају податке са свим карактеристикама базе података НоСКЛ, након чега се Хадооп може користити за планирање послова анализе података на истом кластеру.

mahoutlogo

Махоут је дизајниран за примену великог броја алгоритама, класификација и филтрирања анализе података у Хадооп кластер. Многи стандардни алгоритми као што су К-средства, Дирицхелет, паралелни образац и Баиесова класификација спремни су да се покрену на подацима помоћу мапе Хадооп стила и смање.

Луцене, написан на Јави и лако интегрисан са Хадооп-ом, природан је пратилац Хадооп-а. То је алат намењен индексирању великих блокова неструктурираног текста. Луцене се бави индексирањем, док Хадооп управља дистрибуираним упитима кроз кластер. Карактеристике Луцене-Хадооп се брзо развијају како се развијају нови пројекти.

Avro

Еуро је систем за сериализацију који обједињује податке заједно са шемом за њихово разумевање. Сваки пакет долази са ЈСОН структуром података. ЈСОН објашњава како се подаци могу рашчланити. Заглавље ЈСОН-а наводи структуру података, где се може избећи потреба за уписивањем додатних ознака у податке за обележавање поља. Излаз је знатно компактнији од традиционалних формата попут КСМЛ-а.

Посао се може поједноставити рашчлањивањем на кораке. На разбијању пројекта на више Хадооп послова, Оозие почиње да их обрађује у правом низу. Управља процесом рада како је наведено у ДАГ (Дирецтед Ацицлиц Грапх) и није потребан благовремени надзор.

ГИС Алати

Рад са географским мапама је велики посао за кластере који покрећу Хадооп. ГИС ( Географски информациони систем ) алати за Хадооп пројекте прилагодили су најбоље алате засноване на Јави за разумевање географских података за покретање са Хадооп-ом. Базе података сада могу да обрађују географске упите користећи координате, а кодови могу да примене ГИС алате.

Прикупљање свих података једнако је чувању и анализи. Апацхе Флуме отпрема „специјалне агенте“ ради прикупљања информација које ће бити ускладиштене у ХДФС-у. Прикупљене информације могу бити датотеке дневника, Твиттер АПИ или белешке веб локација. Ови подаци се могу повезати ланцима и подвргнути анализи.

Spark

Искра је следећа генерација која прилично функционише као Хадооп која обрађује податке кеширане у меморији. Његов циљ је да учини анализу података брзом за покретање и писање помоћу општег модела извршења. Ово може оптимизовати произвољне графичке операторе и подржати рачунарство у меморији, што му омогућава брже претраживање података од дисковних мотора попут Хадооп-а.

СКЛ на Хадооп-у

Када је потребно покренути брзи ад-хоц упит свих података у кластеру, може се написати нови Хадооп посао, али то траје неко време. Када су програмери то почели чешће да раде, дошли су до алата написаних на једноставном језику СКЛ. Ови алати нуде брз приступ резултатима.

Апацхе дрилл

Апацхе Дрилл пружа ад-хоц упите са малим кашњењем за бројне и различите изворе података, укључујући угнежђене податке. Дрилл, инспирисан Гоогле-овим Дремелом, дизајниран је за скалирање до 10.000 сервера и тражење петабајта података у секунди.

Ово су основни Хадооп алати за дробљење великих података!

Имате питање за нас? Молимо вас да их наведете у одељку за коментаре и јавићемо вам се.

Повезани постови:

Практични разлози за учење Хадооп-а 2.0