Апацхе варница са Хадооп-ом - зашто је то важно?



Примена Апацхе Спарк-а са Хадооп-ом у великим размерама од стране водећих компанија указује на његов успех и његов потенцијал када је реч о обради у реалном времену.

Хадооп, оквир за обраду података који је постао платформа за себе, постаје још бољи када су на њега повезане добре компоненте. Неки недостаци Хадоопа, попут компоненте МапРедуце Хадооп-а, имају репутацију спорих у анализи података у реалном времену.





Уђите у Апацхе Спарк, Хадооп-ов механизам за обраду података дизајниран за групна и струјна оптерећења, сада у својој верзији 1.0 и опремљен функцијама које илуструју које врсте послова Хадооп треба да укључи. Спарк ради на врху постојећих Хадооп кластера како би пружио побољшану и додатну функционалност.

Погледајмо кључне карактеристике искре и како то функционише заједно са Хадооп-ом и .



Кључне предности Апацхе Спарк-а:

img2-R

Невероватне карактеристике Спарка:

  • Хадооп интеграција - Спарк може да ради са датотекама ускладиштеним у ХДФС-у.
  • Спарк-ова интерактивна шкољка - Спарк је написан на скали и има своју верзију тумача Сцала.
  • Спарк’с Аналитиц Суите - Спарк долази са алатима за интерактивну анализу упита, обраду и анализу великих графова и анализу у реалном времену.
  • Отпорни дистрибуирани скупови података (РДД-ови) - РДД-ови су дистрибуирани објекти који се могу кеширати у меморији, преко кластера рачунских чворова. Они су примарни објекти података који се користе у Спарк-у.
  • Дистрибуирани оператери - Поред МапРедуце-а, постоји још много оператора које можете користити на РДД-има.

Предности употребе Апацхе Спарк-а са Хадооп-ом:

шта матх.абс ради у јави
  • Апацхе Спарк се уклапа у заједницу отвореног кода Хадооп, зграда на врху Хадооп дистрибуираног система датотека (ХДФС). Међутим, Спарк није везан за двостепену парадигму МапРедуце и обећава перформансе до 100 пута брже од Хадооп МапРедуце-а за одређене апликације.



  • Погодан за алгоритме машинског учења - Спарк пружа примитиве за рачунање кластера у меморији, што омогућава корисничким програмима да учитавају податке у меморију кластера и да их више пута питају.

  • Трчите 100 пута брже - Спарк, софтвер за анализу такође може убрзати послове који се изводе на платформи за обраду података Хадооп. Назван „Хадооп Свисс Арми книфе“, Апацхе Спарк пружа могућност стварања послова за анализу података који могу радити 100 пута брже од оних који раде на стандардном Апацхе Хадооп МапРедуцеу. МапРедуце је широко критикован као уско грло у Хадооп кластерима, јер извршава послове у батцх режиму, што значи да анализа података у реалном времену није могућа.

    разлика између окретног и девопа
  • Алтернатива МапРедуце - Спарк пружа алтернативу МапРедуце-у. Извршава послове у кратким низовима микро-серија који су удаљени пет секунди или мање. Такође пружа већу стабилност од Хадооп оквира оријентисаних у реалном времену као што је Твиттер Сторм. Софтвер се може користити за разне послове, као што је текућа анализа података уживо, а захваљујући софтверској библиотеци, више рачунски детаљних послова који укључују машинско учење и обраду графова.

  • Подршка за више језика - Користећи Спарк, програмери могу писати послове анализе података на Јави, Сцали или Питхону, користећи скуп од више од 80 оператора високог нивоа.

  • Библиотечка подршка - Спарк-ове библиотеке су дизајниране да допуне врсте обрађивачких послова који се агресивније истражују најновијим комерцијално подржаним применама Хадооп-а. МЛлиб примењује мноштво уобичајених алгоритама за машинско учење, као што су наивна Баиесова класификација или кластерисање. Спарк Стреаминг омогућава брзу обраду података унесених из више извора, а ГрапхКс омогућава израчунавање података графикона.

  • Стабилни АПИ - Са верзијом 1.0, Апацхе Спарк нуди стабилан АПИ (интерфејс за програмирање апликација), који програмери могу да користе за интеракцију са Спарк-ом кроз сопствене апликације. Ово помаже у лакшем коришћењу Сторма у примени заснованој на Хадооп-у.

  • СПАРК СКЛ компонента - Спарк СКЛ компонента за приступ структурираним подацима, омогућава испитивање података заједно са неструктурираним подацима у раду на анализи. Спарк СКЛ, који је тренутно само у алфа верзији, омогућава покретање упита сличних СКЛ-у према подацима ускладиштеним у Апацхе Хиве-у. Издвајање података из Хадооп-а путем СКЛ упита још је једна варијанта функционалности упита у стварном времену која се појавила око Хадооп-а.

  • Апацхе Спарк компатибилност са Хадооп-ом [ХДФС, ХБАСЕ и ИАРН] - Апацхе Спарк је у потпуности компатибилан са дистрибуираним системом датотека Хадооп (ХДФС), као и са осталим компонентама Хадооп-а као што су ИАРН (Иет Анотхер Ресоурце Неготиатор) и ХБасе дистрибуирана база података.

Усвојитељи у индустрији:

ИТ компаније као што су Цлоудера, Пивотал, ИБМ, Интел и МапР све су сложиле Спарк у своје Хадооп стекове. Датабрицкс, компанија коју су основали неки од програмера Спарк, нуди комерцијалну подршку за софтвер. И Иахоо и НАСА, између осталог, користе софтвер за дневне операције података.

Закључак:

Оно што Спарк нуди сигурно ће бити велико привлачење и за кориснике и за комерцијалне продавце Хадооп-а. Кориснике који желе да примене Хадооп и који су већ изградили многе своје аналитичке системе око Хадоопа привлачи идеја да могу да користе Хадооп као систем за обраду у стварном времену.

Спарк 1.0 им пружа другу разноликост функција за подршку или изградњу власничких предмета. У ствари, један од велика три добављача Хадооп-а, Цлоудера, већ пружа комерцијалну подршку за Спарк путем своје понуде Цлоудера Ентерприсе. Хортонворкс такође нуди Спарк као компоненту његове дистрибуције Хадооп-а. Примена Спарка у великим размерама од стране водећих компанија указује на његов успех и потенцијал када је реч о обради у реалном времену.

Имате питање за нас? Спомените их у одељку за коментаре и јавићемо вам се.

Повезани постови:

ако је стање у скл упиту