Велики подаци у АВС-у - паметно решење за велике податке



Овај чланак вам помаже да разумете како се АВС паметно бави великим подацима. Такође показује како АВС лако решава изазове великих података.

Идеја великих података једноставно није нова, она је свуда. Ефекат великих података је свуда, од предузећа до науке, од владе до уметности и тако даље. Нема бољег пратиоца од за обраду и анализу великих података. У овом чланку ћу показати како се АВС бори са изазовима великих података и смернице које ћу покрити су следеће:

Шта су велики подаци?

карактеристике великих података





Велике податке можете сматрати информационим средствима великог обима, великом брзином и / или великом разноликошћу која захтевају исплативе, иновативне облике обраде информација који омогућавају побољшани увид, доношење одлука и аутоматизацију процеса.

Велики подаци се састоје од 5 важних В-а који дефинишу карактеристике великих података. Размотримо ове пре него што пређемо на АВС.



Шта је АВС?

састоји се од многих различитих производа и услуга за рачунарство у облаку. Изузетно профитабилна Амазон дивизија пружа сервере, складиштење, умрежавање, даљинско рачунање, е-пошту, мобилни развој, уз сигурност. У наставку. АВС се састоји од два главна производа: ЕЦ2, Амазонова услуга виртуелних машина и С3, систем за складиштење компаније Амазон. Толико је велик и присутан у рачунарском свету да је сада најмање 10 пута већи од свог најближег конкурента и домаћин је популарних веб локација попут Нетфлика и Инстаграма.

.

АВС је подељен на 12 глобалних региона широм света, од којих сваки има више зона доступности у којима се налазе његови сервери.Ови опслужени региони су подељени како би се корисницима омогућило да поставе географска ограничења својих услуга, али и да би обезбедили сигурност диверзификацијом физичких локација на којима се подаци чувају.



Зашто велики подаци у АВС-у?

Научници, програмери и други технолошки ентузијасти из многих различитих домена користе АВС за обављање аналитике великих података и решавање критичних изазова све већих В дигиталних информација. АВС вам нуди портфолио услуга рачунарства у облаку који помажу у управљању великим подацима значајним смањењем трошкова, скалирањем како би се задовољила потражња и повећањем брзине иновација.

Амазон Веб Сервицес пружа а потпуно интегрисани портфолио услуга рачунарства у облаку. Поред тога, помаже вам у изградњи, заштити и примени апликација за велике податке. Такође, са АВС-ом вам није потребан хардвер за набавку и инфраструктура за одржавање и обим. Због тога можете своје ресурсе усмерити на откривање нових увида.Будући да се нове функције непрестано додају, увек ћете моћи да користите најновије технологије, без потребе да преузимате дугорочне инвестиционе обавезе.

Како АВС може да реши изазове великих података?

АВС решења за велике податке

АВС има бројна решења за све сврхе развоја и примене. Такође, на пољу науке о подацима и великих података, АВС је осмислио недавна достигнућа у различитим аспектима руковања великим подацима. Пре него што пређемо на алат, схватимо различите аспекте великих података за које АВС може да пружи решења.

  1. Унос података
    Прикупљање сирових података - трансакција, евиденција, мобилних уређаја и још много тога - први је изазов са којим се многе организације суочавају када се баве великим подацима. Добра платформа за велике податке олакшава овај корак, омогућавајући програмерима да уносе широк спектар података - од структурираних до неструктурираних - било којом брзином - од реалног времена до групних.

  2. Складиштење података
    Било којој платформи за велике податке је потребно сигурно, скалабилно и издржљиво спремиште за чување података пре или чак након обраде задатака. У зависности од ваших специфичних захтева, можда ће вам требати и привремена складишта за пренос података.

  3. Обрада података
    Ово је корак у коме се трансформација података дешава из сировог стања у потрошни формат - обично помоћу сортирања, обједињавања, спајања, па чак и извршавања напреднијих функција и алгоритама. Резултирајући скупови података подлежу складиштењу ради даље обраде или се стављају на располагање за употребу путем алата за пословну интелигенцију и визуелизацију података.

  4. Визуализација

    Велики подаци се састоје у томе да из својих података добијете увид у вредности и вредност која се може применити. У идеалном случају, подаци су доступни заинтересованим странама путем самопослужне пословне интелигенције и агилних алата за визуелизацију података који омогућавају брзо и лако истраживање скупова података.

АВС алати за велике податке

У претходним одељцима смо погледали поља у великим подацима у којима АВС може да пружи решења. Поред тога, АВС у свом наоружању има више алата и услуга како би купцима омогућио могућности великих података.

Погледајмо различита решења која нуди АВС за руковање различитим фазама укљученим у руковање великим подацима

шта је инит у питхон-у

Гутање

  1. Кинесис

    Амазон Кинесис Фирехосе је потпуно управљана услуга за испоруку података у реалном времену директно на Амазон С3. Кинесис Фирехосе се аутоматски прилагођава количини и пропусности проточних података и не захтева сталну администрацију. Можете да конфигуришете Кинесис Фирехосе да трансформише стреаминг податке пре него што их сачувате у Амазон С3.

  2. Груда снега
    Можете користити АВС Сновбалл за безбедну и ефикасну миграцију скупних података са локалних платформи за складиштење и Хадооп кластера у сегменте С3. Након што креирате посао у АВС Манагемент Цонсоле, аутоматски добијате уређај Сновбалл. Када стигне Сновбалл, повежите је са локалном мрежом, инсталирајте клијента Сновбалл-а на ваш локални извор података, а затим помоћу клијента Сновбалл одаберите и пренесите директоријуме датотека на уређај Сновбалл.

Складиште

  1. Амазон С3

Амазон С3 је сигурно, високо скалабилно, издржљиво складиште објеката са милисекундним кашњењем за приступ подацима. С3 може да чува било коју врсту података са било ког места - са веб локација и мобилних апликација, корпоративних апликација и података са ИоТ сензора или уређаја. Такође може да ускладишти и преузме било коју количину података, са ненадмашном доступношћу, и изграђен од темеља да би пружио 99,999999999% (11 девет) трајности.

2. АВС лепак

Лепак је потпуно управљана услуга која пружа каталог података како би подаци у језеру података били откривени. Поред тога, има могућност екстракције, трансформације и учитавања (ЕТЛ) за припрему података за анализу. Такође, уграђени каталог података је попут трајног складишта метаподатака за сва средства података, чинећи све податке претраживим и упитним у једном приказу.

Обрада

  1. ЕМР
    За обраду великих података користећи Спарк и Хадооп, Амазон ЕМР пружа управљану услугу која омогућава једноставну, брзу и исплативу обраду огромних количина података. Поред тога, ЕМР подржава 19 различитих пројеката отвореног кода, укључујући Хадооп , Искра , и Такође долази са управљаним ЕМР бележницама за инжењеринг података, развој науке о подацима и сарадњу.

  2. Редсхифт
    За складиштење података, Амазон Редсхифт пружа могућност покретања сложених, аналитичких упита према петабајтима структурираних података. Такође, укључује Редсхифт Спецтрум који покреће СКЛ упите директно према Екабитес-у структурираних или неструктурираних података у С3 без потребе за непотребним кретањем података.

Визуализације

  1. Амазон КуицкСигхт

    За контролне табле и визуелизације, Амазон Куицксигхт вам пружа брзу услугу пословне аналитике засновану на облаку. Олакшава израду запањујућих визуелизација и богатих контролних плоча. Поред тога, можете им приступити из било ког прегледача или мобилног уређаја.

Демо - анализа података о угроженим врстама биљака и животиња у Аустралији.

У овој демонстрацији користићемо узорке података о угроженим биљним и животињским врстама из држава и територија Аустралије. Овде ћемо створити ЕМР кластер и конфигурисати га за покретање вишестепених послова Апацхе Хиве. ЕМР кластер ће имати инсталиран Апацхе Хиве. Овај кластер ће користити ЕМРФС као систем датотека, тако да се његове локације за унос и излаз података пресликавају у серију С3. Кластер ће такође користити исти С3 сегмент за чување датотека дневника.

Сада ћемо створити низ ЕМР корака у кластеру за обраду узорка скупа података. Овде ће сваки од ових корака покренути скрипту Хиве, а коначни излаз ће бити сачуван у сегменту С3. Ови кораци ће генерирати евиденције МапРедуце, ​​а то је зато што се наредбе Хиве преводе у МапРедуце послове у вријеме извођења. Датотеке евиденције за сваки корак прикупљају се из контејнера које се појављују.

Примјера података

Узорак података за овај случај је јавно доступан од Веб локација отворених података аустралијске владе . Овај скуп података говори о угроженим животињским и биљним врстама из различитих држава и територија у Аустралији. Опис поља овог скупа података и ЦСВ датотеке могу се видети и преузети овде .

Кораци обраде

Први корак ЕМР посла овде укључује стварање табеле Хиве као шеме основне изворне датотеке у С3. У другом кораку посла, сада ћемо покренути успешан упит за податке. Слично томе, покренућемо трећи и четврти упит.

Поновит ћемо ова четири корака неколико пута у сату, симулирајући узастопна извођења вишестепеног серијског посла. Међутим, у сценарију из стварног живота временска разлика између сваког покретања серије може бити много већа. Краткотрајни јаз између узастопних трчања намењен је убрзању нашег тестирања.

С3 канта и фасцикле

Пре креирања нашег ЕМР кластера, овде смо морали да креирамо С3 ведро за хостовање његових датотека. У нашем примеру, овом сегменту доделимо назив „арвинд1-буцкет“. Фасцикле испод овог сегмента приказане су испод у АВС конзоли за С3:

алгоритам сортирања се може користити за уређивање скупа ________ по редоследу ________.

  • Улазна мапа садржи узорке података

  • Директоријум скрипти садржи датотеке скрипти Хиве за кораке ЕМР задатка

  • Излазна мапа ће очигледно садржавати излаз програма Хиве

  • ЕМР кластер користи фасциклу евиденција да би сачувао своје датотеке дневника.

Скрипте за кошнице за ЕМР кораке посла

1. Овај корак посла покреће скрипту Хивеза стварање спољне табеле кошница. Ова табела описује табеларну шему основне ЦСВ датотеке података. Скрипта за ово је следећа:

СТВОРИ ВАЊСКУ ТАБЕЛУ `угрожене врсте` (низ` научног имена`, низ `заједничког имена`, низ` тренутни научни назив`, низ `угрожени статус`, низ` ацт`, `нсв` низ,` нт` низ, `клд` стринг, `са` стринг,` тас` стринг, `виц` стринг,` ва` стринг, `аци` стринг,` цки` стринг, `ци` стринг,` цси` стринг, `јбт` стринг,` нфи` стринг, `хми` стринг,` аат` стринг, `цма` стринг,` наведена спрат таконид` бигинт, `цуррент спрат таконид` бигинт,` кингдом` стринг, `цласс` стринг,` профиле` стринг, `дате ектрацтед` низ, `нсл име` низ,` породица` низ, `род` низ,` врста` низ, `инфраспецифиц ранк` низ,` инфраспециес` низ, `врста аутор` стринг,` инфраспециес аутхор` стринг) РЕД ФОРМАТ ДЕЛИМИТЕД ФИЕЛДС ПРЕКИНУТЕ ',' СКЛАДИШТЕНО КАО ИНПУТФОРМАТ 'орг.апацхе.хадооп.мапред.ТектИнпутФормат' ОУТПУТФОРМАТ 'орг.апацхе.хадооп.хиве.кл.ио.ХивеИгнореКеиТектОутпутФормат' ЛОЦАТИОН 'с3: // арвинд1-буцкет

2. Овај корак посла покреће упит за израчунавање пет најугроженијих врста у држави Нови Јужни Велс (НСВ). Назив датотеке упита за кошницу је угроженеВрстеНСВ.к а приказано је у наставку:

ОДАБЕРИТЕ врсту, ЦОУНТ (нсв) КАО нумбер_оф_ендангеред_специес ФРОМ дангероус_специес ВХЕРЕ (нсв = 'Иес' ОР нсв = 'Ендангеред') И 'угрожени статус' = 'Угрожени' ГРОУП БИ специес ХАВИНГ ЦОУНТ (нсв)> 1 ОРДЕР БИ нумбер_оф_ендангеред_специес ДЕСЦ ЛИМИТ 5

3Овај корак посла покреће упит за израчунавање укупног броја угрожених биљних врста за сваку биљну породицу у Аустралији. Назив датотеке упита за кошницу јеугроженеПлантСпециес.ки приказан је у наставку

ОДАБЕРИТЕ породицу, ЦОУНТ (врста) КАО нумбер_оф_ендангеред_специес ФРОМ дангероус_специес2 ВХЕРЕ кингдом = 'Плантае' АНД 'угрожени статус' = 'Угрожени' ГРОУП БИ фамили

4. Овај корак наводи научна имена изумрлих животињских врста у аустралијској држави Куеенсланд. Позива се датотека скрипте ектинцтАнималсКЛД.к и приказано је доле:

скл водич за интеграцију ссс сервера за услуге корак по корак
ОДАБЕРИТЕ 'заједничко име', 'научно име' ИЗ угрожених_ врста ВХЕРЕ краљевство = 'Анималиа' И (клд = 'Да' ИЛИ ​​клд = 'Изумрло') И 'угрожени статус' = 'Изумрло'

Збирка дневника

Овде смо такође отпремили ЈСОН датотеку која се зове логАггрегатион.јсон у директоријум скрипти сегмента С3. Ову датотеку користимо за обједињавање датотека дневника ИАРН. Агрегација дневника се конфигурише у конфигурационој датотеци иарн-сите.кмл када се кластер покрене. Садржај датотеке логАггрегатион.јсон је следећи:

[{„Класификација“: „предиво-место“, „Својства“: {„иарн.лог-аггрегатион-енабле“: „тачно“, „иарн.лог-аггрегатион.ретаин-сецондс“: „-1“, „предиво .нодеманагер.ремоте-апп-лог-дир ”:„ с3: // арвинд1-буцкет / логс ”}}]

Након што креирате С3 сегмент и копирате датотеке са подацима и скриптама у њихове одговарајуће фасцикле, време је да поставите ЕМР кластер. Следеће снимке описују процес док креирамо кластер са углавном подразумеваним подешавањима.

Постављање ЕМР кластера

На првој слици, да бисмо конфигурисали кластер у АВС конзоли, задржали смо све апликације које препоручује ЕМР, укључујући Хиве. Не треба да користимо АВС лепак за складиштење метаподатака Хиве-а нити тренутно додајемо било који корак посла. Међутим, морамо додати софтверску поставку за Хиве. Овде морате пажљиво посматрати како у овом пољу одређујемо путању до ЈСОН датотеке за агрегацију дневника.

У следећем кораку задржали смо сва подразумевана подешавања. Зарад нашег теста, кластер ће имати један главни чвор и два језгра. Сваки чвор овде је м3.кларге инстанца и има 10 ГБ основног волумена. У следећем кораку именујемо кластер арвинд1-цлустер и одређујемо прилагођену с3 локацију за његове датотеке дневника.

На крају, навели смо ЕЦ2 пар кључева у сврху приступа главном чвору кластера. Нема промена у подразумеваним ИАМ улогама за ЕМР, ЕЦ2 профил инстанце и опције аутоматског скалирања. Такође, главни и основни чворови подразумевано користе доступне безбедносне групе. Обично је ово подразумевано подешавање за ЕМР кластер. Једном када је све спремно, кластер је у стању „чекања“ као што је приказано доле:

Пошаљите Хиве Јоб Степс

После овога, треба да дозволимо ССХ приступ.

  1. Отворите Амазон ЕМР конзолу на хттпс://цонсоле.авс.амазон.цом/еластицмапредуце/ .
  2. Изаберите Кластери .
  3. Изабрати Име кластера.
  4. Под Сигурност и приступ изабрати Сигурносне групе за Мастер линк.
  5. Изаберите ЕластицМапРедуце-мастер са списка.
  6. Изаберите Долазно , Уредити .
  7. Пронађите правило са следећим подешавањима и одаберите Икс икона за брисање:
    • Тип ССХ
    • Лука 22
    • Извор Прилагођено 0.0.0.0/0
  8. Померите се на дно листе правила и изаберите Додај правило .
  9. За Тип , изаберите ССХ .Ово аутоматски улази ТЦП за Протокол и 22 за Порт Ранге .
  10. За извор одаберите Моја ИП адреса .Ово аутоматски додаје ИП адресу вашег клијентског рачунара као изворну адресу. Можете и да додате опсег Обичај поверљиве ИП адресе клијента и одлучите да додати правило како би креирали додатна правила за друге клијенте. У многим мрежним окружењима ИП адресе додељујете динамички, па ћете можда требати повремено уређивати правила безбедносне групе да бисте ажурирали ИП адресу поузданих клијената.
  11. Изаберите сачувати .
  12. По жељи одаберите ЕластицМапРедуце-славе са листе и поновите горње кораке како бисте ССХ клијенту омогућили приступ језгру и чворовима задатака од поузданих клијената.

Пошто је ЕМР кластер покренут и покренут, додали смо четири корака посла. Ово су кораци које би ЕМР изводио један за другим. Следећа слика приказује кораке из АВС ЕМР конзоле:

Када додамо четири корака, можемо да проверимо статус ових корака као завршени. Чак и ако постоји неки проблем са извршавањем ових корака, онда се у таквим случајевима то може решити помоћу датотека дневника ових корака.

Дакле, то је то са моје стране у овом чланку о великим подацима у АВС-у. Надам се да сте разумели све што сам овде објаснио.

Ако су вам ови Велики подаци у АВС-у релевантни, можете да погледате Едурекин курс уживо и инструктором који воде , коју су заједно створили стручњаци из индустрије.

Имате питање за нас? Молимо вас да га помињете у одељку за коментаре овог упутства за примену Јава веб апликације у АВС и јавићемо вам се.