Водич за ПиСпарк - Научите Апацхе Спарк користећи Питхон



На овом блогу на водичу за ПиСпарк научићете о АПИ-ју ПСпарк који се користи за рад са Апацхе Спарк-ом користећи програмски језик Питхон.

У свету у којем се подаци генеришу тако алармантном брзином, тачна анализа тих података у тачно време је веома корисна. Један од најневероватнијих оквира за руковање великим подацима у реалном времену и обављање анализа је Апацхе Спарк.Заједно, или ПиСпарк је један од најтраженијих курсева за сертификацију, пружајући Сцала за Спарк прилику за свој новац. Дакле у овоме Водич за ПиСпарк блог, разговараћу о следећим темама:





Водич за ПиСпарк: Шта је ПиСпарк?

Апацхе Спарк је брзи кластер рачунарски оквир који се користи за обраду, испитивање и анализу великих података. Заснован на рачунању у меморији, има предност у односу на неколико других оквира за велике податке.

Карактеристике ПиСпарка - Водич за ПиСпарк - Едурека



Изворно написана у програмском језику Сцала, заједница отвореног кода развила је невероватан алат за подршку Питхону за Апацхе Спарк. ПиСпарк помаже научницима података да се повежу са РДД-овима у Апацхе Спарк и Питхон кроз своју библиотеку Пи4ј. Постоје многе функције које чине ПиСпарк бољим оквиром од осталих:

  • Брзина: Сто пута је бржи од традиционалних оквира за обраду података великих размера
  • Моћно кеширање: Једноставан програмски слој пружа моћне могућности кеширања и трајања диска
  • Примена: Може да се примени преко Месоса, Хадоопа преко предива или Спарк-овог менаџера кластера
  • Реалном времену: Израчунавање у реалном времену и мала латенција због рачунања у меморији
  • Полиглот: Подржава програмирање у Сцала, Јава, Питхон и Р.

Кренимо даље са нашим блогом водича за ПиСпарк и видећемо где се Спарк користи у индустрији.

ПиСпарк у индустрији

Свака индустрија се врти око великих података, а тамо где постоје велики подаци укључена је и анализа. Дакле, погледајмо разне индустрије у којима се користи Апацхе Спарк.



како направити повер би контролну таблу

Пола је једна од највећих индустрија која расте ка мрежном стримингу. Нетфлик користи Апацхе Спарк за обраду стрима у стварном времену како би пружио персонализоване онлајн препоруке својим купцима. Обрађује 450 милијарди догађаји дневно који се преливају у апликације на страни сервера.

Финансије је још један сектор у којем обрада Апацхе Спарк-а у стварном времену игра важну улогу. Банке користе Спарк за приступ и анализу профила на друштвеним мрежама, како би стекле увиде који им могу помоћи у доношењу исправних пословних одлука за процена кредитног ризика , циљани огласи и сегментација купаца. Одбијање купаца се такође смањује помоћу Спарк-а. Откривање преваре је једно од најчешће коришћених подручја машинског учења у коме је укључен Спарк.

Здравствена заштита добављачи користе Апацхе Спарк за Анализирајте евиденцију пацијената заједно са прошлим клиничким подацима како би се утврдило који пацијенти ће се вероватно суочити са здравственим проблемима након отпуштања из клинике. Апацхе Спарк се користи у Геномско секвенцирање како би се смањило време потребно за обраду података о геному.

Малопродаја и е-трговина је индустрија у којој се не може замислити да ради без употребе Анализе и циљаног оглашавања. Једна од највећих платформи за е-трговину данас Алибаба покреће неке од највећих Спарк послова на свету како би анализирао петабајте података. Алибаба наступа издвајање својстава у подацима о слици. еБаи користи Апацхе Спарк за пружање Циљане понуде , побољшавају корисничко искуство и оптимизују укупне перформансе.

Путовање Индустрије такође користе Апацхе Спарк. ТрипАдвисор , водећа веб локација за путовања која помаже корисницима да планирају савршено путовање, користи Апацхе Спарк да би га убрзала персонализоване препоруке купаца .ТрипАдвисор користи апацхе спарк како би пружио савете милионима путника упоређујући стотине веб локација како би пронашли најбоље цене хотела за своје купце.

Важан аспект овог водича за ПиСпарк је разумевање зашто треба да користимо Питхон? Зашто не Јава, Сцала или Р?

Претплатите се на наш иоутубе канал да бисте добијали нова ажурирања ..!


Зашто ићи на Питхон?

Лако научити: За програмере Питхон је релативно лакше научити због своје синтаксе и стандардних библиотека. Штавише, то је језик који се динамички куца, што значи да РДД-ови могу садржавати објекте више врста.

Огроман скуп библиотека: Сцала нема довољно алата и библиотека за обраду података као што је Питхон за машинско учење и обраду природних језика. Штавише, Сцала нема добру визуелизацију и локалне трансформације података.

Огромна подршка заједнице: Питхон има глобалну заједницу са милионима програмера који комуницирају на мрежи и ван ње на хиљадама виртуелних и физичких локација.

Једна од најважнијих тема у овом водичу за ПиСпарк је употреба РДД-ова. Хајде да разумемо шта су РДД

Спарк РДД-ови

Када је реч о итеративном дистрибуираном рачунању, тј. Обради података на више послова у прорачунима, морамо поново користити податке или их делити између више послова. Ранији оквири попут Хадооп-а имали су проблема док су се бавили више операција / послова попут

  • Похрањивање података у средњем складишту као што је ХДФС
  • Вишеструки И / О послови успоравају прорачуне
  • Репликације и сериализације што заузврат чини процес још споријим

РДД-ови покушавају да реше све проблеме омогућавањем дистрибуираних израчунавања у меморији отпорних на грешке. РДД је скраћеница за Отпорни дистрибуирани скупови података. РДД је дистрибуирана апстракција меморије која омогућава програмерима да изврше израчунавања у меморији на великим кластерима на начин отпоран на грешке. Они су колекција предмета само за читање подељен на скупу машина које се могу обновити ако се партиција изгуби. Постоји неколико операција изведених на РДД-има:

  • Трансформације: Трансформације стварају нови скуп података од постојећег. Лази Евалуатион
  • Акције: Спарк форсира прорачуне за извршење само када се радње позивају на РДД-ове

Хајде да разумемо неколико трансформација, радњи и функција

Читање датотеке и приказ најбољих н елемената:

рдд = сц.тектФиле ('датотека: /// хоме / едурека / Десктоп / Сампле') рдд.таке (н)

Излаз:

[у'Шуме се јављају као главно еколошко и социјално питање које је сада имало облик више од моћног демона. ', у' Морамо знати о узроцима, последицама и начинима решавања проблема насталих услед крчења шума. ', у' Пружили смо много параграфа, дугих и кратких есеја о крчењу шума како бисмо вашој деци и деци помогли да се упознају са проблемом, као и да учествују у такмичењу у писању есеја у школи или изван школе. ', у'Можете одабрати било који есеј о крчењу шума који је дат у наставку према стандарду класе. ', у'Ушумљавање настаје као главни глобални проблем за друштво и животну средину.']

Претварање у мала слова и подела: (Доња и Сплит)

деф Фунц (линије): линије = линије.ниже () линије = линије.сплит () повратне линије рдд1 = рдд.мап (Фунц) рдд1.таке (5)

Излаз:

[[у'дефорестатион ', у'ис', у'арисинг ', у'ас', у'тхе ', у'маин', у'енвиронментал ', у'анд', у'социал ', у'иссуе ', шта', у 'има', не знам ', у'такнуто', ...... . . ]

Уклањање СтопВордс: (Филтер)

стоп_вордс = ['а', 'алл', 'тхе', 'ас', 'ис', 'ам', 'ан', 'и', 'бе', 'беен', 'фром', 'хад' , 'И', 'И', 'вхи', 'витх'] рдд2 = рдд1.филтер (ламбда з: з није у стоп_вордс) рдд2.таке (10)

Излаз:

[у'сефорестатион ', у'арисинг', у'маин ', у'енвиронментал', у'социал ', у'иссуе', у'вхицх ', у'хас', у'нов ', у'такен' ]

Збир бројева од 1 до 500: (Смањи)

сум_рдд = сц.параллелизе (опсег (1.500)) сум_рдд.редуце (ламбда к, и: к + и)

Оутпут:

како се користи класа скенера у јави
124750

Машинско учење помоћу ПиСпарка

Настављајући наш блог водича за ПиСпарк, анализирајмо неке БаскетБалл податке и направимо нека будућа предвиђања. Дакле, овде ћемо користити Кошаркашке податке свих играча НБА-а од тада 1980 [година увођења 3 показивача].

Учитавање података:

дф = спарк.реад.оптион ('хеадер', 'труе') .оптион ('инферСцхема', 'труе') .цсв ('датотека: ///хоме/едурека/Довнлоадс/сеасон_тоталс.цсв')

Штампање колона:

испис (дф.цолумнс)

Излаз:

['_ц0', 'плаиер', 'пос', 'аге', 'теам_ид', 'г', 'гс', 'мп', 'фг', 'фга', 'фг_пцт', 'фг3', ' фг3а ',' фг3_пцт ',' фг2 ',' фг2а ',' фг2_пцт ',' ефг_пцт ',' фт ',' фта ',' фт_пцт ',' орб ',' дрб ',' трб ​​',' аст ' , 'стл', 'блк', 'тов', 'пф', 'птс', 'год']

Сортирање играча (ОрдерБи) и тоПандас:

Овде сортирамо играче на основу поена постигнутих у сезони.

дф.ордерБи ('птс', растући = Фалсе) .лимит (10) .тоПандас () [['год', 'играч', 'старост', 'поени', 'фг3']]

Излаз:

Коришћење ДСЛ-а и матплотлиб-а:

Овде анализирамо просечан број Покушаји са 3 поена за сваку сезону у временском ограничењу од 36 мин [интервал који одговара приближној пуној НБА утакмици са одговарајућим одмором]. Израчунавамо ову метрику користећи број покушаја поготка са 3 поена (фг3а) и одиграних минута (мп), а затим уцртавамо резултат користећи матлплотлиб .

фром писпарк.скл.фунцтионс импорт цол фга_пи = дф.гроупБи ('ир') .агг ({'мп': 'сум', 'фг3а': 'сум'}) .селецт (цол ('ир'), ( 36 * цол ('сум (фг3а)') / цол ('сум (мп)')). Алиас ('фг3а_п36м')) .ордерБи ('ир') из матплотлиб импорт пиплот ас плт импорт сеаборн ас снс плт.стиле .усе ('фиветхиртиеигхт') _дф = фга_пи.тоПандас () плт.плот (_дф.ир, _дф.фг3а_п36м, цолор = '# ЦД5Ц5Ц') плт.клабел ('Година') _ = плт.титле ('Просек играча Покушаји у 3 тачке (за 36 минута) ') плт.аннотате (' уведен показивач 3 ', ки = (1980, .5), китект = (1981, 1.1), фонтсизе = 9, арровпропс = дицт (фацецолор =' греи ', скупљање = 0, ширина линије = 2)) плт.аннотате (' НБА се преселио у линију са три тачке ', ки = (1996, 2.4), китект = (1991.5, 2.7), фонтсизе = 9, арровпропс = дицт (фацецолор = 'сиво', скупљање = 0, ширина линије = 2)) плт.аннотате ('НБА је померен уназад у 3 тачке', ки = (1998, 2.), китект = (1998.5, 2.4), фонтсизе = 9, арровпропс = дикт (боја боје = 'сива', скупљање = 0, ширина линије = 2))

Излаз:

Линеарна регресија и ВецторАссемблер:

На ову криву можемо уклопити модел линеарне регресије како бисмо моделирали број покушаја хитаца у наредних 5 година. Морамо трансформисати своје податке помоћу функције ВецторАссемблер у једну колону. Ово је услов за АПИ линеарне регресије у МЛлиб.

из писпарк.мл.феатуре импорт ВецторАссемблер т = ВецторАссемблер (инпутЦолс = ['ир'], оутпутЦол = 'феатурес') траининг = т.трансформ (фга_пи) .витхЦолумн ('ир', фга_пи.ир) .витхЦолумн ('лабел ', фга_пи.фг3а_п36м) траининг.тоПандас (). хеад ()

Излаз:

Модел зграде:

Затим градимо свој објекат модела линеарне регресије користећи наше трансформисане податке.

фром писпарк.мл.регрессион импорт ЛинеарРегрессион лр = ЛинеарРегрессион (макИтер = 10) модел = лр.фит (тренинг)

Примена обученог модела на скуп података:

Наш обучени модел објектног модела примењујемо на наш оригинални сет обуке, заједно са 5 година будућих података

из писпарк.скл.типес импорт Ред # применити модел за сезону 1979-80 до 2020-21 сезоне траининг_ирс = траининг.селецт ('год'). рдд.мап (ламбда к: к [0]). цоллецт () траининг_и = траининг.селецт ('фг3а_п36м'). рдд.мап (ламбда к: к [0]). цоллецт () предицтион_ирс = [2017, 2018, 2019, 2020, 2021] алл_ирс = траининг_ирс + предицтион_ирс # изграђено тестирање ДатаФраме тест_рдд = сц.параллелизе (алл_ирс) ров = Ров ('ир') & ампамплт алл_иеарс_феатурес = т.трансформ (тест_рдд.мап (ров) .тоДФ ()) # применити модел линеарне регресије дф_ресултс = модел.трансформ (алл_иеарс_феатурес) .тоПандас ()

Зацртавање коначног предвиђања:

како се користи снага у јави

Затим можемо да зацртамо резултате и сачувамо графикон на одређеном месту.

плт.плот (дф_ресултс.ир, дф_ресултс.предицтион, линевидтх = 2, линестиле = '-', цолор = '# 224дф7', лабел = 'Л2 Фит') плт.плот (траининг_ирс, траининг_и, цолор = '# ф08080 ', лабел = Нема) плт.клабел (' Година ') плт.илабел (' Број покушаја ') плт.легенд (лоц = 4) _ = плт.титле (' Просек покушаја играча у 3 поена (за 36 минута) ') плт.тигхт_лаиоут () плт.савефиг (' / хоме / едурека / Довнлоадс / Имагес / РЕГРЕССИОН.пнг ')

Излаз:

И са овим графиконом смо дошли до краја овог блога водича за ПиСпарк.

Па то је то, момци!

Надам се да сте стекли идеју шта је ПиСпарк, зашто је Питхон најприкладнији за Спарк, РДД-ове и увид у машинско учење са Писпарком на овом блогу водича за ПиСпарк. Честитамо, више нисте новајлија за ПиСпарк. Ако желите да сазнате више о ПиСпарку и да разумете различите случајеве употребе у индустрији, погледајте наш Искра са Питхоном Блог.

Сад кад сте схватили шта је Писпарк, погледајте Едурека, поуздана компанија за учење на мрежи са мрежом од више од 250.000 задовољних ученика раширених широм света. Едурека Обука за сертификацију Питхон Спарк помоћу ПиСпарка је дизајниран да вам пружи знање и вештине потребне да бисте постали успешан програмер Спарк-а који користи Питхон и припремио вас за испит за сертификацију Цлоудера Хадооп анд Спарк Девелопер (ЦЦА175).