Водич за Питхон Панде: Научите Панде за анализу података



У овом упутству за Питхон Пандас научићете разне операције Панда. Такође укључује случај употребе, где можете анализирати податке помоћу Панда.

На овом блогу ћемо разговарати о анализи података користећи Панде у Питхону.Данас, је врућа вештина у индустрији која је премашила ПХП у 2017. и Ц # у 2018. години у погледу укупне популарности и употребе.Пре него што говоримо о Пандама, морамо разумети концепт Нумпи-ових низова. Зашто? Јер Пандас је библиотека софтвера отвореног кода која је изграђена на врху . У овом водичу за Питхон Панде водићу вас кроз следеће теме које ће послужити као основа за предстојеће блогове:

Хајде да почнемо. :-)





Шта су Питхон Пандас?

Пандас се користи за манипулацију подацима, анализу и чишћење. Питхон панде су врло погодне за различите врсте података, као што су:

  • Табеларни подаци са хетерогеним типографским колонама
  • Подаци о уређеним и неуређеним временским серијама
  • Подаци произвољне матрице са ознакама реда и колоне
  • Неозначени подаци
  • Било који други облик посматрачких или статистичких скупова података

Како инсталирати Панде?

Да бисте инсталирали Питхон Панде, идите на командну линију / терминал и унесите „пип инсталл пандас“, или ако је у вашем систему инсталирана анацонда, само откуцајте „цонда инсталл пандас“. По завршетку инсталације идите на свој ИДЕ (Јупитер, ПиЦхарм итд.) И једноставно га увезите тако што ћете откуцати: „импорт пандас ас пд“



Крећући се напред у водичу за патоне Питхон, погледајмо неке од његових операција:

Питхон Пандас Оператионс

Користећи Питхон панде, можете изводити пуно операција са серијама, оквирима података, подацима који недостају, групирати по итд. У наставку су наведене неке од уобичајених операција за манипулацију подацима:



ПандасОператионс - Водич за Питхон Панде - Едурека

Хајде сада да разумемо све ове операције једну по једну.

Резање оквира података

Да бисте извршили резање података, потребан вам је оквир података. Не брините, оквир података је дводимензионална структура података и најчешћи објекат панде. Дакле, прво направимо оквир података.

Погледајте доњи код за његову примену у ПиЦхарм:

увоз панди као пд КСИЗ_веб = {'Дан': [1,2,3,4,5,6], 'Посетиоци': [1000, 700,6000,1000,400,350], 'Боунце_Рате': [20,20, 23,15,10,34]} дф = пд.ДатаФраме (КСИЗ_веб) принт (дф)

Оутпут :

Посетиоци Боунце_Рате дана 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Горњи код ће претворити речник у оквир података панде заједно са индексом лево. Сада, исецимо одређену колону из овог оквира података. Погледајте доњу слику:

испис (дф.хеад (2))

Излаз:

Посетиоци Боунце_Рате дана 0 20 1 1000 1 20 2 700

Слично томе, ако желите последња два реда података, унесите наредбу испод:

ц ++ како сортирати низ
принт (дф.таил (2))

Излаз:

Посетиоци Боунце_Рате дана 4 10 5 400 5 34 6 350

Следеће у водичу за Питхон Пандас, извршимо спајање и спајање.

Спајање и придруживање

При спајању можете спојити два оквира података да бисте формирали један оквир података. Такође можете да одлучите које колоне желите да учините заједничким. Дозволите ми да то практично применим, прво ћу створити три оквира података, који имају неке парове кључ / вредност, а затим спојити оквире података заједно. Погледајте доњи код:

ХПИ ИНД_ГДП Инт_Рате 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Излаз:

увези панде као пд дф1 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП': [50,45,45, 67]}, индекс = [2001, 2002,2003,2004]) дф2 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3] , 'ИНД_ГДП': [50,45,45,67]}, индекс = [2005, 2006,2007,2008]) спојено = пд.мерге (дф1, дф2) испис (спојено)

Као што видите горе, два оквира података су се стопила у један оквир података. Сада такође можете да одредите колону коју желите да учините заједничком. На пример, желим да колона „ХПИ“ буде уобичајена, а за све остало желим засебне колоне. Дакле, дозволите ми да то практично применим:

дф1 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП': [50,45,45,67]}, индекс = [2001, 2002,2003,2004]) дф2 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП' : [50,45,45,67]}, индекс = [2005, 2006,2007,2008]) спојено = пд.мерге (дф1, дф2, он = 'ХПИ') принт (спојено)

Излаз:

ИНД_ГДП Инт_Рате Лов_Тиер_ХПИ Незапосленост 2001 50 2 50,0 1,0 2002 45 1 НаН НаН 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Даље, хајде да разумемо придруживање у туторијалу за питхон панде. То је још један погодан метод комбиновања два различито индексирана оквира података у један оквир података резултата. Ово је прилично слично операцији „спајање“, осим што ће операција спајања бити на „индексу“ уместо на „колонама“. Применимо то практично.

дф1 = пд.ДатаФраме ({'Инт_Рате': [2,1,2,3], 'ИНД_ГДП': [50,45,45,67]}, индекс = [2001, 2002,2003,2004]) дф2 = пд.ДатаФраме ({'Лов_Тиер_ХПИ': [50,45,67,34], 'Незапосленост': [1,3,5,6]}, индекс = [2001, 2003,2004,2004]) јоинед = дф1. придружи се (дф2) испиши (споји)

Излаз:

ИНД_ГДП Инт_Рате Лов_Тиер_ХПИ Незапосленост 2001 50 2 50,0 1,0 2002 45 1 НаН НаН 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Као што можете приметити у горенаведеном излазу, у 2002. години (индекс) нема колона приложених за ступце „лов_тиер_ХПИ“ и „незапосленост“, па је зато одштампан НаН (није број). Касније 2004. године обе вредности су доступне, па је штампало одговарајуће вредности.

Можете проћи кроз ово снимање водича за Питхон Пандас где је наш инструктор детаљно објаснио теме са примерима који ће вам помоћи да боље разумете овај концепт.

Питхон за анализу података | Водич за Питхон Панде | Питхон Траининг | Едурека


Крећући се напред у водичу за патоне Питхон, хајде да схватимо како спојити два оквира података података.

Спајање

Спајање у основи лепи оквире података. Можете одабрати димензију на којој желите да се повежете. За то, само користите „пд.цонцат“ и проследите листу оквира података да бисте се спојили заједно. Размотрите доњи пример.

дф1 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП': [50,45,45,67]}, индекс = [2001, 2002,2003,2004]) дф2 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП' : [50,45,45,67]}, индекс = [2005, 2006,2007,2008]) цонцат = пд.цонцат ([дф1, дф2]) испис (цонцат)

Излаз:

ХПИ ИНД_ГДП Инт_Рате 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Као што видите горе, два оквира података су залепљена у један оквир података, где индекс почиње од 2001. па све до 2008. Даље, такође можете одредити ос = 1 да бисте се придружили, спојили или повезали дуж ступаца. Погледајте доњи код:

дф1 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП': [50,45,45,67]}, индек = [2001, 2002,2003,2004]) дф2 = пд.ДатаФраме ({'ХПИ': [80,90,70,60], 'Инт_Рате': [2,1,2,3], 'ИНД_ГДП' : [50,45,45,67]}, индекс = [2005, 2006,2007,2008]) цонцат = пд.цонцат ([дф1, дф2], оса = 1) испис (цонцат)

Излаз:

ХПИ ИНД_ГДП Инт_Рате ХПИ ИНД_ГДП Инт_Рате 2001 80,0 50,0 2,0 НаН НаН НаН 2002 90,0 45,0 1,0 НаН НаН НаН 2003 70,0 45,0 2,0 НаН НаН НаН 2004 60,0 67,0 3,0 НаН НаН НаН 2005 НаН НаН НаН 80,0 50,0 2,0 2006 НаН НаН НаН 90,0 45,0 1,0 2007 НаН НаН НаН 70,0 45,0 2,0 2008 НаН НаН НаН 60,0 67,0 3,0

Као што можете горе, постоји гомила вредности које недостају. То се дешава јер оквири података нису имали вредности за све индексе на којима желите да се повежете. Према томе, требали бисте бити сигурни да имате све информације правилно поредане када се спајате или спајате на оси.

Промените индекс

Следеће у водичу за патоне питхон-а, разумећемо како да променимо вредности индекса у оквиру података. На пример, направимо оквир података са неколико парова вредности кључева у речнику и променимо вредности индекса. Размотрите пример у наставку:

Погледајмо како се то заправо догађа:

увези панде као пд дф = пд.ДатаФраме ({'Дан': [1,2,3,4], 'Посетиоци': [200, 100,230,300], 'Боунце_Рате': [20,45,60,10]}) дф.сет_индек ('Дан', уместо = Труе) принт (дф)

Излаз:

Боунце_Рате Посетиоци Дан 1 20 200 2 45 100 3 60 230 4 10 300

Као што можете приметити у горњем излазу, вредност индекса је промењена у односу на колону „Дан“.

Промените заглавља колона

Променимо сада заглавља колоне у овом водичу за патоне питхон-а. Узмимо исти пример, где ћу заглавље колоне променити из „Посетиоци“ у „Корисници“. Дакле, дозволите ми да то практично применим.

увези панде као пд дф = пд.ДатаФраме ({'Дан': [1,2,3,4], 'Посетиоци': [200, 100,230,300], 'Боунце_Рате': [20,45,60,10]}) дф = дф.ренаме (колоне = {'Посетиоци': 'Корисници'}) принт (дф)

Излаз:

Корисници Боунце_Рате дана 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Као што видите горе, заглавље колоне „Посетиоци“ промењено је у „Корисници“. Следеће у туторијалу за питхон панде, извршимо мењање података.

Мењање података

У програму Мењање података можете претворити одређене податке у други формат. На пример, ако имате .цсв датотеку, можете је такође претворити у .хтмл или било који други формат података. Дакле, дозволите ми да ово практично применим.

увези панде као пд цоунтри = пд.реад_цсв ('Д: УсерсАаиусхиДовнлоадсворлд-банк-иоутх-незапосленостАПИ_ИЛО_цоунтри_ИУ.цсв', индек_цол = 0) цоунтри.то_хтмл ('еду.хтмл')

Једном када покренете овај код, креираће се ХТМЛ датотека под називом „еду.хтмл“. Можете директно копирати путању датотеке и залепити је у прегледач који приказује податке у ХТМЛ формату. Погледајте доњи снимак екрана:


Следеће у водичу за патоне питхон-а, погледајмо пример употребе који говори о глобалној незапослености младих.

прослеђивање аргумената командне линије у јави

Водич за Питхон Пандас: Користите случај за анализу података о незапослености младих

Изјава о проблему :Добијате скуп података који састоји се од процента незапослених младих на глобалном нивоу од 2010. до 2014. Морате да користите овај скуп података и пронађете промену у проценту младих за сваку земљу од 2010-2011.

Прво, хајде да разумемо скуп података који садржи колоне као Име државе, Позивни број државе и годину од 2010. до 2014. Сада, користећи панде, користићемо „пд.реад_цсв“ за читање датотеке .цсв формата датотеке.
Погледајте снимак екрана испод:

Кренимо даље и извршимо анализу података у којој ћемо сазнати проценат промене незапослених младих између 2010. и 2011. Тада ћемо то визуализовати користећи библиотека, која је моћна библиотека за визуелизацију у Питхону. Може се користити у Питхон скриптама, љусци, серверима веб апликација и другим ГУИ алаткама. Можете прочитати више овде:

Сада, применимо код у ПиЦхарм:

импорт пандас ас пд импорт матплотлиб.пиплот ас плт фром матплотлиб импорт стиле стиле.усе ('фиветхиртиеигхт') цоунтри = пд.реад_цсв ('Д: УсерсАаиусхиДовнлоадсворлд-банк-иоутх-незапосленостАПИ_ИЛО_цоунтри_ИУ.цсв', индек_цол = 0) дф = цоунтри. хеад (5) дф = дф.сет_индек (['позивни број државе]] сд = сд.реиндек (колоне = [' 2010 ',' 2011 ']) дб = сд.дифф (оса = 1) дб.плот (врста = 'бар') плт.схов ()

Као што видите горе, извршио сам анализу на првих 5 редова оквира података за земљу. Даље, дефинисао сам вредност индекса као „Позивни број државе“, а затим индексирам колону на 2010. и 2011. Затим, имамо још један оквир података дб, који исписује разлику између две колоне или проценат промене незапослених младих од 2010. до 2011. Коначно, нацртао сам плочу користећи Матплотлиб библиотеку у Питхону.


Сада, ако сте приметили на горњој завери, у Авганистану (АФГ) између 2010. и 2011. године, забележен је пораст незапослене омладине за око 0,25%. Тада у Анголи (АГО) постоји негативан тренд што значи да је смањен проценат незапослене омладине. Слично томе, можете извршити анализу на различитим скуповима података.

Надам се да је мој блог на тему „Питхон Пандас Туториал“ био релевантан за вас. Да бисте стекли детаљно знање о питхону, заједно са разним апликацијама, можете се пријавити за уживо Едурека са 24/7 подршком и доживотним приступом.

Имате питање за нас? Молимо вас да га спомињете у одељку за коментаре овог блога „Водич за Питхон Панде“ и јавићемо вам се што је пре могуће.