Шта је наука о подацима? Водич за почетнике за науку о подацима



Дата Сциенце је будућност вештачке интелигенције. Сазнајте шта је Дата Сциенце, како може додати вредност вашем предузећу и различитим фазама животног циклуса.

Како је свет ушао у еру великих података, тако је расла и потреба за њиховим складиштењем. То је био главни изазов и брига за индустрију предузећа до 2010. Главни фокус био је на изградњи оквира и решења за складиштење података. Сада када су Хадооп и други оквири успешно решили проблем складиштења, фокус се пребацио на обраду ових података. Дата Сциенце је тајни сос овде. Све идеје које видите у холивудским научно-фантастичним филмовима Дата Сциенце заправо могу претворити у стварност. Дата Сциенце је будућност вештачке интелигенције. Због тога је веома важно разумети шта је Дата Сциенце и како то може додати вредност вашем послу.

Изашао је Едурека 2019 Водич за техничку каријеру! Најпопуларније улоге у послу, прецизни путеви учења, перспективе индустрије и још много тога у водичу. Преузимање Сада.

На овом блогу ћу обрађивати следеће теме.





На крају овог блога моћи ћете да схватите шта је Дата Сциенце и која је њена улога у извлачењу значајних увида из сложених и великих скупова података свуда око нас.Да бисте стекли детаљно знање о науци о подацима, можете се пријавити за уживо Едурека са 24/7 подршком и доживотним приступом.

Шта је наука о подацима?

Дата Сциенце је спој различитих алата, алгоритама и принципа машинског учења с циљем откривања скривених образаца из сирових података. Али како се ово разликује од онога што статистичари раде годинама?



Одговор лежи у разлици између објашњавања и предвиђања.

Дата Аналист в / с Дата Сциенце - Едурека

Као што видите из горње слике, аналитичар податакаобично објашњава шта се догађа обрађивањем историје података. С друге стране, Дата Сциентист не само да врши истраживачку анализу како би открио увиде из ње, већ користи и разне напредне алгоритме машинског учења да би идентификовао појаву одређеног догађаја у будућности. Дата Сциентист ће податке гледати из многих углова, понекад из раније непознатих углова.



Дакле, Дата Сциенце се првенствено користи за доношење одлука и предвиђања користећи предиктивну узрочну аналитику, прескриптивну аналитику (предиктивна и наука о одлучивању) и машинско учење.

  • Предиктивна узрочна аналитика - Ако желите модел који може предвидети могућности одређеног догађаја у будућности, морате применити предиктивну узрочну аналитику. Рецимо, ако новац дајете на кредит, вероватноћа да ће купци извршити будућа плаћања на време је ствар која вас брине. Овде можете да направите модел који може да врши предиктивну аналитику на историји плаћања купца да би предвидео да ли ће будуће исплате бити на време или не.
  • Прескриптивна аналитика: Ако желите модел који има интелигенцију доношења властитих одлука и могућност да га модификује динамичким параметрима, сигурно вам је потребна аналитика прописа. Ово релативно ново поље односи се само на пружање савета. Другим речима, он не само да предвиђа већ предлаже низ прописаних радњи и повезаних исхода.
    Најбољи пример за то је Гооглеов самовозећи аутомобил о којем сам и раније разговарао. Подаци прикупљени возилима могу се користити за обуку самовозећих аутомобила. На тим подацима можете покретати алгоритме да бисте им унели интелигенцију. Ово ће омогућити вашем аутомобилу да доноси одлуке попут кога да скрене и којим путем да крене,када успорити или убрзати.
  • Машинско учење за давање предвиђања - Ако имате податке о трансакцијама финансијске компаније и требате да направите модел за одређивање будућег тренда, онда су алгоритми за машинско учење најбољи избор. Ово спада у парадигму учења под надзором. Зове се надгледано, јер већ имате податке на основу којих можете да обучавате своје машине. На пример, модел за откривање превара може се обучити користећи историјски запис преварних куповина.
  • Машинско учење за откривање образаца - Ако немате параметре на основу којих можете да предвиђате, потребно је да откријете скривене обрасце у скупу података да бисте могли да правите значајна предвиђања. Ово није ништа друго до модел без надзора јер немате унапред дефинисане ознаке за груписање. Најчешћи алгоритам који се користи за откривање шаблона је Кластерисање.
    Рецимо да радите у телефонској компанији и да морате успоставити мрежу постављањем торњева у региону. Затим можете користити технику кластерисања да бисте пронашли оне локације торња које ће осигурати да сви корисници добију оптималну снагу сигнала.

Погледајмо како се разликује удео горе описаних приступа за Анализу података као и Дата Сциенце. Као што можете видети на доњој слици, Анализа податакаукључује дескриптивну аналитику и предвиђање у одређеној мери. С друге стране, Дата Сциенце се више бави предиктивном узрочном аналитиком и машинским учењем.

Аналитика науке о подацима - Едурека

Сад кад знате шта је тачно Дата Сциенце, хајде сада да сазнате разлог зашто је она уопште била потребна.

Зашто наука о подацима?

  • Традиционално, подаци које смо имали били су углавном структурирани и мале величине, што се могло анализирати помоћу једноставних БИ алата.За разлику од података утрадиционални системи који су углавном били структурисани, данас је већина података неструктурирана или полуструктурирана. Погледајмо трендове података на доњој слици која показује да ће до 2020. године више од 80% података бити неструктурирано.
    Ток неструктурираних података - Едурека
    Ови подаци се генеришу из различитих извора попут финансијских евиденција, текстуалних датотека, мултимедијалних образаца, сензора и инструмената. Једноставни БИ алати нису способни да обраде ову огромну количину и разноликост података. Због тога су нам потребни сложенији и напреднији аналитички алати и алгоритми за обраду, анализу и цртање значајних увида из њих.

То није једини разлог зашто је Дата Сциенце постао толико популаран. Копајмо дубље и видимо како се Наука података користи у различитим доменима.

  • Шта кажете на то да ли бисте могли да разумете прецизне захтеве купаца из постојећих података, као што су прошлост клијентовог прегледавања, историја куповине, старост и приход. Нема сумње да сте и раније имали све ове податке, али сада са огромном количином и разноврсношћу података можете ефикасније да обучавате моделе и да прецизније препоручите производ својим купцима. Не би ли било невероватно јер ће вашој организацији донети више посла?
  • Узмимо другачији сценарио да бисмо разумели улогу науке о подацима у одлучивати.Шта кажете на то да је ваш аутомобил имао интелигенцију да вас вози кући? Самовозећи аутомобили прикупљају податке уживо са сензора, укључујући радаре, камере и ласере, како би створили мапу своје околине. На основу ових података, доносе се одлуке попут убрзања, када убрзања, када претицања, где скретање - користећи напредне алгоритме машинског учења.
  • Погледајмо како се Наука података може користити у предиктивној аналитици. Узмимо за пример временску прогнозу. Подаци са бродова, авиона, радара, сателита могу се прикупљати и анализирати за изградњу модела. Ови модели неће само предвидети временске прилике, већ ће такође помоћи у предвиђању појаве било каквих природних непогода. Помоћи ће вам да претходно предузмете одговарајуће мере и спасите многе драгоцене животе.

Погледајмо доњу инфографику да бисмо видели све домене на којима Дата Сциенце ствара утисак.

Случајеви коришћења науке о подацима - Едурека

Ко је научник података?

Постоји неколико дефиниција доступних за Дата Сциентист. Једноставним речима, научник података је онај који се бави уметношћу науке о подацима.Појам „Дата Сциентист“ јескован након разматрања чињенице да Дата Сциентист црпи много информација из научних области и примена било да се ради о статистици или математици.

Шта ради Дата Сциентист?

Научници података су они који решавају сложене проблеме са подацима својом снажном стручношћу у одређеним научним дисциплинама. Они раде са неколико елемената који се односе на математику, статистику, рачунарство итд. (Мада можда нису стручњак за све ове области).Користе најновије технологије у проналажењу решења и доношењу закључака који су пресудни за раст и развој организације. Научници о подацима представљају податке у много кориснијем облику у поређењу са сировим подацима који су им доступни из структурираних и неструктурираних образаца.

Да бисте сазнали више о Дата Сциентист-у, можете се позвати на овај чланак

Идемо даље, сада да разговарамо о БИ. Сигуран сам да сте можда чули и за Бусинесс Интеллигенце (БИ). Дата Сциенце се често меша са БИ. Навешћу неколико језгровитих и јаснихконтрасти између њих двоје који ће вам помоћи да боље разумете. Хајде да погледамо.

Пословна интелигенција (БИ) насупрот науци о подацима

  • Пословна интелигенција (БИ) у основи анализира претходне податке како би пронашла уназад и увид за описивање пословних трендова. Овде вам БИ омогућава преузимање података из спољних и унутрашњих извора, њихово припремање, покретање упита на њима и креирање контролних табли за одговарање на питања попуттромесечна анализа приходаили пословни проблеми. БИ може да процени утицај одређених догађаја у блиској будућности.
  • Наука о подацима је приступ усмјерен ка будућности, истраживачки начин са фокусом на анализу прошлих или тренутних података и предвиђање будућих исхода с циљем доношења утемељених одлука. Одговара на отворена питања о томе „шта“ и „како“ се догађају.

Погледајмо неке контрастне карактеристике.

Карактеристике Пословна интелигенција (БИ) Дата Сциенце
Извори податакаСтруктурирано
(Обично СКЛ, често складиште података)
И структурирани и неструктурирани

(евиденције, подаци у облаку, СКЛ, НоСКЛ, текст)

ПриступСтатистика и визуелизацијаСтатистика, машинско учење, анализа графикона, неуро-лингвистичко програмирање (НЛП)
Фокусирај сеПрошлости и садашњостиСадашњост и будућност
АлатиПентахо, Мицрософт БИ,КликВиев, Р.РапидМинер, БигМЛ, Века, Р.

Овде се радило само о томе шта је Дата Сциенце, хајде сада да разумемо животни циклус Дата Сциенце-а.

Честа грешка направљена у пројектима Дата Сциенце је журба у прикупљању и анализи података, без разумевања захтева или чак исправног уоквиривања пословног проблема. Због тога је веома важно да пратите све фазе током животног циклуса Науке о подацима како бисте осигурали несметано функционисање пројекта.

Животни циклус науке о подацима

Ево кратког прегледа главних фаза животног циклуса науке о подацима:

Животни циклус науке о подацима - Едурека


Откриће науке о подацима - ЕдурекаФаза 1 - Откриће:
Пре него што започнете пројекат, важно је разумети различите спецификације, захтеве, приоритете и потребан буџет. Морате имати способност постављања правих питања.Овде процењујете да ли имате потребне ресурсе у смислу људи, технологије, времена и података који подржавају пројекат.У овој фази такође треба да поставите пословни проблем и формулишете почетне хипотезе (ИХ) за тестирање.

Припрема података за Дата Сциенце - Едурека

Фаза 2 - Припрема података: У овој фази потребан вам је аналитички песковник у којем можете вршити аналитику током читавог трајања пројекта. Морате истражити, унапред обрадити и условити податке пре моделирања. Даље, извршићете ЕТЛТ (издвајање, трансформисање, учитавање и трансформисање) да бисте податке преузели у песковито окружење. Погледајмо ток статистичке анализе у наставку.

Животни циклус науке о подацима
Р можете користити за чишћење података, трансформацију и визуелизацију. Ово ће вам помоћи да уочите одступања и успоставите везу између променљивих.Након што очистите и припремите податке, време је да се истражитеаналитикабацам се на посао. Да видимо како то можете постићи.

Фаза 3 - планирање модела: Планирање модела науке података - Едурека Овде ћете одредити методе и технике за цртање односа између променљивих.Ови односи поставиће основу за алгоритме које ћете применити у следећој фази.Применићете Аналитику истраживачких података (ЕДА) користећи различите статистичке формуле и алате за визуелизацију.

Погледајмо разне алате за планирање модела.

Модел алата за планирање у науци података - Едурека

  1. Р. има комплетан сет могућности моделирања и пружа добро окружење за изградњу интерпретативних модела.
  2. Услуге СКЛ анализе може да врши аналитику у бази података користећи уобичајене функције рударења података и основне предиктивне моделе.
  3. САС / ПРИСТУП може се користити за приступ подацима из Хадооп-а и користи се за креирање поновљивих и поновних дијаграма тока модела.

Иако је на тржишту присутно много алата, али Р је алат који се најчешће користи.

Сад кад сте стекли увид у природу ваших података и одлучили сте који ће се алгоритми користити. У следећој фази ћетеприменитиалгоритам и изгради модел.

Израда модела науке о подацима - ЕдурекаФаза 4 - Израда модела: У овој фази ћете развити скупове података у сврхе обуке и тестирања. Ево иМорате размотрити да ли ће вам постојећи алати бити довољни за покретање модела или ће му требати робусније окружење (попут брзе и паралелне обраде). За изградњу модела анализираћете различите технике учења попут класификације, удруживања и груписања.

Израду модела можете постићи помоћу следећих алата.

Модел алата за изградњу у науци података

Фаза 5 - операционализација: Дата Сциенце операционализовати - Едурека У овој фази достављате завршне извештаје, брифинге, шифре и техничку документацију.Поред тога, понекад се пилот пројекат такође спроводи у производном окружењу у реалном времену. Ово ће вам пружити јасну слику перформанси и других сродних ограничења у малом обиму пре потпуне примене.


Комуникација у науци података - ЕдурекаФаза 6 - саопштавање резултата:
Сада је важно проценити да ли сте успели да постигнете свој циљ који сте планирали у првој фази. Дакле, у последњој фази идентификујете све кључне налазе, комуницирате са заинтересованим странама и утврђујете да ли су резултатипројекта су успех или неуспех на основу критеријума развијених у фази 1.

Сада ћу узети студију случаја да бих вам објаснио разне горе описане фазе.

Студија случаја: Превенција дијабетеса

Шта ако бисмо могли предвидети појаву дијабетеса и претходно предузети одговарајуће мере за његово спречавање?
У овом случају примене предвидећемо појаву дијабетеса користећи читав животни циклус о коме смо раније разговарали. Прођимо кроз разне кораке.

Корак 1:

  • Први,прикупљаћемо податке на основу историје болестипацијента, као што је објашњено у Фази 1. Можете погледати доле наведене узорке података.

Узорак података Дата Сциенце - Едурека

  • Као што видите, имамо разне атрибуте како је поменуто у наставку.

Атрибути:

  1. нпрег - Број трудноћа
  2. глукоза - концентрација глукозе у плазми
  3. бп - крвни притисак
  4. кожа - дебљина набора трицепса
  5. бми - Индекс телесне масе
  6. пед - Дијабетесна родословна функција
  7. старост - старост
  8. доходак - доходак

Корак 2:

  • Кад једном добијемо податке, морамо их очистити и припремити за анализу података.
  • Ови подаци имају пуно недоследности попут недостајућих вредности, празних колона, наглих вредности и нетачног формата података које треба очистити.
  • Овде смо податке организовали у једну табелу под различитим атрибутима - чинећи да изгледају структурираније.
  • Погледајмо доленаведене узорке података.

Наука о подацима неусаглашени подаци - Едурека

Ови подаци имају пуно недоследности.

  1. У колони нпрег , „Један“ је написан наречи,док би требало да буде у нумеричком облику попут 1.
  2. У колони бп једна од вредности је 6600 што је немогуће (бар за људе) као што бп не може да достигне тако велику вредност.
  3. Као што видите Приход колона је празна и такође нема смисла у предвиђању дијабетеса. Стога је сувишно имати га овде и треба га уклонити из табеле.
  • Дакле, очистићемо и унапред обрадити ове податке уклањањем крајњих вредности, попуњавањем нулл вредности и нормализацијом типа података. Ако се сећате, ово је наша друга фаза која је предобрада података.
  • Коначно, добијамо чисте податке као што је приказано у наставку који се могу користити за анализу.

Конзистентни подаци Дата Сциенце - Едурека

Корак 3:

Хајде сада да направимо анализу о којој је раније било речи у Фази 3.

  • Прво ћемо податке учитати у аналитички песковник и применити на њега разне статистичке функције. На пример, Р има функције попут описује што нам даје број вредности које недостају и јединствене вредности. Такође можемо користити функцију резимеа која ће нам пружити статистичке податке попут средњих вредности, медијана, опсега, мин и мак вредности.
  • Затим користимо технике визуелизације као што су хистограми, линијски графикони, графикони оквира да бисмо стекли поштену представу о дистрибуцији података.

Визуелизација науке о подацима - Едурека

Корак 4:

Сада, на основу увида из претходног корака, најбоље одговара овој врсти проблема је стабло одлучивања. Да видимо како?

  • С обзиром да већ имамо главне атрибуте за анализу попут нпрег, бми итд., па ћемо користитинадгледана техника учења за изградњу амодел овде.
  • Даље, посебно смо користили стабло одлучивања јер узима у обзир све атрибуте у једном потезу, попут оних који имају алинеарни однос као и они који имају нелинеаран однос. У нашем случају имамо линеарни однос између нпрег и старост, док је нелинеарни однос између нпрег и пед .
  • Модели стабла одлучивања су такође врло робусни јер можемо користити различиту комбинацију атрибута за израду различитих стабала, а затим коначно имплементирати оно са максималном ефикасношћу.

Погледајмо наше стабло одлука.

Скуп података о стаблу дизајна

Овде је најважнији параметар ниво глукозе, па је то наш коријенски чвор. Сада, тренутни чвор и његова вредност одређују следећи важан параметар који треба узети. То траје све док не добијемо резултат у смислу поз или нег . Поз значи да је тенденција оболевања од дијабетеса позитивна, а нег значи да је склоност дијабетесу негативна.

Ако желите да сазнате више о примени стабла одлука, погледајте овај блог

Корак 5:

У овој фази ћемо покренути мали пилот пројекат да бисмо проверили да ли су наши резултати одговарајући. Такође ћемо тражити ограничења перформанси ако их има. Ако резултати нису тачни, онда морамо поново да планирамо и поново изградимо модел.

Корак 6:

Једном када успешно изведемо пројекат, делићемо резултате за пуну примену.

хадооп административне улоге и одговорности

Бити научник података је лакше рећи него учинити. Па, да видимо шта све треба да бисте били научник података.Дата Сциентист у основи захтева вештинеиз три главне области као што је приказано у наставку.

Вештине науке о подацима - Едурека

Као што видите на горњој слици, потребно је да стекнете разне тврде и меке вештине. Треба бити добар у статистика и математика за анализу и визуализацију података. Непотребно рећи, Машинско учење чини срце науке о подацима и захтева да будете добри у томе. Такође, морате добро да разумете домен радите на томе да јасно разумете пословне проблеме. Ваш задатак се овде не завршава. Требали бисте бити способни за примену различитих алгоритама који захтевају добро кодирање вештине. Коначно, након што донесете одређене кључне одлуке, важно је да их доставите заинтересованим странама. Тако добро комуникација дефинитивно ће додати бодове за бровние вашим вештинама.

Подстичем вас да погледате овај видео водич за Дата Сциенце који објашњава шта је Дата Сциенце и све о чему смо разговарали на блогу. Само напред, уживајте у видеу и реците ми шта мислите.

Шта је наука о подацима? Курс науке о подацима - Водич за науку о подацима за почетнике | Едурека

Овај видео курс за Едурека науку о подацима водиће вас кроз потребе науке о подацима, шта је наука о подацима, случајеви употребе података за пословање, БИ вс наука о подацима, алати за аналитику података, животни циклус науке о подацима, заједно са демонстрацијом.

На крају, неће бити погрешно рећи да будућност припада научницима података. Предвиђа се да ће до краја 2018. године бити потребно око милион научника за податке. Све више података пружаће могућности за доношење кључних пословних одлука. Ускоро ће променити начин на који гледамо на свет препун података око себе. Према томе, Дата Сциентист треба да буде високо квалификован и мотивисан за решавање најсложенијих проблема.

Надам се да сте уживали читајући мој блог и разумели шта је Дата Сциенце.Погледајте наш овде то долази са обуком под водством инструктора уживо и искуством у стварном животу.