Водич за велике податке: Све што треба да знате о великим подацима!

Овај блог на водичу за велике податке даје вам потпун преглед великих података, његових карактеристика, примена као и изазова са великим подацима.

Водич за велике податке

Велики подаци, нисте ли раније чули овај термин? Сигуран сам да јесте. У последњих 4 до 5 година сви говоре о великим подацима. Али да ли заиста знате шта су тачно ови Велики подаци, како они утичу на наш живот и зашто организације траже професионалце са ? У овом водичу за велике податке даћу вам потпун увид у велике податке.

Испод су теме које ћу обрадити у овом водичу за велике податке:





  • Прича о великим подацима
  • Чимбеници који покрећу велике податке
  • Шта су велики подаци?
  • Карактеристике великих података
  • Врсте великих података
  • Примери великих података
  • Примене великих података
  • Изазови са великим подацима

Водич за велике податке - Едурека

Дозволите ми да започнем овај водич за велике податке кратком причом.



Прича о великим подацима

У давна времена људи су путовали из једног у друго село на коњским колима, али како је време пролазило, села су постајала градови и људи су се ширили. Повећала се и удаљеност путовања од једног до другог града. Дакле, постао је проблем путовати између градова, заједно са пртљагом. Из ведра неба, један паметни момак је предложио, требало би да више дотеривамо и хранимо коња да бисмо решили овај проблем. Када погледам ово решење, није толико лоше, али да ли мислите да коњ може постати слон? Мислим да није. Други паметњаковић је рекао, уместо да један коњ вуче колица, дајте нам 4 коња да вуку иста колица. Шта мислите о овом решењу? Мислим да је то фантастично решење. Сада људи могу прећи велике раздаљине за мање времена и чак носити више пртљага.

Исти концепт важи и за велике податке. Биг Дата кажу, до данас смо били у реду са складиштењем података на нашим серверима, јер је обим података био прилично ограничен, а време за обраду ових података такође је било у реду. Али сада у овом тренутном технолошком свету подаци расту пребрзо и људи се пуно пута ослањају на њих. Такође брзином којом подаци расту, постаје немогуће чувати податке на било ком серверу.

Кроз овај блог на водичу за велике податке, истражимо изворе великих података, које традиционални системи не успевају да сачувају и обраде.



Чимбеници који покрећу велике податке

Количина података на планети Земљи експоненцијално расте из многих разлога. Разни извори и наше свакодневне активности генеришу пуно података. Изумом мреже читав свет се повезао на мрежу, свака ствар коју радимо оставља дигитални траг. Са повезивањем паметних објеката на мрежу, брзина раста података се брзо повећала. Главни извори великих података су веб локације друштвених медија, сензорске мреже, дигиталне слике / видео снимци, мобилни телефони, евиденције трансакција куповине, веб евиденције, медицинске евиденције, архиве, војни надзор, електронска трговина, сложена научна истраживања и тако даље. Све ове информације износе око неких квинтилионских бајтова података. До 2020. године обим података ће бити око 40 Зеттабитес-а, што је еквивалентно додавању сваког појединачног зрна песка на планети помноженог са седамдесет и пет.

Шта су велики подаци?

Велики подаци су израз који се користи за скуп великих и сложених скупова података, који је тешко чувати и обрађивати помоћу доступних алата за управљање базама података или традиционалних апликација за обраду података. Изазов укључује хватање, кустос, складиштење, претраживање, дељење, пренос, анализу и визуализацију ових података.

Карактеристике великих података

Пет карактеристика које дефинишу велике податке су: запремина, брзина, разноликост, истинитост и вредност.

  1. ОБИМ

    Обим се односи на „количину података“, која расте из дана у дан врло брзим темпом. Величина података које генеришу људи, машине и њихова интеракција на самим друштвеним мрежама је огромна. Истраживачи су предвидели да ће до 2020. бити генерисано 40 зетабајта (40.000 егзабајта), што је повећање од 300 пута у односу на 2005. годину.

  2. ХИТРОСТ

    Брзина је дефинисана брзином којом различити извори свакодневно генеришу податке. Овај проток података је масиван и континуиран. На Мобиле-у тренутно има 1,03 милијарде дневно активних корисника (Фацебоок ДАУ), што је пораст од 22% у односу на прошлу годину. То показује колико брзо расте број корисника на друштвеним мрежама и колико брзо се подаци генеришу свакодневно. Ако будете могли да се носите са брзином, моћи ћете да генеришете увиде и доносите одлуке на основу података у реалном времену.

  3. СОРТА

    Како постоји много извора који доприносе великим подацима, врста података коју генеришу је другачија. Може бити структуриран, полуструктуриран или неструктуриран. Стога постоје разни подаци који се генеришу свакодневно. Раније смо податке добијали из Екцела и база података, сада подаци долазе у облику слика, аудио записа, видео записа, података сензора итд., Као што је приказано на доњој слици. Стога ова разноликост неструктурираних података ствара проблеме у хватању, складиштењу, рударству и анализи података.

  4. ВЕРАКТНОСТ

    Истинитост се односи на податке о којима постоји сумња или несигурност података због њихове недоследности и непотпуности. На доњој слици можете видети да у табели недостаје неколико вредности. Такође, неколико вредности је тешко прихватити, на пример - 15000 минималне вредности у 3. реду, то није могуће. Ова недоследност и непотпуност је истинитост.
    Доступни подаци понекад могу постати неуредни и можда им је тешко веровати. Са многим облицима великих података, квалитет и тачност је тешко контролисати попут Твиттер постова са хештеговима, скраћеницама, грешкама у куцању и разговорним говором. Обим је често разлог недостатка квалитета и тачности података.

    • Због несигурности података, сваки трећи пословни лидер нема поверења у информације које користе за доношење одлука.
    • У истраживању је утврђено да 27% испитаника није сигурно колико је њихових података нетачно.
    • Лош квалитет података кошта америчку економију око 3,1 билион долара годишње.
  5. ВРЕДНОСТ

    Након расправе о запремини, брзини, разноликости и веродостојности, постоји још један В који треба узети у обзир када се гледају велики подаци, тј. Вредност. Све је добро и добро имати приступ великомподациалиако га не можемо претворити у вредност, бескорисно је. Претварајући га у вредност, мислим, да ли то додаје користи организацијама које анализирају велике податке? Да ли организација ради на великим подацима да би постигла висок повраћај улагања? Бескорисно је ако им не дода зараду радећи на великим подацима.

Прођите кроз наш видео о великим подацима у наставку да бисте сазнали више о Биг подацима:

Водич за велике податке за почетнике | Шта су велики подаци | Едурека

Као што је разматрано у програму Вариети, постоје различите врсте података који се генеришу свакодневно. Дакле, хајде да сада разумемо типове података:

за шта се користи монгодб

Врсте великих података

Велики подаци могу бити три врсте:

  • Структурирано
  • Полуструктурирано
  • Неструктурирано

  1. Структурирано

    Подаци који се могу чувати и обрађивати у фиксном формату називају се структурирани подаци. Подаци ускладиштени у релационом систему управљања базама података (РДБМС) један су од примера „структурираних“ података. Лако је обрадити структуриране податке јер имају фиксну шему. За управљање таквом врстом података често се користи структурирани језик упита (СКЛ).

  2. Полуструктурирано

    Полуструктурирани подаци су врста података која нема формалну структуру модела података, тј. Дефиницију табеле у релационом ДБМС-у, али без обзира на то има нека организациона својства попут ознака и других маркера за одвајање семантичких елемената што олакшава да анализирају. КСМЛ датотеке или ЈСОН документи су примери полуструктурираних података.

  3. Неструктурирано

    Подаци који су непознате форме и не могу се чувати у РДБМС-у и не могу се анализирати уколико се не трансформишу у структурирани формат називају неструктурираним подацима. Текстуалне датотеке и мултимедијални садржаји попут слика, аудио записа, видео записа пример су неструктурираних података. Неструктурирани подаци расту брже од осталих, стручњаци кажу да је 80 посто података у организацији неструктурирано.

До сада сам управо покривао увођење великих података. Даље, ово упутство за велике податке говори о примерима, апликацијама и изазовима у Биг Дата-у.

Примери великих података

Свакодневно преносимо милионе бајтова података. 90% светских података створено је у последње две године.

  • Валмарт се бави више од 1 милион трансакције купаца сваког сата.
  • Фацебоок чува, приступа и анализира 30+ петабајта података које генеришу корисници.
  • 230+ милиона твитова се креирају сваки дан.
  • Више од 5 милијарди људи широм света зову, смс-у, твеетовима и прегледавају мобилне телефоне.
  • ИоуТубе корисници отпремају 48 сати новог видео снимка сваког минута у дану.
  • Амазон рукује 15 милиона клијент кликне на ток корисничких података дневно да би препоручио производе.
  • 294 милијарде имејлови се шаљу сваког дана. Услуге анализирају ове податке како би пронашле нежељену пошту.
  • Савремени аутомобили имају близу 100 сензора које надгледа ниво горива, притисак у гумама итд., свако возило генерише пуно података о сензорима.

Примене великих података

Не можемо разговарати о подацима без разговора о људима, људима који имају користи од апликација за велике податке. Готово све индустрије данас користе апликације за велике податке на један или други начин.

  • Паметније здравство : Користећи петабајте података пацијента, организација може да извуче значајне информације, а затим да изгради апликације које могу унапред да предвиде погоршање стања пацијента.
  • Телеком : Телеком сектор прикупља информације, анализира их и нуди решења за различите проблеме. Коришћењем апликација Биг Дата, телеком компаније су могле знатно да смање губитак пакета података, који се дешава када су мреже преоптерећене, и на тај начин пружају беспрекорну везу својим купцима.
  • Малопродаја : Малопродаја има неке од најужих маржи и један је од највећих корисника великих података. Лепота коришћења великих података у малопродаји је разумевање понашања потрошача. Амазонов механизам препорука даје предлог на основу историје прегледања потрошача.
  • Контрола саобраћаја : Загушеност саобраћаја главни је изазов за многе градове широм света. Ефикасна употреба података и сензора биће кључна за боље управљање саобраћајем како градови постају све гушће насељени.
  • Производња : Анализа великих података у производној индустрији може смањити недостатке компонената, побољшати квалитет производа, повећати ефикасност и уштедети време и новац.
  • Квалитет претраге : Сваки пут када извлачимо информације из гоогле-а, истовремено генеришемо податке за њих. Гоогле чува ове податке и користи их за побољшање квалитета претраге.

Неко је с правом рекао: „Није све у врту ружичасто!“ . До сада у овом водичу за велике податке, управо сам вам показао ружичасту слику великих података. Али ако је било тако лако искористити велике податке, зар не мислите да би све организације уложиле у њих? Да вам кажем унапред, то није случај. Постоји неколико изазова који се јављају када радите са великим подацима.

Сада када сте упознати са Биг Дата-ом и његовим разним функцијама, следећи одељак овог блога у водичу за Биг Дата осветлиће неке од главних изазова са којима се суочавају Биг Дата.

Изазови са великим подацима

Дозволићу вам да вам кажем неколико изазова који долазе уз Биг Дата:

  1. Квалитет података - Овде је проблем 4тхВ тј. Истинитост. Подаци су овде врло неуредни, недоследни и непотпуни. Прљави подаци годишње коштају компаније у Сједињеним Државама 600 милијарди долара.
  1. Откриће - Проналажење увида у Биг Дата је попут проналажења игле у пласту сена. Анализа петабајта података помоћу изузетно моћних алгоритама за проналажење образаца и увида је веома тешка.
  1. Складиште - Што више података организација има, то сложенији могу да постану проблеми управљања. Овде се поставља питање „Где га складиштити?“. Потребан нам је систем за складиштење који се лако може повећати или смањити на захтев.
  1. Аналитика - У случају великих података, већину времена нисмо свесни врсте података са којима имамо посла, па је анализа тих података још тежа.
  1. Сигурност - Будући да су подаци велике величине, још један изазов је њихово одржавање. Укључује аутентификацију корисника, ограничавање приступа на основу корисника, бележење историје приступа подацима, правилно коришћење шифровања података итд.
  1. Недостатак талента - Постоји много пројеката великих података у великим организацијама, али софистицирани тим програмера, научника и аналитичара података који такође имају довољну количину знања о домену је и даље изазов.

Хадооп за спас

Имамо спаситеља за суочавање са изазовима великих података - њиховим Хадооп . Хадооп је програмски оквир заснован на Јави који подржава складиштење и обраду изузетно великих скупова података у дистрибуираном рачунарском окружењу. Део је пројекта Апацхе који спонзорише Апацхе Софтваре Фоундатион.

Хадооп својом дистрибуираном обрадом ефикасније рукује великим количинама структурираних и неструктурираних података од традиционалног складишта података предузећа. Хадооп омогућава покретање апликација на системима са хиљадама роба хардверских чворова и руковање хиљадама терабајта података. Организације усвајају Хадооп јер је софтвер отвореног кода и може да ради на робном хардверу (вашем личном рачунару).Почетна уштеда трошкова је драматична јер је роба хардвера врло јефтина. Како се организациони подаци повећавају, у ходу морате да додајете све више и више робног хардвера да бисте га складиштили, па се стога Хадооп показује економичним.Поред тога, Хадооп иза себе има робусну Апацхе заједницу која наставља да доприноси њеном напретку.

Као што сам раније обећао, путем овог блога у водичу за велике податке пружио сам вам максималан увид у велике податке. Ово је крај Водича за велике податке. Сада је следећи корак напред упознавање и учење Хадоопа. Имамо серија Хадооп туторијала блогови који ће детаљно дати знање о комплетном Хадооп екосистему.

Свака част, Срећан Хадоопинг!

Сад кад сте схватили шта су Биг Дата, погледајте Едурека, поуздана компанија за учење на мрежи са мрежом од више од 250.000 задовољних ученика раширених широм света. Едурека курс за обуку сертификата за велике податке Хадооп помаже ученицима да постану стручњаци за ХДФС, предиво, МапРедуце, ​​свињу, кошницу, ХБасе, Оозие, Флуме и Скооп користећи случајеве коришћења у реалном времену на малопродаји, друштвеним медијима, ваздухопловству, туризму, домену финансија.

Имате питање за нас? Молимо вас да то споменете у одељку за коментаре и јавићемо вам се.

Повезани постови:

разлика између класе и интерфејса