Дистрибуирано кеширање са емитованим променљивим: Апацхе Спарк

Овај пост на блогу говори о дистрибуираном кеширању са променљивим емисијама и започиње са ефикасном дистрибуцијом великих вредности у програму Спарк.

Прилог Притхвирај Босе



Емитоване променљиве су корисне када је потребно да велики скупови података буду кеширани у извршиоцима. Овај блог објашњава како започети.

Шта су променљиве емитовања?



Емитоване променљиве у Апацхе Спарк-у су механизам за дељење променљивих између извршилаца које су намењене само за читање. Без емитованих променљивих ове би се променљиве испоручивале сваком извршиоцу за сваку трансформацију и радњу, а то може проузроковати додатне трошкове мреже. Међутим, са променљивим емисијама, оне се испоручују једном свим извршитељима и кеширају за будућу референцу.

Случај коришћења променљивих емитовања

Замислите да док радимо трансформацију морамо да потражимо велику табелу поштанских бројева / пин кодова. Овде није изведиво ни да сваки пут пошаљемо велику извршну табелу извршиоцима, нити можемо сваки пут да упитамо базу података. Решење би требало да буде конвертовање ове табеле претраживања у променљиве емитовања и Спарк ће је кеширати у сваком извршиоцу за будућу референцу.

Узмимо једноставан пример да бисмо разумели горње концепте. Имамо ЦСВ датотеку са именима држава и њиховим главним градовима. ЦСВ датотеку можете пронаћи овде .



CSV-file-distributed-caching

Под претпоставком да обрађујемо демографске податке земаља и да морамо добити главни град те земље. У овом случају податке у ЦСВ датотеци можемо претворити у променљиву за емитовање.

Прво учитавамо ЦСВ датотеку у мапу, ако је датотека пронађена, онда се метода враћа Неке земље) иначе се враћа Ниједан .

како инсталирати хадооп у убунту

Након успешног учитавања ЦСВ датотеке, мапу претварамо у променљиву емитовања и користимо је у нашем програму.

У исечку кода изнад учитавамо ЦСВ датотеку на мапу земље онда ту мапу претварамо у променљиву емитовања цоунтриесЦацхе . После тога креирамо РДД од тастера земље . У сеарцхЦоунтриДетаилс методом претражујемо све земље које почињу с кориснички дефинисаним словом, а метода враћа РДД земаља заједно са њиховим главним градовима. Емитована променљива цоунтриеЦацхе користи се за тражење главних градова.
На овај начин не треба да шаљемо целокупне ЦСВ податке сваки пут када треба да претражимо.

Код за сеарцхЦоунтриДетаилс је приказано доле,

Може се наћи читав изворни код овде .

Имате питање за нас? Спомените их у одељку за коментаре и јавићемо вам се.

Повезани постови:

Објашњени акумулатори варница

Апацхе Спарк цомбБиКеи Објашњено