Снажне трансформације с прозором у светлу за искра



Овај пост на блогу расправља о трансформацијама са статусом прозора у програму Спарк Стреаминг. Научите све о праћењу података кроз све серије помоћу Д-Стреамова.

Прилог Притхвирај Босе

На овом блогу ћемо разговарати о концепту прозирања државних трансформација компаније Апацхе Спарк.





Шта је трансформација државе?

Спарк стреаминг користи микро батцх архитектуру где се долазни подаци групишу у микро серије под називом Дисцретизед Стреамс (ДСтреамс) која такође служи као основна програмска апстракција. ДСтреамови интерно имају еластичне дистрибуиране скупове података (РДД) и као резултат ове стандардне РДД трансформације и радње се могу извршити.



У стримовању, ако имамо случај употребе за праћење података по групама, тада су нам потребни државни ДСтреамови.

На пример, можемо пратити интеракцију корисника на веб локацији током корисничке сесије или можемо пратити одређени хештег твиттер-а током времена и видети који корисници широм света о томе говоре.

Врсте државне трансформације.



Државни ДСтреамови су две врсте - праћење засновано на прозору и потпуно праћење сесија.

За праћење стања сви долазни подаци треба да се трансформишу у парове кључ / вредност, тако да се кључна стања могу пратити у групама. Ово је предуслов.

Даље, такође бисмо требали омогућити контролну тачку, концепт о којем ћемо расправљати на каснијим блоговима.

> Праћење засновано на прозору

У праћењу заснованом на прозору, долазне серије су груписане у временским интервалима, тј. Групне серије сваке 'к' секунде. Даља израчунавања на овим серијама врше се помоћу интервала слајдова.

На пример, ако је интервал прозора = 3 сек, а интервал слајда = 2 сек, тада ће се сви долазни подаци груписати у групе на сваке 3 секунде, а прорачуни на тим групама ће се одвијати сваке 2 секунде. Алтернативно можемо рећи, радите прорачуне сваке 2 секунде на серијама које су стигле у последње 3 секунде.

spark-streaming-dstream-window

На горњем дијаграму видимо да се долазне серије групишу сваке 3 јединице времена (интервал прозора), а прорачуни се врше сваке 2 јединице времена (интервал слајдова).
Напомена: За разлику од Апацхе Флинк, Апацхе Спарк нема концепт превртања прозора, сви прозори су клизни.

ВАТРА

Популарни АПИ за трансформације засноване на прозорима је

ПаирДСтреамФунцтионс.редуцеБиКеиАндВиндов .

Постоји неколико преоптерећених верзија овог АПИ-ја, погледајмо ону која има највећи број параметара. Након овог објашњења, остале преоптерећене верзије овог АПИ-ја требале би бити саморазумљиве.

како користити стрингбуффер у јави

Враћа: трансформисани ДСтреам [(К, В)]

редуцеФунц : Асоцијативна редукциона функција.

инвРедуцеФунц : Инверзна горе наведена функција смањења. Ово је потребно за ефикасно рачунање долазних и одлазних серија. Помоћу ове функције вредност одлазећих серија одузима се од акумулиране вредности горе наведене функције смањења. На пример, ако рачунамо зброј долазних вредности за одговарајуће кључеве, тада ћемо за одлазне пакете одузети вредности за одговарајуће кључеве (под условом да су присутни у тренутној серији, а занемарују се).

виндовДуратион : Јединице времена за груписање серија, ово би требало да буде вишекратник интервала серије.

слидеДуратион : Јединице времена за израчунавање, ово би требало да буде вишекратник интервала серије. преграде : Партиционер који ће се користити за складиштење резултујућег ДСтреама. За више информација о подели прочитајте ово .

филтерФунц : Функција филтрирања истеклих парова кључ / вредност, тј. На пример, ако не добијемо ажурирање за кључ неко време, можда бисмо желели да га уклонимо.

Ево а програм да броји речи које долазе из тока утичнице. Користили смо преоптерећену верзију горње функције са интервалом прозора од 4 секунде и интервалом слајда од 2 секунде.

У следећем блогу ћу писати о потпуном праћењу сесија и контролним тачкама.

Имате питање за нас? Молимо вас да то споменете у одељку за коментаре и јавићемо вам се.

Повезани постови:

Дистрибуирано кеширање са емитованим променљивим