Кумулативна трансформација са стањем у Апацхе Спарк Стреаминг-у



Овај пост на блогу расправља о трансформацијама које су важне за Спарк Стреаминг. Сазнајте све о кумулативном праћењу и вештинама за Хадооп Спарк каријеру.

Прилог Притхвирај Босе

У свом претходном блогу сам дискутовао о трансформацијама са статусом користећи концепт прозора Апацхе Спарк Стреаминг. Можете га прочитати овде .





пивот и унпивот у скл серверу

У овом посту ћу разговарати о кумулативним операцијама са статусом у Апацхе Спарк Стреаминг-у. Ако сте нови у Спарк Стреаминг-у, топло вам препоручујем да прочитате мој претходни блог како бисте разумели како функционише прозорско отварање.

Врсте трансформације са стањем у искрењу (наставак…)

> Кумулативно праћење

Користили смо редуцеБиКеиАндВиндов (…) АПИ за праћење стања кључева, међутим отварање прозора поставља ограничења за одређене случајеве употребе. Шта ако желимо да акумулирамо стања кључева у целини, уместо да га ограничавамо на временски прозор? У том случају бисмо морали да користимо упдатеСтатеБиКеи (…) ВАТРА.



Овај АПИ је представљен у Спарк 1.3.0 и био је веома популаран. Међутим, овај АПИ има неке режијске перформансе, његове перформансе се погоршавају како се величина држава повећава с временом. Написао сам узорак да покажем употребу овог АПИ-ја. Можете пронаћи код овде .

Спарк 1.6.0 је представио нови АПИ мапВитхСтате (…) што решава опште трошкове перформанси које поставља упдатеСтатеБиКеи (…) . На овом блогу ћу разговарати о овом конкретном АПИ-ју користећи пример програма који сам написао. Можете пронаћи код овде .

Пре него што зароним у пролаз кроз код, поштедимо неколико речи на контролној тачки. За сваку трансформацију са статусом државе, контролна тачка је обавезна. Контролна тачка је механизам за враћање стања кључева у случају да програм управљачког програма закаже. Када се управљачки програм поново покрене, стање кључева се обнавља из датотека контролне тачке. Локације контролних тачака су обично ХДФС или Амазон С3 или било које поуздано складиште. Током тестирања кода, такође се може чувати у локалном систему датотека.



У узорку програма слушамо ток текста утичнице на хост = лоцалхост и порт = 9999. Токенизира долазни ток у (речи, број појављивања) и прати број речи користећи АПИ 1.6.0 АПИ мапВитхСтате (…) . Поред тога, кључеви без ажурирања се уклањају помоћу СтатеСпец.тимеоут АПИ. Проверу вршимо у ХДФС-у, а учесталост провере је сваких 20 секунди.

Направимо прво сесију Спарк Стреаминг,

Spark-streaming-session

Ми креирамо цхецкпоинтДир у ХДФС-у, а затим позовите објектну методу гетОрЦреате (…) . Тхе гетОрЦреате АПИ проверава цхецкпоинтДир да би се видело да ли постоје нека претходна стања за обнављање, ако то постоји, он поново ствара сесију Спарк Стреаминг и ажурира стања кључева из података сачуваних у датотекама пре него што крене са новим подацима. У супротном ствара нову сесију Спарк Стреаминг.

Тхе гетОрЦреате узима име директорија контролне тачке и функцију (коју смо именовали цреатеФунц ) чији потпис треба да буде () => СтреамингЦонтект .

Испитајмо код изнутра цреатеФунц .

Линија 2: Стварамо контекст за стримовање са називом посла на „ТестМапВитхСтатеЈоб“ и интервалом серије = 5 секунди.

Ред # 5: Поставите директоријум контролне тачке.

је а има однос

Ред # 8: Подесите спецификацију стања помоћу класе орг.апацхе.стреаминг.СтатеСпец објект. Прво постављамо функцију која ће пратити стање, затим постављамо број партиција за резултујуће ДСтреамове који ће се генерисати током наредних трансформација. На крају смо поставили временско ограничење (на 30 секунди), ако се не добије никакво ажурирање кључа за 30 секунди, стање кључа ће бити уклоњено.

Ред 12 #: Подесите ток утичнице, поравнајте долазне пакетне податке, направите пар кључ / вредност, позовите мапВитхСтате , подесите интервал провере на 20с и на крају одштампајте резултате.

Спарк фрамеворк позива тх е цреатеФунц за сваки кључ са претходном вредношћу и тренутним стањем. Израчунавамо збир и ажурирамо стање кумулативним збиром и на крају враћамо збир за кључ.

јава претвори двоструко у цео број

Гитхуб извори -> ТестМапСтатеВитхКеи.сцала , ТестУпдатеСтатеБиКеи.сцала

Имате питање за нас? Молимо вас да то споменете у одељку за коментаре и јавићемо вам се.

Повезани постови:

Започните са Апацхе Спарк & Сцала

Снажне трансформације с прозором у светлујућем току