Водич за сцрапију: Како направити веб-пописивач помоћу Сцрапи-а?



У овом чланку водича за Сцрапи научићете како да направите веб-претраживач са различитим техникама издвајања података и начинима за складиштење података у бази података.

Веб стругање је ефикасан начин прикупљања података са веб страница и постало је ефикасан алат у . Са разним библиотеке присутан за стругање по интернету попут , рад научника за податке постаје оптималан. Сцрапи је моћан веб оквир који се користи за издвајање, обраду и чување података. Научићемо како можемо направити веб-пописивач у овом водичу за терапију, а следеће теме су дискутоване на овом блогу:

Шта је Сцрапи?

Сцрапи је бесплатни оквир за пузање веб страница отвореног кода написан на питхон-у. Првобитно је дизајниран за извођење , али се такође може користити за издвајање података помоћу АПИ-ја. Одржава га Сцрапингхуб лтд.





Сцрапи је комплетан пакет када је у питању преузимање веб страница, обрада и чување података на .

То је попут моћне електране када је у питању стругање по мрежи са више начина за стругање веб странице. Сцрапи лако решава веће задатке, стружући више страница или групу УРЛ-ова за мање од минута. Користи твистер који ради асинхроно да би се постигла подударност.



Пружа паукове уговоре који нам омогућавају да створимо генеричке, као и дубоке алатке за индексирање. Сцрапи такође обезбеђује цевоводе предмета за стварање функција у пауку које могу изводити разне операције попут замене вредности у подацима итд.

сцрапи архитектура-сцрап туториал-едурека

Шта је веб-пописивач?

Веб-пописивач је програм који аутоматски претражује документе на мрежи. Превасходно су програмирани за понављајуће акције за аутоматизовано прегледање.

Како то ради?



јава систем.екит (0)

Пописивач веб је прилично сличан библиотекару. Потражује информације на вебу, категорише их, а затим индексира и каталогизира информације за пописане информације како би их преузели и ускладиштили.

Операције које ће претраживач извршити креирају се претходно, а затим претраживач аутоматски извршава све оне операције које ће створити индекс. Овим индексима може приступити излазни софтвер.

Погледајмо разне апликације за које пописивач веб може да се користи:

  • Портали за упоређивање цена претражују одређене детаље о производу како би направили поређење цена на различитим платформама помоћу веб пописивача.

  • Веб пописивач игра веома важну улогу на пољу претраживања података за проналажење информација.

  • Алати за анализу података користе веб претраживаче за израчунавање података и за приказе страница, улазне и излазне везе.

  • Пописивачи такође служе информативним чвориштима за прикупљање података као што су новински портали.

Како инсталирати Сцрапи?

Да бисте инсталирали сцрапи на свој систем, препоручује се инсталирање на наменски виртуаленв. Инсталација ради прилично слично као и било који други пакет у питхону, ако га користите цонда окружење, користите следећу наредбу да инсталирате сцрапи:

цонда инсталл -ц цонда-форге сцрапи

такође можете да користите пип окружење за инсталирање сцрапи-а,

пип инсталл сцрапи

У зависности од вашег оперативног система може постојати неколико зависности од компајлирања. Сцрапи је написан на чистом питхону и може зависити од неколико питхон пакета као што су:

  • лкмл - То је ефикасан КСМЛ и ХТМЛ парсер.

  • парцела - ХТМЛ / КСМЛ библиотека за издвајање написана на врху на лкмл

  • В3либ - Вишенаменски је помагач за бављење УРЛ-овима и кодирањима веб страница

  • увијено - Асинхрони мрежни оквир

  • криптографија - Помаже у разним безбедносним потребама на нивоу мреже

Покретање вашег првог пројекта отпада

Да бисте започели свој први пројекат уклањања, идите у директоријум или локацију на којој желите да сачувате датотеке и извршите следећу наредбу

сцрапи стартпројецт назив пројекта

Након извршавања ове наредбе, добићете следеће директоријуме креиране на тој локацији.

  • Име пројекта/

    • сцрапи.цфг: поставља конфигурациону датотеку

  • Име пројекта/

    • __инит__.пи: питхон модул пројеката

    • итемс.пи: датотека дефиниције пројектних ставки

    • миддлеварес.пи: датотека пројекта миддлеварес

    • пипелинес.пи: датотека цевовода пројекта

    • сеттингс.пи: датотека за подешавања пројекта

  • пауци /

    • __инит__.пи: директоријум у који ћете касније ставити своје пауке

Израда вашег првог паука

Паукови су класе које дефинишемо и које сцрапи користи за прикупљање информација са веба. Морате подкласу сцрапи.Спидер и дефинисати почетне захтеве за подношење.

Напишете код за свог паука у засебну питхон датотеку и сачувате га у директорију име пројекта / паука у свом пројекту.

куотес_спидер.пи

увоз сцрап класе КуотесСпидер (сцрапи.Спидер): наме = 'куотес' деф старт_рекуест (селф): урлс = ['хттп://куотес.тосцрапе.цом/паге/1/', хттп://куотес.тосцрапе.цом / паге / 2 /,] за урл у урл-овима: принос сцрапи.Рекуест (урл = урл, цаллбацк = селф.парсе) деф парсе (селф, респонсе): паге = респонсе.урл.сплит ('/') [- 2 ] филенаме = 'куотес-% с.хтмл'% страница са отвореним (име датотеке, 'вб') као ф: ф.врите (респонсе.боди) селф.лог ('сачувана датотека% с'% име датотеке)

Као што видите, дефинисали смо разне функције наших паука,

  • име: Идентификује паука, он мора бити јединствен током целог пројекта.

  • старт_рекуестс (): Мора да врати итерабилни захтев са којим ће паук почети да пузи.

  • парсе (): То је метода која ће бити позвана да обрађује одговор преузет са сваким захтевом.

Издвајање података

До сада паук не издваја никакве податке, већ је само сачувао целу ХТМЛ датотеку. Паук стругач обично генерише много речника који садрже податке извучене са странице. За извлачење података користимо кључну реч ииелд у питхону у повратном позиву.

увоз сцрап класе КуотесСпидер (сцрапи.Спидер): наме = 'куотес' старт_урлс = [хттп://куотес.тосцрапе.цом/паге/1/ ', хттп://куотес.тосцрапе.цом/паге/2/,] деф парсе (селф, респонсе): за цитат у респонсе.цсс ('див.куоте'): ииелд {'тект': куоте.цсс (спан.тект :: тект '). гет (),' аутхор ': куоте .цсс (смалл.аутхор::тект ') гет (),' тагс ': куоте.цсс (див.тагс а.таг :: тект'). геталл ()}

Када покренете овог паука, он ће извучене податке извести са евиденцијом.

Похрањивање података

Најједноставнији начин за чување извучених података је коришћење извоза фида, користите следећу наредбу за чување података.

сцрап цравл куотес -о куотес.јсон

Ова наредба ће генерисати датотеку куотес.јсон која садржи све изгребане ставке, сериализоване у ЈСОН .

Ово нас доводи до краја овог чланка, где смо научили како можемо направити веб-пописивач помоћу сцрапиа у питхон-у за стругање веб странице и издвајање података у ЈСОН датотеку. Надам се да вам је јасно све што је са вама подељено у овом упутству.

Ако сматрате да је овај чланак о „Водичу за сцрапије“ релевантан, погледајте поуздана компанија за учење на мрежи са мрежом од више од 250.000 задовољних ученика раширених широм света.

Овде смо да вам помогнемо у сваком кораку на путовању и осмислимо курикулум који је створен за студенте и професионалце који желе да буду . Курс је дизајниран да вам пружи почетну предност у Питхон програмирању и обучи вас за основне и напредне Питхон концепте заједно са разним као

Ако наиђете на неко питање, слободно поставите сва своја питања у одељку за коментаре „Водича за терапију“ и наш тим ће вам радо одговорити.