Шта је прекомерно опремање у машинском учењу и како то избећи?



Овај чланак покрива прекомерно уклапање у машинском учењу са примерима и неколико техника за избегавање и откривање прекомерне уградње у моделу машинског учења.

Изградња модела машинског учења није само храњење података, постоји пуно недостатака који утичу на тачност било ког модела. Прекомерно уклапање је један од таквих недостатака у машинском учењу који кочи тачност као и перформансе модела. У овом чланку су обрађене следеће теме:

Шта је прекомерно опремање у машинском учењу?

Каже се да је статистички модел пренамењен када му дајемо много више података него што је потребно. Да бисте је учинили релативном, замислите да покушавате да се уклопите у превелику одећу.





Када модел стане више података него што му је заправо потребно, почиње да хвата бучне податке и нетачне вредности у подацима. Као резултат, смањује се ефикасност и тачност модела. Погледајмо неколико примера прекомерне опреме како бисмо разумели како се то заправо догађа.



Примери прекомерне опреме

Пример 1

Ако узмемо пример једноставног линеарна регресија , обука података се састоји у проналажењу минималних трошкова између линије која најбоље одговара и тачака података. Пролази кроз читав низ понављања како би се пронашло оптимално прилагођавање, умањујући трошкове. Овде се појављује прекомерно опремање.



зашто да учим скл

Линија на горњој слици може дати врло ефикасан исход за нову тачку података. У случају прекомерне опремљености, када покренемо алгоритам обуке на скупу података, дозвољавамо да се трошкови смањују са сваким бројем итерација.

Трчање ово предуго ће значити смањени трошак, али ће одговарати и бучним подацима из скупа података. Резултат би изгледао отприлике као на доњем графикону.

Ово може изгледати ефикасно, али заправо није. Главни циљ алгоритма као што је линеарна регресија је пронаћи доминантан тренд и прилагодити тачке података у складу с тим. Али у овом случају линија одговара свим тачкама података, што је небитно за ефикасност модела у предвиђању оптималних исхода за нове тачке уноса података.

Размотримо сада описнији пример уз помоћ изјаве о проблему.

Пример 2

Изјава о проблему: Размотримо да желимо да предвидимо да ли ће фудбалер спустити место у тиер 1 фудбалски клуб на основу његовог / њеног тренутног учинка у тиер 2 лиги.

Сад замислите, тренирамо и уклапамо модел са 10.000 таквих играча са исходима. Када покушамо да предвидимо исход на оригиналном скупу података, рецимо да смо добили 99% тачности. Али тачност различитих скупова података износи око 50 процената. То значи да модел не генералише добро из наших података о обуци и невиђених података.

Овако изгледа прекомерно опремање. То је врло чест проблем у машинском учењу, па чак и у науци о подацима. Сада да схватимо сигнал и шум.

Сигнал против буке

У предиктивном моделирању, сигнал се односи на прави основни образац који помаже моделу да научи податке. С друге стране, шум је небитан и случајни подаци у скупу података. Да бисмо разумели концепт буке и сигнала, узмимо пример из стварног живота.

Претпоставимо да желимо да моделирамо старост наспрам писмености код одраслих. Ако узоркујемо врло велики део популације, наћи ћемо јасну везу. Ово је сигнал, док бука омета сигнал. Ако учинимо исто са локалним становништвом, однос ће постати блатњав. На то би утицали оутлиери и насумичност, на пример, једна одрасла особа је рано отишла у школу или нека одрасла особа није могла приуштити образовање итд.

Говорећи о буци и сигналу у смислу машинског учења, добар алгоритам машинског учења аутоматски ће одвојити сигнале од шума. Ако је алгоритам сувише сложен или неефикасан, можда ће научити и буку. Дакле, прекомерно опремање модела. Да схватимо и недовољно опремање у машинском учењу.

Шта је ундерфиттинг?

Да бисмо избегли прекомерно опремање, могли бисмо да зауставимо тренинг у ранијој фази. Али то би такође могло довести до тога да модел неће моћи да научи довољно из података о тренингу, па ће му бити тешко да ухвати доминантни тренд. Ово је познато као недовољно опремање. Резултат је исти као и прекомерна опремљеност, неефикасност у предвиђању исхода.

Сада када смо схватили шта је заправо недовољно опремање и прекомерно опремање у машинском учењу, покушајмо да схватимо како можемо открити прекомерно опремање у машинском учењу.

Како открити прекомерно опремање?

Главни изазов прекомерне опреме је процена тачности перформанси нашег модела новим подацима. Не бисмо могли да проценимо тачност док је заправо не тестирамо.

Да бисмо решили овај проблем, можемо поделити почетни скуп података у одвојене скупове података за обуку и тест. Помоћу ове технике можемо заправо одредити колико ће наш модел радити са новим подацима.

Да схватимо ово на примеру, замислимо да добијемо тачност 90+ процената на комплету за обуку и 50 процената тачности на комплету за тестирање. Тада би то аутоматски била црвена заставица за модел.

Још један начин за откривање прекомерне опреме је започети са поједностављеним моделом који ће послужити као репер.

Овим приступом, ако испробате сложеније алгоритме, моћи ћете да разумете да ли се додатна сложеност уопште исплати за модел или не. Такође је познат као Оццамов тест жилета , у основи бира поједностављени модел у случају упоредивих перформанси у случају два модела. Иако је откривање прекомерне опреме добра пракса,али постоји неколико техника да се спречи и прекомерно опремање. Погледајмо како можемо да спречимо прекомерно опремање у машинском учењу.

Како избећи прекомерно опремање у машинском учењу?

Постоји неколико техника за избегавање прекомерне опреме у машинском учењу, које су доле наведене.

  1. Унакрсна валидација

  2. Обука са више података

  3. Уклањање карактеристика

  4. Рано заустављање

  5. Регуларизација

  6. Састављање

1. Унакрсна валидација

Једна од најснажнијих карактеристика за избегавање / спречавање прекомерне опреме је унакрсна валидација. Идеја која стоји иза овога је да се подаци о почетном тренингу користе за генерисање мини-тест-сплит-а, а затим их користите за подешавање вашег модела.

У стандардној к-фолд валидацији, подаци се деле на к-подскупове такође познате као фолдови. После овога, алгоритам се итеративно обучава на к-1 преклопу, док се преостали преклопи користе као тестни сет, познат и као преседање.

Узајамна валидација нам помаже да подесимо хиперпараметре само уз оригинални сет обуке. У основи, скуп тестова држи одвојено као прави невиђени скуп података за одабир коначног модела. Отуда, избегавање прекомерног опремања.

2. Обука са више података

Ова техника можда неће функционисати сваки пут, као што смо такође говорили у горњем примеру, где тренинг помаже значајан број становника моделу. У основи помаже моделу у бољој идентификацији сигнала.

Али у неким случајевима повећани подаци такође могу значити уношење више буке у модел. Када тренирамо модел са више података, морамо бити сигурни да су подаци чисти и без случајности и недоследности.

3. Уклањање карактеристика

Иако неки алгоритми имају аутоматски избор карактеристика. За значајан број оних који немају уграђени одабир обележја, можемо ручно уклонити неколико небитних обележја из улазних обележја да бисмо побољшали уопштавање.

Један од начина за то је извођење закључка о томе како се нека карактеристика уклапа у модел. То је прилично слично отклањању грешака у коду ред по ред.

У случају да карактеристика није у стању да објасни релевантност модела, те функције можемо једноставно идентификовати. Можемо чак користити неколико хеуристичких карактеристика за одабир карактеристика као добру полазну основу.

4. Рано заустављање

Када модел тренира, заправо можете да измерите колико добро се модел понаша на основу сваке итерације. То можемо да радимо до тренутка када итерације побољшају перформансе модела. Након овога, модел се прекомерно уклапа у податке о тренингу, јер генерализација слаби након сваке итерације.

Дакле, у основи, рано заустављање значи заустављање процеса тренинга пре него што модел пређе тачку у којој модел почиње да прекомерно одговара подацима о тренингу. Ова техника се највише користи у дубоко учење .

5. Регуларизација

То у основи значи, вештачко приморавање вашег модела на једноставније коришћење ширег спектра техника. То у потпуности зависи од врсте ученика који користимо. На пример, можемо обрезати а , користите испадање на а неуронске мреже или додајте параметар казне функцији трошкова у регресији.

Често је регуларизација такође хиперпараметар. То значи да се може подесити и путем унакрсне валидације.

6. Окупљање

Ова техника у основи комбинује предвиђања из различитих модела машинског учења. Две најчешће методе окупљања су наведене у наставку:

  • Покушаји вреће смањују могућност прекомерне опреме модела

  • Појачавање покушаја побољшања предиктивне флексибилности једноставнијих модела

Иако су обе методе ансамбла, приступ у потпуности полази из супротних праваца. Багинг користи сложене основне моделе и покушава да изглади њихова предвиђања, док појачавање користи једноставне основне моделе и покушава да повећа укупну сложеност.

Шта је Гооднесс Оф Фит?

У статистичком моделирању, добро подударање односи се на то колико се исходи или предвиђене вредности подударају са посматраним или истинским вредностима.Модел који је научио буку уместо сигнала је превише опремљен јер ће одговарати скупу података о тренингу, али ће имати слабију ефикасност са новим скупом података.

Компромис између пристрасности и варијансе

И варијанса и пристрасност су облици грешке у предвиђању у . Компромис између велике варијансе и велике пристрасности веома је важан концепт у статистици и машинском учењу. Ово је један концепт који утиче на све надгледане алгоритме машинског учења.

Компромис пристрасности и варијансе има веома значајан утицај на одређивање сложености, недовољне опремљености и прекомерне опремљености било ког модела машинског учења.

Склоност

То није ништа друго до разлика између предвиђених вредности и стварних или стварних вредности у моделу. Моделу није увек лако да учи из прилично сложених сигнала.

Замислимо да одговарамо а линеарна регресија моделу са нелинеарним подацима. Без обзира колико ефикасно модел учи посматрања, неће ефикасно моделирати криве. Познато је као недовољно опремљено.

Променљив

Односи се на осетљивост модела на одређене скупове у подацима о обуци. Алгоритам велике варијансе створиће бизаран модел који се драстично разликује од скупа тренинга.

Замислите алгоритам који одговара неограниченом и супер флексибилном моделу, а такође ће учити из буке у комплету за тренинг која узрокује прекомерно опремање.

Компромис пристрасности и варијансе

Алгоритам машинског учења не може се схватити као једнократну методу за обуку модела, већ је то понављајући процес.

Алгоритми ниског одступања са високим одступањем су мање сложени, са једноставном и крутом структуром.

  • Они ће обучити моделе који су конзистентни, али у просеку нетачни.

  • То укључује линеарне или параметарске алгоритме, као што су регресија, итд.

Алгоритми са високим одступањем и ниском пристрасношћу имају тенденцију да буду сложенији, са флексибилном структуром.

  • Они ће обучити моделе који су у супротности, али у просеку тачни.

  • Ту спадају нелинеарни или непараметарски алгоритми као што су , итд.

Ово нас доводи до краја овог чланка, где смо научили Прекомерно опремање у машинском учењу и о разним техникама како бисмо то избегли. Надам се да вам је јасно све што је са вама подељено у овом упутству.

Ако сматрате да је овај чланак о „Прекомерном уклапању у машинско учење“ релевантан, погледајте чланак поуздана компанија за учење на мрежи са мрежом од више од 250.000 задовољних ученика раширених широм света.

Овде смо да вам помогнемо у сваком кораку на путовању и осмислимо курикулум који је дизајниран за студенте и професионалце који желе да буду . Курс је дизајниран да вам пружи почетну предност у Питхон програмирању и обучи вас за основне и напредне Питхон концепте, заједно са разним као , итд.

Ако наиђете на неко питање, слободно поставите сва своја питања у одељку за коментаре „Прекомерно уклапање у машинско учење“ и наш тим ће вам радо одговорити.