Статистика за машинско учење: Водич за почетнике



Овај чланак о Статистици за машинско учење је свеобухватан водич о различитим концептима статистике са примерима.

Разумевање података и способност стварања вредности је вештина деценије. Машинско учење је једна од основних вештина која помаже компанијама да је испуне. Међутим, за почетак морате правилно изградити своје темеље. Дакле, у овом чланку ћу обрадити неколико основних појмова и пружити вам смернице за почетак вашег путовања у машинском учењу. Дакле, у овом чланку о статистици за машинско учење биће разматране следеће теме:

  1. Вероватноћа
  2. Статистика
  3. Линеарна алгебра

Вероватноћа и статистика за машинско учење:





Шта је вероватноћа?

Вероватноћа квантификује вероватноћу догађаја. На пример, ако ваљате поштену, непристрасну матрицу, онда је вероватноћа за један окретање је 1/6 . Е сад, ако се питате вхи? Тада је одговор сасвим једноставан!

То је зато што постоји шест могућности и све су подједнако вероватне (поштена смрт). Стога можемо додати 1 + 1 + 1 + 1 + 1 + 1 = 6. Али, будући да нас занима догађај где се појављује 1 . Постоји само један начин на који се догађај може догодити. Стога,



Вероватноћа за 1 појављивање = 1/6

Сличан је случај са свим осталим бројевима јер су сви догађаји подједнако вероватни. Једноставно, зар не?

Па, фреквентистичка дефиниција вероватноће за овај пример звучала би као - вероватноћа 1 појављивања је однос броја пута 1 окретања према укупном броју окретања коцкице ако је матрица ваљана бесконачан број пута.Како ово има смисла?



Учинимо то занимљивијим. Размотрите два случаја - пет пута сте ваљали коцку. У једном случају редослед бројева који се окрећу је - [1,4,2,6,4,3]. У другом случају добијамо - [2,2,2,2,2,2]. Шта мислите за који је вероватнији?

И једно и друго је подједнако вероватно. Изгледа чудно, зар не?

разлика између бацања и бацања

Сада размотрите још један случај где је свих 5 ролни у сваком случају независна . Значи, један колут не утиче на други. У првом случају, када се појавило 6, није имало појма да су се појавила 2 пре њега. Отуда је свих 5 ваљака подједнако вероватно.

Слично томе, праве 2с у другом случају могу се схватити као низ независних догађаја. И сви ови догађаји су подједнако вероватни. Генерално, пошто имамо исте коцкице, вероватноћа да ће се одређени број појавити у случају да је један исти као и случај два. Затим, у овом чланку о статистици за машинско учење, схватимо тај појам Независност.

Независност

Два догађаја За А и Б се каже да су независни ако појава А не утиче на догађај Б. . На пример, ако баците новчић и баците коцкицу, исход матрице нема утицаја на то да ли новчић показује главе или репове. Такође, за два независна догађаја А и Б. , вероватноћа да се А и Б могу појавити заједно . Тако на пример, ако желите вероватноћу да новчић показује главе, а коцкица показује 3.

П (А и Б) = П (А) * П (Б)

Стога је П = & фрац12 (вероватноћа окретања глава горе) * ⅙ (вероватноћа 3 окретања горе) = 1/12

У претходном примеру, за оба случаја, П = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Хајде сада да разговарамо о догађајима који нису независни. Узмите у обзир следећу табелу:

Гојазни Није гојазна
Срчаних проблемаЧетири, петпетнаест
Нема проблема са срцем1030

Снимљено је истраживање од 100 људи. 60 је имало проблема са срцем, а 40 није. Од 60 особа са срчаним проблемима, 45 је било гојазно. Од 40 који нису имали проблема са срцем, 10 је било гојазно. Ако вас неко пита -

  1. Колика је вероватноћа да имате срчани проблем?
  2. Колика је вероватноћа да имате срчани проблем и не будете гојазни?

Одговор на прва питања је једноставан - 60/100. За другу би то било 15/100. Сада размислите о трећем питању - Особа је изабрана насумично. Утврђено је да има срчану болест. Колика је вероватноћа да је гојазан?

Сада размислите о информацијама које су вам дате - Познато је да он има срчане болести. Стога не може бити из четрдесет који немају срчана обољења. Постоји само 60 могућих опција (горњи ред у табели). Сада је међу овим смањеним могућностима вероватноћа да је гојазан 45/60. Сада, након што сте знали шта су независни догађаји, следећи у овом чланку о статистикама за машинско учење, схватимо условне вероватноће.

Условне вероватноће

Да бисмо разумели условне вероватноће, наставимо нашу дискусију са горњим примером. Статус гојазности и статус оболелог од срца није независан. Да гојазност не утиче на срчане проблеме, онда би број случајева гојазних и не-гојазних особа са срчаним проблемима био једнак.

Такође смо добили да особа има срчане проблеме и морали смо да сазнамо вероватноћу да је гојазна. Дакле, вероватноћа је, у овом случају, условљена чињеницом да има срчани проблем. Ако је вероватноћа да се догоди догађај А условљена догађајем Б, представљамо га као

П (А | Б)

Сада постоји теорема која нам помаже да израчунамо ову условну вероватноћу. Зове се Баиес Руле .

П (А | Б) = П (А и Б) / П (Б)

Ову теорему можете проверити укључивањем примера о којем смо управо разговарали. Ако сте до сада разумели, можете започети са следећим - Наивни Баиес . Користи условне вероватноће да класификује да ли је е-пошта нежељена пошта. Може да обавља многе друге класификационе задатке. Али у основи је условна вероватноћа у основи .

Статистика:

Статистика је користи се за резимирање и закључивање о великом броју тачака података. У науци података и машинском учењу често ћете наићи на следећу терминологију

  • Мере централности
  • Расподјела (посебно нормална)

Мере централности и мере ширења

Значити:

Меан је само просек бројева . Да бисте сазнали средњу вредност, морате сумирати бројеве и поделити их са бројем бројева. На пример, средња вредност [1,2,3,4,5] је 15/5 = 3.

mean-statistics-for-machine-learning

Медијана:

Медијана је средњи елемент скупа бројева када су поређани по растућем редоследу. На пример, бројеви [1,2,4,3,5] су поређани у растућем редоследу [1,2,3,4,5]. Средњи од њих је 3. Дакле, медијана је 3. Али шта ако је број бројева паран и зато нема средњи број? У том случају узимате просек два средња броја. За секвенцу од 2н бројева у растућем редоследу, просечите н-ту вредност и (н + 1)тхброја да би се добила средња вредност. Пример - [1,2,3,4,5,6] има медијану (3 + 4) / 2 = 3,5

Начин рада:

Режим је једноставно најчешћи број у скупу бројева . На пример, режим [1,2,3,3,4,5,5,5] је 5.

како инсталирати хадооп на линук

Променљив:

Варијанса није централна мера. То мери како се ваши подаци шире око средње вредности . Квантификовано је као

Иксје средња вредност Н бројева. Узмете тачку, одузмете средњу вредност и узмете квадрат ове разлике. Урадите то за свих Н бројева и просечите их. Квадратни корен варијансе назива се стандардна девијација. Даље, у овом чланку о статистици за машинско учење, схватимо нормалну дистрибуцију.

Нормална расподела

Дистрибуција нам помаже схватите како се наши подаци шире . На пример, у узорку узраста можемо имати младе људе више него старије одрасле особе и отуда мање вредности старости више од веће вредности. Али како дефинишемо дистрибуцију? Размотрите пример испод

Ос и представља густину. Начин ове дистрибуције је 30, јер је врхунац, а тиме и најчешћи. Такође можемо лоцирати медијану. Медијана лежи у тачки на оси к где је покривена половина површине испод кривине. Површина под било којом нормалном расподелом је 1, јер је збир вероватноћа свих догађаја 1. На пример,

Медијана у горњем случају је око 4. То значи да је површина испод криве пре 4 иста као она после 4. Размотримо други пример

Видимо три нормалне расподеле. Плава и црвена имају исто значење. Црвена има већу варијансу. Отуда је раширенији од плавог. Али пошто површина мора бити 1, врх црвене криве је краћи од плаве криве, да би подручје остало константно.

Надам се да сте разумели основне статистике и нормалне расподеле. Сада, следећи у овом чланку о статистици за машинско учење, научимо о Линеарној алгебри.

Линеарна алгебра

Савремена уметничка интелигенција не би била могућа без линеарне алгебре. Чини језгро Дубоко учење а коришћен је чак и у једноставним алгоритмима попут . Без даљег одлагања, кренимо.

Морате бити упознати са векторима. Они су својеврсни геометријски прикази у свемиру. На пример, вектор [3,4] има 3 јединице дуж к оси и 4 јединице дуж и осе. Узмите у обзир следећу слику -

Вектор д1 има 0,707 јединица дуж к оси и 0,707 јединица дуж и осе. Вектор има 1 димензију. Нужно има величину и правац. На пример,

Горња слика има вектор (4,3). Његова магнитуда је 5, а са к-осом чини 36,9 степени.

Шта је матрица? Матрица је вишедимензионални низ бројева. За шта се користи? Видећемо унапред. Али прво, погледајмо како се користи.

Матрик

Матрица може имати много димензија. Размотримо дводимензионалну матрицу. Има редове (м) и колоне (н). Стога има м * н елемената.

На пример,

Ова матрица има 5 редова и 5 колона. Назовимо га А. Стога је А (2,3) унос у другом реду и трећој колони који је 8.

Сад кад знате шта је матрица, омогућава нам да погледамо различите операције матрице.

Матричне операције

Сабирање матрица

Две матрице исти могу се додати димензије. Додавање се дешава елементарно.

Множење скалара

Матрица се може помножити скаларном величином. Такво множење доводи до тога да се сваки унос у матрицу помножи са скаларом. Скалар је само број

Матрик Транспосе

Преношење матрице је једноставно. За матрицу А (м, н), нека је А ’транспоновање. Онда

А '(и, ј) = А (ј, и)

На пример,

пренос датотека у инстанцу ец2 виндовс

Множење матрице

Ово је вероватно мало незгодно од осталих операција. Пре него што заронимо у њега, хајде да дефинишемо тачкасти производ између два вектора.

Размотримо вектор Кс = [1,4,6,0] и вектор И = [2,3,4,5]. Тада је тачкасти производ између Кс и И дефинисан као

Кс.И = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Дакле, то је множење и сабирање по елементима. Сада,размотримо две матрице А (м, н) и Б (н, к), где су м, н, к димензије, а тиме и цели бројеви. Множење матрице дефинишемо као

У горњем примеру, први елемент производа (44) добија се тачкастим производом првог реда леве матрице са првом колоном десне матрице. Слично томе, 72 се добија тачкасти умножак првог реда леве матрице са другом колоном десне матрице.

Имајте на уму да за леву матрицу број колона треба да буде једнак броју редова у десној колони. У нашем случају производ АБ постоји, али не и БА, јер м није једнако к. За две матрице А (м, н) и Б (н, к), дефинисан је производ АБ, а димензија производа је (м, к) (најудаљеније спољне димензије (м, н), (н, к )). Али БА није дефинисан осим ако је м = к.

Овим смо завршили овај чланак о Статистици за машинско учење. Надам се да сте разумели неке речи из жаргона за машинско учење. Ипак се овде не завршава. Да бисте били сигурни да сте спремни за индустрију, можете да погледате Едурекине курсеве о науци података и АИ. Могу се наћи