Dowiedz się, czym jest prosta liniowa regresja i jak to działa

Podejście podstawowe do analizy danych ilościowych

Dzięki uprzejmości Colin Broug, Fotograf. © 10 czerwca 2010 Stock.xchng

Modele regresji liniowej są używane do pokazania lub przewidywania zależności między dwiema zmiennymi lub czynnikami . Czynnik, który jest przewidywany (współczynnik, dla którego rozwiązuje się równanie) jest nazywany zmienna zależna. Czynniki, które są używane do przewidywania wartości zmiennej zależnej, są nazywane zmiennymi niezależnymi.

Dobre dane nie zawsze opowiadają całą historię. Analiza regresji jest powszechnie stosowana w badaniach, ponieważ stwierdza, że ​​istnieje korelacja między zmiennymi.

Ale korelacja nie jest taka sama jak przyczynowość . Nawet linia w prostej liniowej regresji, która dobrze pasuje do punktów danych, nie może powiedzieć czegoś ostatecznego o związku przyczynowo-skutkowym.

W prostej regresji liniowej każda obserwacja składa się z dwóch wartości. Jedna wartość odnosi się do zmiennej zależnej, a jedna do zmiennej niezależnej.

Prosty liniowy model regresji

Prosty model regresji liniowej jest przedstawiony w następujący sposób: y = ( β 0 + β 1 + Ε

Zgodnie z konwencją matematyczną dwa czynniki, które biorą udział w prostej analizie regresji liniowej, są oznaczone jako x i y .

Równanie opisujące, w jaki sposób y jest związane z x, jest znane jako model regresji . Model regresji liniowej zawiera również termin błędu reprezentowany przez Ε lub grecką literę epsilon. Termin błędu jest używany do uwzględnienia zmienności y, która nie może być wyjaśniona przez liniową zależność między x i y .

Są tam również parametry reprezentujące badaną populację. Te parametry modelu są reprezentowane przez ( β 0+ β 1 x ).

Prosty liniowy model regresji

Proste równanie regresji liniowej jest przedstawione w następujący sposób: Ε ( y ) = ( β 0 + β 1 x ).

Proste równanie regresji liniowej wykreślono jako linię prostą.

( β 0 to punkt przecięcia linii regresji.

β 1 to nachylenie.

Ε ( y ) jest średnią lub oczekiwaną wartością y dla danej wartości x .

Linia regresji może wykazywać dodatnią liniową zależność, ujemną liniową zależność lub brak związku. Jeśli wykreślona linia w prostej regresji liniowej jest płaska (bez nachylenia), nie ma związku między tymi dwiema zmiennymi. Jeśli linia regresji nachodzi w górę z dolnym końcem linii na punkcie przecięcia osi (wykresu) y, a górny koniec linii przechodzi w górę w pole wykresu, z dala od punktu przecięcia x (oś), istnieje dodatnia liniowa zależność . Jeśli linia regresji opada w dół z górnym końcem linii na punkcie przecięcia osi y (osi) wykresu, a dolny koniec linii biegnie w dół do pola wykresu, w kierunku punktu przecięcia x (osi), istnieje ujemny związek liniowy.

Estymowane równanie regresji liniowej

Jeśli parametry populacji były znane, proste równanie regresji liniowej (pokazane poniżej) mogłyby zostać użyte do obliczenia średniej wartości y dla znanej wartości x .

Ε ( y ) = ( β 0 + β 1 x ).

Jednak w praktyce wartości parametrów nie są znane, więc muszą zostać oszacowane przy użyciu danych z próby populacji. Parametry populacji są szacowane za pomocą statystyk próbek . Przykładowe statystyki są reprezentowane przez b 0 + b 1. Gdy statyczne parametry są zastępowane parametrami populacji, powstaje estymowane równanie regresji.

Szacowane równanie regresji przedstawiono poniżej.

( ŷ ) = ( β 0 + β 1 x

( ŷ ) wymawia się.

Wykres estymowanego prostego równania regresji nazywany jest szacowaną linią regresji.

B 0 to punkt przecięcia z Y.

B 1 jest nachyleniem.

Ŷ ) jest oszacowaną wartością y dla danej wartości x .

Ważna uwaga: Analiza regresji nie służy do interpretacji zależności przyczynowo-skutkowych pomiędzy zmiennymi. Analiza regresji może jednak wskazywać, w jaki sposób zmienne są powiązane lub w jakim stopniu zmienne są ze sobą powiązane .

Czyniąc tak, analiza regresji ma tendencję do tworzenia istotnych relacji, które gwarantują, że badacz przyjrzy się uważniej .

Znany również jako: regresja dwuwymiarowa, analiza regresji

Przykłady: Metoda najmniejszych kwadratów jest procedurą statystyczną do wykorzystywania danych przykładowych w celu znalezienia wartości szacowanego równania regresji. Metoda najmniejszych kwadratów została zaproponowana przez Carla Friedricha Gaussa, który urodził się w 1777 roku i zmarł w 1855 roku. Metoda Najmniejszych Kwadratów jest nadal szeroko stosowana.

Źródła:

Anderson, DR, Sweeney, DJ i Williams, TA (2003). Essentials of Statistics for Business and Economics (wyd. 3) Mason, Ohio: Southwestern, Thompson Learning.

______. (2010). Objaśnienie: Analiza regresji. Wiadomości MIT.

McIntyre, L. (1994). Używanie danych papierosowych do wprowadzenia do wielokrotnej regresji. Journal of Statistics Education, 2 (1).

Mendenhall, W. i Sincich, T. (1992). Statystyka dla Engineering and the Sciences (3rd ed.), New York, NY: Dellen Publishing Co.

Panchenko, D. 18.443 Statystyka zastosowań, jesień 2006, sekcja 14, Prosta regresja liniowa. (Massachusetts Institute of Technology: MIT OpenCourseWare)