Lineaire versus logistieke regressie
Bij statistische analyse is het belangrijk om de relaties te identificeren tussen variabelen die van belang zijn voor het onderzoek. Soms is dit het enige doel van de analyse zelf. Een sterk instrument dat wordt gebruikt om het bestaan van een relatie vast te stellen en de relatie te identificeren, is regressieanalyse.
De eenvoudigste vorm van regressieanalyse is de lineaire regressie, waarbij de relatie tussen de variabelen een lineaire relatie is. In statistische termen brengt het de relatie tussen de verklarende variabele en de responsvariabele naar voren. Met behulp van regressie kunnen we bijvoorbeeld de relatie tussen de grondstofprijs en het verbruik vaststellen op basis van gegevens verzameld uit een aselecte steekproef. Regressieanalyse zal een regressiefunctie van de dataset opleveren, een wiskundig model dat het beste past bij de beschikbare data. Dit kan eenvoudig worden weergegeven met een spreidingsdiagram. Grafische regressie is gelijk aan het vinden van de best passende curve voor de gegeven dataset. De functie van de curve is de regressiefunctie. Met behulp van het wiskundige model kan het gebruik van een product voor een bepaalde prijs worden voorspeld.
Daarom wordt de regressieanalyse veel gebruikt bij het voorspellen en voorspellen. Het wordt ook gebruikt om de relaties vast te stellen in experimentele gegevens, op het gebied van natuurkunde, scheikunde en in veel natuurwetenschappen en technische disciplines. Als de relatie of de regressiefunctie een lineaire functie is, staat het proces bekend als een lineaire regressie. In de scatterplot kan het worden weergegeven als een rechte lijn. Als de functie geen lineaire combinatie van de parameters is, is de regressie niet-lineair.
Logistische regressie is vergelijkbaar met multivariate regressie en creëert een model om de impact van meerdere voorspellers op een responsvariabele te verklaren. Bij logistische regressie moet de variabele voor het eindresultaat echter categorisch zijn (meestal verdeeld; d.w.z. een paar haalbare uitkomsten, zoals overlijden of overleving, hoewel speciale technieken het mogelijk maken om meer gecategoriseerde informatie te modelleren). Een continue uitkomstvariabele kan worden omgezet in een categorische variabele, die kan worden gebruikt voor logistieke regressie; het op deze manier samenvouwen van continue variabelen wordt echter meestal afgeraden omdat het de nauwkeurigheid vermindert.
In tegenstelling tot de lineaire regressie, hoeven de voorspellende variabelen in logistische regressie naar het gemiddelde niet te worden gedwongen om lineair verbonden te zijn, algemeen verdeeld te zijn, of om binnen elk cluster een gelijke variantie te hebben. Als gevolg hiervan is het niet waarschijnlijk dat de relatie tussen de voorspeller en de uitkomstvariabelen een lineaire functie is.
Wat is het verschil tussen logistieke en lineaire regressie?
• Bij lineaire regressie wordt uitgegaan van een lineair verband tussen de verklarende variabele en de responsvariabele en worden parameters die aan het model voldoen door analyse gevonden om de exacte relatie te geven.
• Lineaire regressie wordt uitgevoerd voor kwantitatieve variabelen, en de resulterende functie is een kwantitatieve.
• In de logistische regressie kunnen de gebruikte gegevens categorisch of kwantitatief zijn, maar het resultaat is altijd categorisch.