## STP 226, Module 4

# STP 226, Module 4 STP 226

These statistics notes are for Module 4 online class of STP 226. All lectures were listened to and notes taken.
This 4 page Class Notes was uploaded by Trevor Hatton on Friday January 22, 2016. The Class Notes belongs to STP 226 at Arizona State University taught by Dr. Krishnamoorthy in Spring 2016.

Date Created: 01/22/16
Module 4 Lecture 4A:  Use line of best fit when more than one x and y coordinate. ( The predicted value of y) o There is error associated with each value of “x”, the error is the difference  between the real value of y and the predicted value of y for each x value  To best graph multiple data points a scatter plot is best. o Using minitab: Go to graph > scatterplot > simple  Regression analysis – statistical technique for investigation and modeling the  relationship between variables.  o Equation for a straight line:  y=mx+b   o Equation for regression y = b 0 b 1 o Y with a “^” above it is the predicated value, while Y with nothing on it is the  actual value.   X= independent variable, repressor, predictor.  Y= dependent variable, response, output.   X causes the output, also known as Y.  Direct Relationship: o As x increases, y increases. o The graph of the model rises from left to right. o The slope of the linear model is positive.   Inverse Relationship: o As x increases, y decreases. o The graph of the model falls from left to right. o The slope of the linear model is negative.  Error = Actual – Predicted value at the same point.  When real data is used to calculate errors we call it residuals.    Least­Squares Criterion – The equation of the line that makes the sum of the squared  errors as small as possible. 2 yi−[b 0b ∗1 ¿ ] o εe iε¿  Regression Line ­ Straight line that best fits the data given.  Regression Equation – Our best estimate of the regression line. b =y−b X o 0 1 b = S xy o 1 S xx  The Least­Squares Method: o Estimate the slope and intercept such that the sum of squared differences is as  small as possible. o Estimates are denoted of b  and 0 . 1 o Once estimates are found a line of regression can be fitted.  Using minitab: o Enter data in two columns. o Go to Start > regression > regression  Enter dependent variable (Y) in box labeled “Response”.  Enter the independent variable (X) in the box labeled “Predictors”.  Click ok. Lecture 4B:  The Least­Squares Method: o Estimate the slope and intercept such that the sum of squared differences is as  small as possible. o Estimates are denoted of b  and 0 . 1 o Once estimates are found a line of regression can be fitted. y = b 0 b X1  Common Notations: 2 εx i ¿ ¿ o x −x¿ =εx −¿ 2 i i Sxxε¿ (εx )(εy ) x −x¿ =εy x − ❑ i i i i i n o Sxyεy ¿ i ε yi¿2 ¿ o 2¿ 2 yi−y¿ =εy −¿ i S yyS =ε¿T  Just because a linear line will fit that doesn’t meant that it is always correlating data. o Example: Shoe size and exam scores.  Extrapolation ­ When using x and y variables outside the range of data. (Bad)  Interpolation – Using the regression line with the range of the x variable. (Good) Lecture 4C:  The total sum of squares (SST) is a measure of the total variation in the response.  ε yi¿2 ¿ ¿ o 2 2 y iy¿ =εy −¿i SyySS =εT SST =SSR+SSE o  The regression sum of squares (SSR) is the variability explained by the regression line.  Variability attributed to the regression line. S2 SSR= xy o S xx  The error sum of squares (SSE) is the inherent variability. Variability is that just happens  and we don’t necessarily know why. o SSE=SST−SSR  The “X” variable does not play a role in these equations other than in SSR.  2  Coefficient of determination: r SSR o r =  SST o The coefficient of determination is the amount of total variation that can be  explained by the fitted regression line. A good value will be close to 1 (100%).  Coefficient of determination: r Lecture 4D:  Correlation coefficient – r, measures the strength of the linear relationship between two  variables. o ­1 ≤  r ≤  1 o The closer r is to ­1 or 1, the stronger the linear relationship is. o The sign on the slope is the sign on correlation coefficient. (If slope is negative, r  will be negative) o R close to 0, says there is no linear relationship between two variables.   Formulas: S xy o r= √S xx yy o r= r√ 2  r = the coefficient of determination, remember to keep the same sign.  In minitab: o Click start > Basic Statistics > Correlation and enter the two variables o Click ok

