Stats 101 Week 2 Notes STAT 121

STAT 121
Sydney Clark
BYU
GPA 4.0

About this Document

Examining Standard deviation with shape, center, and spread.
Popular in Department

This 4 page Class Notes was uploaded by Sydney Clark on Friday September 9, 2016. The Class Notes belongs to STAT 121 at Brigham Young University taught by Dr. Christopher Reese in Winter 2016.

Date Created: 09/09/16
Stats week 2: Examining Distributions with numerical measure *Important* *Sample test questions*  Numerical summary o Summarize the distribution of a quantitative variable with measure of:  Center  Shape  Spread  IQR  range  Measure of center o Mode=peak of distribution, most frequently occurring value o Median= middle value *most important*  Divides data in half (half are less than the number, half are more)  If “n” is odd, pick middle value  If “n” even, take average of 2 middle vales  Denote by M­median o Mean=average value *most commonly used*  Traditional measure of center  Computing the media o 1.) order the data o 2.) if the number of observations is odd, median equals the middle observation  Mean vs. Median o Consumer alert: either one might be called “average” in media o Depends on shape  If histogram is symmetric use mean  If you have skews or outliers use median  Mean is dragged in direction of the tail  The median is resistant to outliers, unlike the mean  Mean is larger than median when skewed  Two aspects of spread o Overall and central clustering  Measure of spread o Range AND interquartile range  Range: max­min  IQR= 3  quartile­1  quartile  3  is median of the largest half of data, 1  quartile is smallest half of data   Resistant to outliers  Standard deviation= ”average distance” of value from mean  Quartiles o Q1: Value that has approximately 25% of the observations in the ordered data set  below it and 75% above. “Median” of observations below the median. o Q2: The median o Q3: Value that has approximately 75% of the observations in the ordered data set  below it and 25% above. “Median” of observations above the median. o When “n” is odd, median is NOT included in either bottom or top half of data o When ‘n” is even, data are naturally divided in two halves o Standard deviation= “average distance” of values from mean  Outliers o DON’T ALWAYS THROW THEM AWAY o How to find an outlier  The 1.5 (IQR) criteria  1) Calculate IQR  Q3­Q1  2) Q3 + 1.5(IQR)   If less than original Q3 than the Original Q3 and anything to the  right is an outlier.   3) Q1 − 1.5(IQR)  If higher that original Q1 than the original Q1 and anything to the  left is an outlier.  Describe a distribution o Shape, center, spread o If skewed, best measure of center is median.  Median, range and IQR determined by 5 number summaries o 1) center: median o 2)Spread  Central/Overall: max­min  Clustering: Q1­Q3 o 3) Shape  med ­ Q1 versus Q3 ­ med   med ­ min versus max ­ med  o Gives a graphical representation to tell shape of distribution  Boxplot o o About what Percent of years have average January temperatures above freezing  (32 degrees F)?  A) 50%  B) 37%***  C) 20%  D) 12% o (a) Standard deviation only measures clustering False o (b) Standard deviation cannot be 0 False o (c) Standard deviation has same units as data True o (d) Standard deviation resistant to outliers False o (e) Standard deviation should be paired with mean True  Report median as measure of center use median  Risk is directly equivalent to standard deviation because the upside is indeed larger  Risk=standard deviation  Choosing measures of center and spread o Report median and IQR and Range if skewed o Symmetric report mean  Give exact measure o ALWAYS PLOT DATA!  For distributions that are normal (bell shape or symmetric) o Take mean and go down on standard deviation and up on standard deviation is  68% o Go down two standard deviations and up two standard deviations is 95% of data o Go down 3 standard deviations and up 3 standard deviations is 99.7% of data

