Study guide 1 Decision Making • The probability of it’s occurrence must be < .05 (i.e., 5 in 100, or a 5% chance). • Chance differences between the means is called “Sampling error" • If the probability of obtaining a particular sample mean by chance is .05 or lower,  statisticians/ researchers conclude that it is too unlikely to be due to chance along.  ◦ This is also called an “Aloha Level” (a)=0.05 • One • two Tails, Z=1.96,   0.025 • One tails, Z=1.65,   0.05 • If the difference is not due to chance, then, you infer that the difference is due to the IV. Formalities of Significance testing Statistical Hypotheses: Statements that describe the hypothesis that we are trying to test  in statistical language.  • Null Hypothesis ◦ No real difference between the population mean that is represented by our sample mean  and the population mean to which we are comparing it.  • Alternative Hypothesis: States that there is a difference between the population mean that is represented by our ample statistic and the population parameter.  ◦ If Ha is true, the IV did work (IV did affect DV) One­tailed vs. Two­tailed • If you hypothesize that the dependent variable will be affected in a specified direction ,  the one­tail test.  ◦ e.g. Ginseng will increase intelligence.  ◦ H0: U IQ after herb <=100 ◦ Ha: U IQ after herb >100 • eg,. zobt=1.6 is below the critical value of 1.65. therefore, we retain the null hypothesis.  There is no evidence to suggest that taking the herb will increase IQ scores. The 4 point  difference between the sample mean and the population mean was not statistically  significant.  • To retain the null hypothesis: ◦ The null hypothesis is assumed to be true, but you cannot prove the null hypothesis.  • Even is there is no statistical difference between the groups, there may still be a  difference in the underlying populations. But we are not able to detect it with our  statistical procedures.  Two­tailed Conclusion • eg,. zobt=2.67 is higher the critical value of 1.65. therefore, we retain the null hypothesis. There is no evidence to suggest that taking the herb will increase IQ scores. The 4 point  difference between the sample mean and the population mean was not statistically  significant.  • Reject the null hypothesis ◦ It is very unlikely that the difference between your groups is due to chance.  Assumptions of the z­test • The dependent variable is interval or ratio. • You know bother the mean and the standard deviation of the population. (Hardly  happnened) Two possible types of errors: • Type 1 error Alpha ◦ No effect of IV ◦ Occurs when the null hypothesis is true, but we (Wrongly) reject the null hypothesis.  (Like an innocent person being convicted) ◦ Alpha: The probability of making a type 1 error is qual to the probability of getting a  sample mean by chance.  ◦ If we use alpha> 0.05, the probability of making a type 1 error is always less than 0.05.  • Type 2 error: Beta ◦ Falsely retaining the null hypothesis.  ◦ IV has an effect ◦ Retain H0 (No difference), e.g..in middle • 1­alpha ◦ No IV effect,  ◦ H0 reject the null hypothesis.  • 1­Beta ◦ IV has an effect Power is determined by • Alpha: increasing your alpha • N: the larger you sample size, the more power • Effects size: different between the means , relative to the variable size.  Hypothesis testing • Z­test: When you know mean and stander deviation  • Single (one)sample T­test: when you know U but do not know stander deviation  Central Tendency  Average value: mean value • Most Frequent score • Mathematical average of all scores • Middle position • Sample mean= sum of X / N • Sample mean  = xx • Population mean =  μ The mode • The score that occurs most frequently in a sample.  • Find it by construct a frequency distribution. • use it when you have nominal data • isn’t so great ◦ Ignores all data except the most frequently occurring score. ◦ Can have bimodal or multimodal data The Median • The score at the 50th percentile: • exactly have of the scores are lower than the median and exactly half of the scores are  higher.  Percentile: the point in the distribution below with __th percent of the scores fall, e.g. the  25th Which measure of Central Tendency should you use? Use the mean unless • you have nominal data, use the mode. e.g., to find the “Average “ major, average eye  color... ◦ The modal response was to do better in school; 20% of all students reported that this was  their resolution.  • If you have a skewed distribution, use the median.  • use the median for ordinal data.  Normal distribution. 3 equal Median larger in Negatively skewed, on the right Different ways to measure variability in your data set. • Range... • Find Sample mean • Deviation from the mean. 1 The size of the deviation indicates how far a particular score is from the  mean. 2 The higher the score, the more deviation from the mean.  3 In a normal distribution, the greater the deviation, the less frequent the  score.  variance: (S^2) the average of the squared deviations around the mean. • ((x­xx)^2)/N   Standard Deviation: (S)    The square root of the average squared deviation around the   mean .  • Stander deviation sd is the average amount that the scores in your sample deviate from he mean.  • It will always be a positive number.  • Larger number, larger variable in the data.  Unbiased Estimator (a hat above S) • variance: ((x­xx)^2)/(N­1) • Because samples tend to have less variability than the parent population Z scores and Z distributions • You can transform a score into a z­score to conveys information about relative position  and relative frequency of that raw score.  • “Standardized” the score by taking into account a mean and a standard deviation ◦ Makes scores from different distributions comparable • Most useful with a normal distribution.  why standardize your scores? • to have information about position in a distribution. • To compare • z=(x­xx)/Standard Deviation  • z higher, did better on the exam.  • It is Measured in terms of the number of standard deviations from the mean. • Generally range from ­3.0 to 3.0 ◦ Why? 99.7% of scores fall with in this range. • A z­score of 0 means that the score is at the mean. • A negative Z score means that a score is below the mean • e.g. Z=1.0: Raw score is 1 standard deviation above the mean.  • e.g. Z=­0.5: Raw score is 1/2 standard deviation below the mean. Convert Z back to raw score. • Sample X=z*stander deviation +  xx Inferential stats: • Significance testing or hypothesis testing • Z­test • t­tests (Different types) • ANOVA (different types) • Chi­square How most experiments works Simple Probability • Number between 0 and 1 (a proportion) • Probability of event A is written as “P(A)" • If P(A)= 0.1 it indicates with certainty that event A will happened.  Two types of probability Distributions • Empirical probability distribution ◦ Based on an actual frequency distribution/frequency data • Theoretical probability distribution: • Based on a theoretical normal distribution • Eg. your z­table Standard error of the mean  Different types of Statistics • Descriptive vs. Inferential • Frequency vs. Proportion Statistics Data is plural. Datum is the singular form Populations and Samples • Population: The entire set of individuals that you want to know about. Just number  change, no any condition change.  • Sample: The relatively small subset of scores or individuals that you have available to  observe.  What is a good sample? • One that allow you to generalize beyond your sample to a population. ◦ Randomly selected from the population of interest.  1 If truly random: each person in the population has an equal  probability of being selected.  ◦ Representative of the population 1 Characteristics of sample mirror those of the population of interest. Two types of statistics • Descriptive: Organizing, summarizing, and looking for relationships in a sample or a  population.  ◦ Average G.P.A ◦ Most typical college major • Inferential: techniques that tell us whether the strength of the relations in our data allow is to generalize beyond our sample to the population Variables: A variable is anything that can take on more than one value.  Relation: When a change in one variable systematically leads to a change in another  variable.  • Height and weight • Diet and disease • Alcohol and aggression Two ways to study relations between variables: • Correlational Study ◦ Measure two things and determine whether there is a relation between them.  ◦ In correlational studies, nothing is manipulated by the researcher.  ◦ Correlation does not equal causation. 1 Third variable problem: there may be some other variable • Experiment Study ◦ Researcher manipulates a variable and measures the effect on another variable, while  holding everything else constant.  ◦ Researcher randomly assigns subjects to groups ◦ If everything else is controlled, you can (Tentatively) infer a causal relationship.  Types of Variables in Experiments: • Dependent Variable  1 The behavior that is measured by the experimenter.  1 Exam score 2 Reaction Time • Independent Variable  1 The variable that is manipulated by the experimenter to see if it affects the  behavior of interest.  1 Hours of sleep 2 Alcohol Consumption 2 Called factors.  • E.g.: iv hours of sleep: condition levels are 4hrs, 6hrs, 8hrs. • Quasi ­ independent variables 1 Gender 2 Age 3 Race 4 Religion • Many of the same questions can be addressed by both correlational studies and  experiments, but stronger conclusions can typically be drawn from the experiment.  Classification some variables.  • IV vs. DV • Quantitative：specifics an amount 1 Age, gpa • Qualitative: Specifies a category.  1 Gender, color Types of data Nominal Data • Nominal = name ◦ Differ only in kind (Different categories) 1 e.g. Gender, religion, Major ◦ Can’t order the values.  1 Assigning numbers doesn’t mean an amount of something ◦ Qualitative Ordinal Data • Ordinal = order • Ranking, preferences ◦ e.g. sports standings, class rank, Olympic medals • Can't make assumption about the degree of difference. Interval Scale • Ordered categories of the same size.  • Equal space between interval • No “Real” 0 as origin of the scale (Can’t have “no temp”). 1 On a scale of 1­7... Ratio Scale • Intervals are equally space • Has a “Real” 0 • Quantitative 1 e.g., height, weight, unit of time, 10, 20, 30, GPA, books you read. The type of statistical procedures that you can do depend on the variables that you study.  Frequency ­ f • Describing A single variable • N ­ total set • Relative Frequency = f/N is between 0­1 • cf = cumulative frequency: the sum of all the frequencies of all scores at or below a  particular score.  • rel cf = relative cumulative frequency. (There are must have a 1) • Average = mean score Normal Distributions is, by far, the most frequently occurring type of distribution.  • Most human characteristics are normally distributed ◦ Height ◦ Intelligence ◦ Athletic Ability Positively Skewed • A few extremely high scores are raising the tail not the right. It is not balanced with  corresponding low scores.  • Company salaries. • High peak in left Negatively Skewed • High peak in right.  Bimodal Distribution • Two high frequency points.

