# USA - App 210 - Class Notes - Week 1

ST 210 Statistical Reasoning and Application    Chapter 1: Statistics, Data,
and Statistical Thinking
Data comes from observing the world.  There are two main problems with data that we will consider in this class:  1. First, there is way too much data out there.
2.  Second, we’d like to use this observed data to draw conclusions about
aspects of the world that we haven’t observed; that is, we want to make
predictions on the basis of the data.
The Science of Statistics    Statistics is the science of data.    - This involves collecting, classifying, summarizing, organizing,
analyzing, presenting, and
Interpreting numerical and categorical information.
Statistics means “numerical descriptions” to most people However,
statistics involves both:
1. Describing sets of data, and  2. Drawing conclusions (making estimates, decisions, predictions, etc) Descriptive and Inferential Statistics Descriptive Statistics utilizes numerical and graphical methods to
look for patterns in a data set, to summarize the information revealed
in a data set, and to present that information in a convenient form.
   Inferential Statistics utilizes sample data to make estimates,
decisions, predictions, or other generalizations about a larger set of
data.
Fundamental Elements of Statistics A set of data contains information about a group of experimental
units or individuals.
-  Units/Individuals: The objects about which we collect data.
- Examples: People, automobiles, storms, transactions etc.
population is a set of all units/individuals that we are interested in
studying.
-All registered voters in Alabama.
-All sales at a particular store during December.
- All the cars produced at a particular assembly line during 2017.
Variables    The information about the experimental units/individuals is given by
different variables. -A variable is a characteristic or property of an
experimental unit in the population.
- They are called variables because a characteristic varies from one
unit in the population to another.
- Each unit is assigned a value of a variable, usually found with a
measurement.
Data is often presented in tabular form. For instance, each observation
can be given a row, while the different variables can be given a
column. The data below gives petal width and length (in mm) for
several varieties of irises.

Questions to Ask of a Data Set
Q: What individuals are being described?
Q: How many individuals are there in the data?
Q: How many variables are there?
Q: What are these variables measuring?
Q: What is the purpose of the data?
Q: Do we want to draw conclusions about individuals described by the
data, or about individuals not described by the data?
Q: Are the variables the proper ones to consider for our purposes?
Obtaining Data How do we obtain the data we need for statistical analysis?  Suppose we’re interested in answering the question, “What percent of
Americans drive to work daily?” We couldn’t possibly ask every
American. However, we can get information from a sample chosen to
represent the whole population
sample is a subset of the units of a population. It is from this group
which we actually collect information.
Inference
statistical inference is an estimate, prediction, or some other
generalization about a population based on information contained in a
sample.
When we use data for inference, we are using the information
contained in the sample to learn (infer) information about the
population.
The thing that separates statistical inference from fortune-telling is
that we can measure the reliability of inference predictions.
measure of reliability is a statement (usually quantitative) about
the degree of uncertainty associated with a statistical inference.
Four elements of Descriptive Statistical Problems
1. The sample (or population) of interest
2. One or more variables (characteristics of the sample/population
units) that are to be investigated
3. Tables, graphs, or numerical summary tools
4. Identification of patterns in the data
Five Elements of Inferential Statistical Problems
1. The population of interest
2. One or more variables (characteristics of the population units) that
are to be investigated
3. The sample of population units
4. The inference about the population based on information contained
in the sample
5. A measure of the reliability of the inference
Types of Data Quantitative data are measurements that are recorded on a
naturally occurring numerical scale.
Qualitative/Categorial data are measurements that cannot be
measured on a natural numerical scale; they can only be classified into
one of a group of categories.
A Few More Distinctions While the most important distinction for our purposes is between
categorical and quantitative variables, there are a few others:
Quantitative variables can be further described as
- Continuous: Can take on any number in an interval (weight, MPG, etc)
- Discrete: Can only take a more limited number of possible values,
such as whole numbers (counts)
Categorical variables can be further described as
- Nominal: Unordered and qualitative (color, political affiliation, etc)
-  Ordinal: A ranking (place in a race, etc)
Types of data
The score a law school applicant gets on the LSAT
2. Whether or not an Intel computer chip is defective
3. The political party affiliation of an individual
4.  The temperature at which a piece of heat-resistant plastic begins
to melt 5.   A taste tester’s ranking of four brands of barbecue sauce
6.   The size of a car rented by a rental agency to an individual
7.  The number of convicted murderers who receive the death penalty
in a year 8. The current unemployment rate in a state
9.   The rating out of five stars for a product on Amazon
Collecting data We obtain data from three main sources  1. From a published source  2. From a designed experiment  3. From an observational study With a published source, the data set of interest has
   Always verify you are using a trusted source, and use primary sources
instead of secondary sources whenever possible.
Designed Experiment A designed experiment is a data collection method where the researcher exerts full
control over the characteristics of the experimental units sampled. They can specify
the treatments being used and control for factors which might create bias in the
data. Here are some basic principles of experimental design.
Compare two or more treatments to keep lurking variables at bay. Randomize the assignment of experimental units as much as possible to
avoid bias.
   Repeat each treatment on many units to reduce chance variation in the
results
Experimental Groups In most experiments, there are at least two groups considered. One group
serves as a baseline against which we compare the treatment we are
interested in. This is called the control group.

