Log in to StudySoup
Get Full Access to GWU - PUBH 3131 - Class Notes - Week 3
Join StudySoup for FREE
Get Full Access to GWU - PUBH 3131 - Class Notes - Week 3

Already have an account? Login here
Reset your password

GWU / Public Health / PUBH 3131 / What is epidemiology?

What is epidemiology?

What is epidemiology?


01/12/2016→ class lecture

What is epidemiology?

____________________________________________________________________________ _

Learning Objectives:

­ review applicable jargon from public health

­ distinguish between eminence and evidence based medicine

what we are doing

­ Epidemiology: Measuring Health & Disease

­ (what)­­> measuring

­ (how)­­> (why)­­> ultimate goal is to prevent disease or at least 

contol it and have an effect

­ measure health and disease so we can do something about it

­ Goals: 

­ learn how Epidemiology fits into public health

­ learn to apply these principles into public health

Review­­>Jargon If you want to learn more check out How do we know they were bipedal?

­ specific language of academic specialties

What distinguishes medicine from public health?

We also discuss several other topics like What is crime prevention?

­ Morbidity and Mortality:disability and death

­ disease distribution: demographics time, region; classic bell­curve. something of  interest in terms of demographics

­ Risk factors: environmental/genetic; markers, indicators, determinants ­ artifactual: artifact of the way things are measured may make things appear to be an association but not real because of misinterpretation

­ case: an individual event; ex. one person with disease

­ case fatality: not just death but from the case If you want to learn more check out What are the challenges to church authority?

­ incidence and prevalence: risk of it; how much/many

­ Hypothesis

­ Etiology: what causes the disease; background→ how. import for  epidemiology to help solve and prevent disease. the more you know about  etiology  

Health “impact”­”Burden of Disease

Why does defining the population matter?

­ Economics, mortality, individual vs. group Don't forget about the age old question of What are the evidences they got during the earliest life evolution?

Evidence based vs. eminence based medicine

­ evidence: tested and proven to work

­ Eminence based: respected, well known, subject matter expert

­ ex: observation of respected doctors

­ medicine based on what seemed to subject matter experts that it 


­ example: back to sleep ( babies sleeping positions

Levels of Prevention

­ Primary(i.e. education)

­ secondary(i.e. early detection; prevent from going to tertiary)

­ tertiary(limit morbidity and disability/death)

Recurring themes:

­ difficulty in determining causality

­ difficulty in studying populations

­ human subjects→ pple are confusing If you want to learn more check out What does chiefdom denote?
If you want to learn more check out What is referred to by cost of capital?

­ public health vs. personal health

01/14/16→ Class Lecture



Epidemiological Perspective

­ adding dimensions changes what we see

­ take home points:

­ epidemiology is scientific foundation of public health

­ jargon

­ goal is to measure data

­ understand epidemiology perspective

­ distinguish between medical and public health application

­ history

Epi 101

“ The basic science of public health”

­ “ is a science”­­> scientific method

­ Hallmarks:

­ data ( empirical & measurable)

­ conclusions ( repeatable & refutable)

What is epidemiology?

­ study of health on population level­­­> good, bad, indifferent

BTW: off label uses of epidemiology

­ the “epidemiology of…” really refers to the results of epidemiologic studies on… ( distribution, major risk factors and etiology of disease) 

­ This course is not on the “epidemiology of…”­­­> but how to evaluate as opposed to incidental examples

­ Epidemiology is a survey course surveying a moving target

Epidemiology: Friis points: 

­ population focus

­ distribution

­ determinants

­ outcomes

­ quantification

­ control of health problems ( science more with focus on application) 

Friis on Epidemiology

­ is it a liberal art? 

­ why would it matter? 

­  has broader applications, wirting aimed at undergrads; push at 

havign it at lower level classes. “ epidemiology is for everyone, everyday, etc.”  ­ self interest

Public Health vs. Medicine

­ what distinguishes medicine from public health? 

­ the way you describe population differs how you describe an 


­ where does Epidemiology fit?

­ often only evidence we have to make medical decisions

Epidemiology vs. other medical research

­ looking at populations

­ why?

­ Public health interest ( want to  know on population 


­ no other choice

Human Populations by definition

­ Populations

­ must be a defined group defined  by “some common 


­ is a population always large? NO

­ Populations vs. subpopulations

­ every population is a “subpopulation” of the population of all 

humans ever born

­ it’s all relative to who it’s a subpopulation of

­ at least one characteristic differs between subgroups

­ each distinguishing characteristic brings us closer to individual 


­ Why does defining the population matter?

­ it’s the denominator! ( who we’ve defined as the population)

An “observational science”

­ never a completely experimental science because studying people→  observational mostly look at what happened and observe it

­ ethics/people no choice but to observe

­ Drawbacks?

­ not repeatable; cultural mindset & sometimes can’t 

Epidemiology vs. Individual

­ Epidemiology uses statistics which are group measures by definition. stat always  groups ( ex: average)

­ ex: “ your baby is an individual not a statistic”

­ “ you can’t be having that side effect because only 1/100 do” 

­ Life expectancy

­ what doe sit mean for the individual?

­ tells very little about an individual; more so how’s 

public health doing overall

Uses of Epidemiology

1. Historical→ understanding past

2. community health→ understanding/planning

3. Health services→ Best practices for cost ( now)

4. Risk assessment→ from population to individual  

5. Disease causality→ determine which associates; real vs. artifiactual  

History of Epidemiology

­ term epidemiology didn’t come into use until 1800’s

­ “epidemiologist” even later

­ only more recently really a separate field of study

­ pretty young as a science

1600’s: Bills of mortality

­ records in local courthouses of when people lived and died (for tax purposes)  males to fight, etc. not out of public health concern

­ John Graunt­­ statistician

­ true populations tudy

­ considered age when making comparison ( quantified it) 

­ standardizing of age to make comparisons

­ analyzed patterns

­ empirical data

1700’s: Scurvy

­ James Lind of groups of sailors ( 12, in 6 groups) compared different treatments ­ experimental approach

­ fan early idea

­ not an immediate success ( took 50­60 years before the British Navy started  using it) 

1700’s: Chimney sweeps

­ SirPercival Potts­ surgeon

­ observed chimney sweeps higher rates of scrotal cancer to to the soot exposure ­ note importance of comparisons even though not formally done, still know others  had lower rates. 

1800’s: Data collection

­ william Farr was an “epidemiologist” who studied medicine

­ medical doctor by training

­ collected data, comp

1800’s: Snow and Cholera

­ cholera plague of the times: could kill you in 8 hours;misunderstood; untreatable  and deadly

­ john snow doctor in london in mid 1800s

­ identified cause of epidemic through

descriptive and quantitative stats methods ( i.e. epidemiology) 

­ Known as father of Epidemiology

­ removed pumps so people couldn’t get water; made pa with lines for every case  of cholera( no cholera near brewery because they mostly drank what was brewed) ­ able to make convincing argument. spoke to places to ask them where they got  their water from. 

1800’s: Snow and Ricketts

­ Snow published paper on Rickets caused by Vitamin D

­ ignored and forgotten

­ the true dietary nature of rickets was not elucidated and accepted until 1920’s ­ Snow & Cholera ( pump handle put back on ) 

1800’s: Ignaz Philipp Semmelweis

­ puerperal fever ( 1646 paris)

­ while doctor, 20­30% mortality rate for women giving birth in hospitals ­ Hungarian OB working in Vienna Austria: compared 2 clinics and showed deaths  due to “cadaverous materials” on student doctors ; other clinic was with midwife ­ mortality rate reduced to 1% with hand washing

­ increased following his departure

­ huge controversy in medical community.

1900’s: Non­infectious disease

­ 1948: FHS began

­ large studies where began following populations for diseases

­ started studying chronic diseases and doing studies following 


­ Biostatistics: many mentioned were staticians

­ if epi is science of public health, biostats is math of science. 

­ 1930’s: RAFisher developed concept of null hypothesis and statistics test ­ 1948: FHS began

­ 1950’s: Bradford­Hill and Richard don used statistical methods to quantify certain risks from smoking

­ 1973­20005: Bogalusa heart study

***History is English Centric Version 

­ illustrates­­>not standard scientific progression

­ multi­disciplinary

­ relatively young

­ tends to be build by glacial accretion

­ as a science epidemiology more about the tools than the results

­ biostatistics is important to oland a lot of what we use is very new


____________________________________________________________________________ ___

A transition in Epidemiology

­ judging by this history of epidemiology: 

­ what was the focus in the past? ( infections communicable 


­ what did it shift to? ( chronic diseases )

­ is that shift permanent? (no)

­ What are we measuring in Epi?

­ health and disease

­ what is necessary in order to measure something?

­ some type of scale; quantifiable units; gather statistics

­ an agreed on and clear definition that allows for consistent 




­ how has it been defined for you so far? 

­ From 1948 WHO statement

­ “a state of complete physical, mental, social well­being and not 

merely the absence of disease of infirmity”

­ original root word just meant to be whole ( looking for what’s missing)

The basics: vital statistics

­ refers to birth and death 

­ ( includes marriage/divorce records

­ most common public records historically ( how long someone lived)

­ generally gives you the where, who ( age, gender, race, when and how ­ can  be used to calculate group descriptors

­ average life span→ this is where we get life expectancy  


­ birth and death rates

­ statistics by subgroup ( sex, age, places, etc. )

Measuring health

­ can you measure complete well being?

­ what can we measure

­ life expectancy ( may be specific to subgroups) or what the 

average lifespan was

­ pros: 

­ minimum requirement for health is to

be alive

­ fairly easy to compute

­ cons:

­ maybe too minimal

­ only an average so “ expected” part 

is iffy ( based on past experience)

­ Health adjusted life expectancy

­ subtracts expected days with disabilities/illness

­ pros: 

­ closer to defnition of health

­ cons: 

­ expectancy on average

­ subjectivity aspect 

­ various quality of life scales (QoL)

­ Happiness indexes

­ Hale and QoL mostly physical, the happiness indexes try to look 

at level of functioning as well but are you happy or not. this is a new area of  measuring health

­ new scales? 

­ ­­­> all scales have some issues of subjectivity

­ Measurement issue: subjectivity=inconsistency (easily result in 


Measuring the complement of health

­ limited in trying to completely measure health so we often measure the  complement of health

­ scientists love this trick: ( the easier thing to measure)

­ for example: if you can’t count life, count deaths

­ if we can’t measure health can we measure those things that impinge upon it? ­ morbidity

­ mortality

Outcomes: adverse health events ( negative parts)

­ Broad Categories

­ Direct

­ disease

­ injury

­ Mental health/QoL

­ Indirect

­ Behaviors/conditions that are known disease or 

injury risks

Reality Check

­ what is disease? (this is the one we tend to focus on the most)

­ generally thinking of a process ( mostly use this term in a narrow sense where  there is some sort of physiological dysfunction that’s part of a process)

General disease categories:

­ Infections disease: 

­ disease resulting from the presence of a biological agent 

reproducing in the host

­ ex: parasites, bacteria, viruses, prions

­ may or may not be communicable 

­ must produce disease symptoms eventually

­ generally acute, short latency

What’s the difference ( http://emergency.cdc.gov/preparedness/quarantine/) ­ infections

­ communicable*

­ contagious ( directly transferable; very 

communicable and directly from someone)

­ *where epidemiologists start to get excited

Review: communicable disease transmission

­ direct transmission( person to person)

­ indirect transmission

­ vehicle transmission ( inanimate on something)­­>toilets, 


­ vector transmission (animate)­­> mosquitoes, birds, fleas,ticks

­ aka: vector borne

­ Airborne

­ bacteria virus can float in air

­ Either!

­ What’s fomite?

­ other matter

General disease categories:

­ Chronic diseases

­ generally not thought to be infectious

­ long lasting condition

­ >3 months according to NCHS

­ often with slowly worsening conditions

­ ex: cancers, diabetes, CVD, osteoporosis, asthma

­ often unknown etiology particularly in individual

­ less of a strict category than infectious

Communicable vs. Chronic: Diagnosis

­ communicable: 

­ generally straightforward diagnosis 

­ requires accurate knowledge of pathogen 

­ Chronic

­ complicated,often must rule out infectious 

­ requires agreed on standards/definitions

Communicable vs. Chronic: mortality

­ communicable

­ generally highest in young/very old  ( immune system strength)

­ higher when little access to medical care ( communicable tends to 

be treatable but no access makes it deadly)

­ may be quickly fatal

­ chronic

­ higher rates with age

­ seen more in absence of other causes of death

­ not as fatal

Communicable vs. chronic: risk factors

­ communicable

­ exposure to infectious agent

­ immunity factors

­ suppressed/weakened immune system

­ unvaccinated

­ not previously exposed populations

­ chronic

­ often lifestyle/behavior factors

­ genetics

­ various and multiple exposures

communicable vs. Chronic: Epidemiology research focus


­ prevention

­ treatment 


­ understanding causation pathways  ( mostly for prevention purposes) ­ early diagnosis ( if not prevention, catch it early)

Which is it?

­ cervical cancer

­ lyme disease ( it is infectious 

­ food poisoning ( doesn’t fit in either) generally not communicable but not  infectious 


­ Blindness

there are things that result in chronic disease but caused by infection.

diseases don’t always fit in categories

We could categorize as:

­ chronic vs. Acute

­ communicable vs. noncommunicable


Kkoch and causation

1. organism present in every disease case

2. it must be isolated and grown in pure culture

3. inoculation with culture

4. etc. 

Koch and causation...today

original postulates:

­ based on infectious disease )

­ no role of chance

­ cannot be applied to organisms that only infect humans 

­ need to find causes of noninfectious disease

­ need to identify “causes” that don’t always result in disease

­ leeds to importance of concepts: risk and risk factors

Defining risk

­ risk implies the role of chance ( i something increases or diminishes your risk it’s  like tossing a dice)

­ it is the probability that something (probably bad) will happen

­ Risk factors are those things that affect risk

Determinants of health

­ another word for cause, and a lot of times they are risk factors 

­ biological

­ lifestyle/behavior

­ environment

­ access to health care

­ ***according to Friis***

Causal Models

­ there are different ways to picture causality

­ keep in mind individual vs. populations issues 

­ consider how they address the role of chance

­ there are models, models and then models 


­ also known as “epidemiological Triad”

­ Host­­­> environment­­­> agent ( generally the pathogen)

Wheels of causation

figure 3.5

in a person,all of these things generally affect whether they have this disease or not  Web of Causation

­ how do the risks interact?

Direct vs. Indirect Causal “Models”

­ Direct: A causes B

­ Indirect: C influences A which then cases B 

­ subsequent models tend to look like clear path ways. A→ B → C etc.  ­ Practical examples? 

Or...Necessary, Sufficient and the Component Cause Model

­ A is Necessary if: Must have A toget B ( example infectious Diseases; you don’t  have Aids without having HIV)

­ Sufficient if: A alone results in B

­ may apply to a set of causes ( risk factors) 

­ A and C are component causes i: 

­ in causal in combination 

→ may be different combinations that are causal  

→ may be combined with direct/indirect terms  

Rothman’s “Wheels”

Sufficient case Sufficient cause 


some set of things ; if all are present you will get the disease. if you remove any one of  them you don’t get disease

or a specific disease there are several different combinational factors. 

these models illustrate sufficient component causes. What is necessary ( if only I and II lead to  disease)? there is almost always a factor that is unknown

does not show relationship between components

each separate piece can be called a contributory cause

Contributory causes in component cause model

­ contributory causes need to be neither necessary nor sufficient

­ ex: smoking has a causal relationship with cancer ( smoking is 

neither sufficient nor necessary)

­ Most risk factors we study are contributory

­ if something is necessary, easy to study and not requires a lot of 

studies to prove that

Directed Acyclic Graphs: graphical way to describe causal associations. direction of  causal chain indicated by arrows. can not be a loop ( acyclic). arrows do not indicate sole  causes 

U­­­­­­­­­­­­­­­­­> S

D­­­­­­­­­­­­­­­­­> Y

extended to looking t things on a group level; at an individual you may not have all of these  things. 

POpulation vs. Individual

­ models do not always make clear distinctions between population and individual ­ may be multiple causes in population but not individual 

­ may be multiple causes ( component cause) for individual case

­ epi studies look at causation on population level. 

What studies find: Associations

­ how much do we know that something is truly causal 

­ association does not imply a direction

­ says nothing about direct, indirect,necessary or sufficient

­ weasel word? epidemiologists like it

­ actually most accurate description of results

How do we decide an association is a cause if we can’t use Koch’s postulates? ­ The scales of epidemiology!

­ criteria that researchers have come up with, if we meet enough of them we say  it’s causal and if not we say it wasn’t 

Dr. Ulfers Quick Guide to Causal Criteria Caveats


–     Interpreted here as a large effect

àproblematic if artifactual, or by chance (from small sample), how large is strong  enough?

(Sometimes people interpret this as “statistical strength” or a small p­value but this may  be due to a small effect found in a very large sample so we won’t …this will make sense later J)


–     Multiple studies addressing the same question give same results à Problematic if same artifactual associations found in all studies

à Best if same results under different conditions and/or with different designs 3.      SPECIFICITY

–     A risk factor produces one particular effect that is generally not an effect seen from  other risk factors

example: vinyl chloride (rare exposure) is risk factor for hepatic angiosarcoma (rare  outcome)

à Problematic in that it rarely applies in non­communicable diseases,  few causal  associations, aside from pathogens leading to infectious disease, are truly specific 4.  TEMPORALITY

–     Exposure precedes disease

–      Will disprove causal association if refuted

            (i.e. if the “cause” did NOT occur/exist before the “effect” it can’t be the  cause!)

à Problematic because a lot of things came before the disease!!!

à The most abused of the criteria.


–     aka Dose­response relationship, but response seen on a group level     à Problematic if artifactual association and false factor closely associated with  true cause

   à Can’t see this if only yes/no exposure status


–     Makes biological sense

   àProblematic because sometimes accepted “knowledge” is incomplete or even  wrong.


–     Fits in with other research findings (ex. Smoking causing lung cancer fits with: more men die from lung cancer, more men smoke, carcinogens in smoke, etc., etc.) 8.      ANALOGY

–     Other disease models have similar mechanisms

à Both 7 and 8 similar to plausibility with similar caveats

Some comments on repeatability

­ scientific principle that a study’s results should be confirmed by repetition yielding the same results

­ rarely ever done in medical studies

­ consistency is as close as we generally get and it’s not quite the same thing  01.23.2016



­ How do you measure association?

­ ex: smoking & Lung Cancer

­ Samples vs. Population

­ N ( Population); N could be infinite

­ n ( Sample); sample size is limited but has to represent all of



­ we can only measure samples ( usually) 

­ only estimate true population value

­ unbiased estimates will be right on average due to random error ( chance) ­ if population is measurable, no estimation needed

How good is estimate

­ depends on sample size ( could be relative to group you are referring to)  ­ closer to ‘n’ is to N, the closer estimate will be to true value

­ depend on variability of possible measurements ( how representative it is)  More on Confidence

­ wider range= less confidence in estimate

­ X% confidence means what exactlY?

­ 100% confidence would include all possible values almost always a 95%  confidence interval though 

Measure of association

­ estimates

­ afeected by chance

­ measured association can be due to chance and not ture association ­ if no true association→ relative risk=1; OR=1, RD=0

­ if risks are eaual, odds same, RD=0

Value for Null Hypothesis

­ null hyp. states no association

­ therefore RR=1, OR=1, RD­0 ( if those are appropirate 


­ Alternative hypothesis is complement

­ therefore RR does not equal 1, OR does not equal 1, and 

RD does not equal 0

In statistical testing

­ assumption is that there is 

­ no bias

­ consider random error



____________________________________________________________________________ __

Friis pg. 98­100

Causality in Epidemiologic Studies:

­ issue of causality includes several criteria that must be satisfied: criteria of  causality

­ causal and noncausal associations

­ non causal: the association could be merely a one

time observation, due to chance and random factors, or due to errors in  methods and procedures

­ Causal:

­ Criteria of causality

­ A.B. Hill proposed a situation in which there is a clear association 

between two variables and in which statistical tests have suggested that this  association is not due to chance

­ Hill’s Criteria of causality

­ strength,

­ consistency

­ specificity

­ temporality

­ biological gradient

­ plausibility

­ coherence

­ experiment

­ analogy

Types of causality:

­ multifactorial ( multiple causality)

Figure 5­11: the declaration of a causal association involves a process that is similar to a jury  weighing the  evidence in a trial. 

Figure 5­12: the web of causation 


­ Hill’s list of causal criteria not the only list, some authors list up to 14 for  instance…

­ Reversibility: ( removing exposure you remove disease) 

­ but this requires: 

a. ability to remove the exposure and

b. specificity ( sometimes reversibility is proof of 


Communicable vs. Chronic: etiology

­ communicable diseases usually have a necessary cause ( the particular  pathogen)

→ chronic generally multiple causes ; multiple pathways

­ generally multiple risk factors

­ in an individual

­ or in a population there is multiple risk factors  ( some people get it

from x and some people get it from Y) 

­ Major role of genetics

Lecture 5: Descriptive epidemiology­Person, Place and TIme

Learning objectives;

­ Know what descriptive epidemiology is

­ know what are the most common person, place and time variables

­ understand the importance of variables in epi

­ consider ole of estimation in sampling

Where to start

­ Descriptive

­ describing everybody in some population at  some place and time 

( whole group or one category)

­ of diseased only 

­ of healthy only

­ of exposed only 

­ of unexposed only

­ descriptive study asks questions 

­ what is everyone like, etc. 

­ table 1

­ describes distribution of those variables 

­ how something, any variable is 

distributed along the lines of another group. who’s got the disease 

( with age) how is it distributed by age, place, etc. geographically 


­ Generate hypotheses

­ I think A is related to B or A is 

causing B

­ descriptive studies aren’t answering 

that they are just observing it; you might have an idea of what 

you're gonna find you want to confirm it? describing findings not 

testing hypotheses

­ Analytical Tests hypothesis 

Variables in descriptive study

­ mostly demographics  ( gender race age, etc)

­ common to many studies, not just a particular study

­ exposures ( risk factors) 

­ Health outcomes

­ Personal characteristics ( that go beyond general demographics)

­ particular to specific study

How do we quantify the variables?

­ Discrete or categorical variables in health ( ex: mortality)

­ Frequencies/Counts

­ Continuous

­ average/means

**Note difference between data for individual and group!!!

“Simple” Statistics

­ Counts ( a group measure) ( discrete variables)

­ Percentages/proportions and rates ( discrete variables)

­ means/medians ( for continuous variables)

→ all may be given for subgroups of interest, and sub-sub groups, i.e. stratified


­ What is included?

­ Person, Place, and Time

­ Descriptors of interest in population

­ What isn’t included?

­ outcomes or risk factors….in genral


­ age

­ most important health determinant??

­ overlaps with time ( the older you are the longer 

you’ve been exposed….biological significance to it and just risk)

­ average age isn’t always enough ( different 

population group might have a different distribution) in any particular 

group or sample you will have a different distribution of age

→ distribution is important!!!

­ Sex

­ 2nd most important determinant 

­ biological makeup and lifestyle 

associated with different risk factors

­ Biological differences/behavioral

­ → can’t assume results will apply to both  


­ Race

­ Differ in Health “determinants”

­ Politically/culturally important

­ Ethics

­ Genetics

­ may be studied as

­ risk factors

­ diagnostic

­ markers

­ to define subgroups

­ → not as commonly used ( more analytical  

than descriptive study)  


­ related to many health determinants 

­ no one definition  ( ex: income levels); multiple 

variables used to measure this in different ways

­ Education

­ indirect health effects

­ a determinant of other determinants)

­ often a surrogate for SES ( ex: to measure income 

without asking directly if you can’t get that information) 

­ or separate from SES 

­ **** this is nont an exhaustive list of what might be 

considered person variables

Place: Geographic Location

­ Provides information on: 

­ Environment: political/social

­ Environment: physical

­ Population density

­ *** all this from just the  name of the place


­ time from exposure to disease

­ time from  diagnosis to death

­ time from treatment to …..

Time: calendar period

­ provides information on: 

­ social/political environment

­ physical environment ( changes based on time of year and time 


­ timing of exposures ( in time period) 

Age, Period, Cohort

­ cohort: everyone who was born around the same time 

­ ex: person got cancer at age 70 in 1950 ( all born in 1920’s shared

similar experience)

­ an event may be related to: 

­ age( biological importance)

­ period ( calendar time)

­ cohort ( born in same period) 

→ age at event + cohort = period of event  

Person, Place and Time

­ provides the context or any study 

­ so important they're usually in the title ( if not, it means it’s current)

Are person, place, and time variables risk factors/

­ depends on your perspective

­ may be associated with, but not a risk factor ( is it a risk factor if it 

is a characteristic that can’t be changed?)

­ Generally not included in descriptive section of analytical study if risk factor of  interest 

­ have to wait or the results

­ potential risk factors of interest included in a descriptive study if not yet analyzed  or tested

Defining Populations

­ Describing groups by selected variables

Reality check:

­ Target Population ( interest) vs. Study population ( availability)  vs. Sample  ( actual data)

Sample vs. Census

­ sometimes we count everyone ( census) vs. who we could get ( sample) ­ usually we can’t get a sensus so ( sample) 


­ Statistics calculated from a sample are only an estimate of the true numbers  ­ all estimates are affected by chance and bias 

­  bias is systematic error and not just happening randomly) all in 

one direction….doesn’t matter how big study, missing same things over and over again. can take care of random errors

­ chance is a random error ( could be in any direction) ….cancel out

A little confidence

­ we can account for random errors with statistical techniques  ( like confidence  intervals) 

­ These statistics all assume no BIAS

­ Bias is a study/measurement issue   ( not that researcher is biased but  something they are doing is always causing a problem.) results are wrong but every time you do the study it is going to be wrong in same direction

WHy we love biostatistics

­ describe a group by person, place, time etc.

­ biostats help us decide if estimates are accurate and true representation ­ probably


____________________________________________________________________________ __

­ know standard measures used in epi studies

­ rates, ratios, risk, probability and proportions how used in epi

­ prevalence and incidence

­ importance of denominator

­ how time is included in epi measures

Common Language

­ strict mathematical definitions vs. epi usage

­ vs. sloppy usage

Basic Terms: Ratios

Basic Terms: Proportions

­ a ration of a part to the whole, or subset to entre set ( always same unit of  measure)

­ in common uses in epidemiology we use ration for comparisons that are not  proportions by this definition

Basic Terms: Probabilities

­ chance of an event is expressed s number of events over the number of times  event could have happened

Percentages vs.Percentiles

­ percentage just a proportion expressed out of 100 

­ percentile:  mostly with distribution not same as percentage ( below or above a  certain point) 

Basic terms: random sample

­ idea that everyone had an equal probability of being selected or observed ­ not to mean  each possible value has an equal chance

Probability and risk

­ risk is the probability of a future event 

­ true risks are therefore always estimates ( can’t have actually measured risk  because it is in future tense)

­ probabilities of events that we observe in health is often interpreted as the risk of  the event 

­ since is the ris is what we are usually interested in, we have a tendency to call  the probability of what we observe the risk 

more about risks

­ risks are usually applied to the individual 

­ but it has always been computed from group data

­ risk not used for characteristics of an individual 


­ various factors can be used to define either the events or the observation 

Basic Terms: Frequency

­ a count of events

­  most useful if reporting


Incidence/Incident Cases

­ Incidence is something new; a measure of new cases or events relative to the  population at risk over time

­ can be measured as a count ( incident cases) or a proportion ( incidence) ­ but always in a defined population over a period of time 

­ incidence of disease and rate of disease used interchangeably



___________________________________________________________________________ missed few minutes!!!

True rates and person years

Crude vs. specific vs adjusted measures 

­ crude rates are those observed over entire population. no adjustment is made ­ variable specific rates are rates given a particular value of some other variable or combination of variables

­ aka “stratified” most commonly by age, gender, and/or race

­ adjusted is a summary of strata specific measures that removes effect of  stratifying variable on comparisons

­ standardization is a common method of adjustment


­ concern is that it would be misleading to compare populations that differ by age,  gender or race

­ differences in distribution are adjusted for instead of making separate  comparisons 

Direct standardizations

­ give us comparison ready rates

­ apply age  ( race, gender)specific rates to age ( race, gender) distribution of  standard population for new summary measure

­ …………….

­ ……….

Public Health General Knowledge

­ framework for interpreting various rates ( and knowing what to expect) ­ age and mortality

­ racial differences

­ gender differences

­ SES effects

­ BMI effects

­ exercise effects

­ smoking

­ ***general core knowledge

­ **exceptions matter! did you miss something? was underlying assumption  wrong?

lecture 7

­ most simply graphical display: “simple” tables

­ Histogram ( continuous) vs. Bar graph

­ histogram is a typical way to depict the distribution of variables

­ the more people in study, the finer the bars will be 

­ pie charts

­ proportions

­ PMR (proportionate mortality ratio) easy to show in a pie chart

­ limited

­ line graph

­ example, showing mortality by cohort 

­ period effect, age effect, cohort effect

­ scatterplot

­ dots can represent individuals or a group

­ relationship between two continuous relationship

Why are descriptive studies important?

­ public health applications for planning

­ understanding etent, burden of disease ( knowing how bad it is not just or  planning but for prioritizing)

­ want to know person, place and time 

­ generates hypotheses regarding: 

­ risk factors

­ prevention approaches

­ relationships in causal pathways

Epidemiological studies

­ what are we looking or ultimately?

­ ways to prevent disease

­ identify the links 

Epidemiological hypotheses

­ links suggested by descriptive data

­ not tested by descriptive data

­ motivates analytical studies 

What sort o descriptive data suggest links”?

Epidemiological hypotheses

­ exposure/risk factor/treatment group

­ has a different outcome  than non exposure/risk factor/treatment 


­ exposure associated with outcome at group level


____________________________________________________________________________ __

Normal Probability density function ( standard normal mu and sigma= 0,1) LEcture 8: Making comparisons

EWhy make comparisons?

­ a true cause­effect means

­ absence of cause equals absence of effect

­ presence of the caus makes a differences

­ to measure a difference there must be at least 

­ 2 numbers to compare ( quantitative values to measure a 


Implied comparison groups

­ might be no FORMAL comparison group if: 

­ outcome in unexposed well known

­ clear expectations

Formal comparison groups

­ necessary in epidemiology to test hypotheses

­ May be part of the study ( internal)

­ investigator collects all data 

­ may be general population ( external)...we know exposure group is so different  than general population we can compare the measurements in our study population to  measurements that have already been made in general population

­ need data to be available  ( and if you're looking at anything tricky want to make  sure they  measured it the same way you measured it) 

Can you ever look for causation without a comparison group?

­ NO

­ you can never really talk about causation without a comparison group ­ 33 people took an experimental drug (A) and 29 had immediate hair loss. 33  healthy people took a different experimental drug (B) and none had hair loss but 3  reported headaches the following week. 

­ there is no formal comparison group but is there evidence for a causal  association between either drug and the reported effects. 

­ you would need a comparison group for drug B but not A

­ the point is that when we make decisions there has to be a comparison groups  but sometimes it's okay if it’s not a formal one  and an implied one. 

­ who are you really comparing them to? ( expectations of healthy people) WHen we measure a difference…

­ what then? 

­ Have to test to determine if it is real 

Test hypotheses: what we think will happen..PLUS

­ Testable ( is it real or is it something that could have happened by chance  ­ available test require: 

­ measurable variables,

­ quantitative

­  value to test or 

­ quantitative hypothesis value

­ no difference between comparison groups gives a testabel and 

interpretable quantity 

­ Null hypothesis

­ if any 2 group measures are the same, the difference is zero or 

the ratio is 1

­ so we test if there is NO effect, aka the NULL

­ when comparing groups the null hypothesis predicts groups will  have same outcome 

­ mathematically test to see if what you got was due to chance  *null* or reject 

­ Null and alternative

­ alternative hypothesis: what we’re left with if we reject the null  ­ they are complementary: together they encompass all possibilities ­ they are mutually exclusive 

­ EX: 

­ Null: group A has the same incidence of disease as

group B

­ alternative: group A and B have different disease 


­ if we reject the null we can conclude the alternative 

­ Does smoking cause lung cancer?

­ nUll: smokers have the same rate of 

lung cancer as nonsmokers

­ alternative: they have different rates

­ conclude there is an 


­ You are interested in the health effects of exercise. 

need measurable comparison. Narrow down to measurable outcome and  measurable “ exposure” 

­ null: the mortality rate of people who 

exercise more than 30 min. twice a week is the same as for those  who exercise less. 

­ Association

­ if only difference between A and B is exposure status

­ the exposure and disease are associated 

­ what if there are other differences?

­ Scientific method ( again)

­ requires empirical evidence

­ requires measurable differences

­ to have quantitative comparison requires quantitative measures ­ concept of constants

­ scientific ideal is to hold all but variable of interest constant 

­ too many variables with humans to keep constant 

­ term not used in epi­ too far from reality

­ control of differences at group level instead 

­ Ideal comparison groups:

­ almost exchangeable ( everything esle is same except for risk  factor)

­ except for the factor we are investigating

­ will need same units of measure

­ should be comparable 

­ Top 3 issues in student designed studies:

­ 3.not having any comparison group

­ 2. not having proper comparison groups

­ 1. not having measurable variables 

Confounding ( not ideal) 

­ comparing groups that differ by some other factor that changes the outcome  ­ can’t know if results are due to difference in exposure or difference in confounder ­ ** confounded results are artifactual 

Examples of confounders

­ anything and smoking 

­ location nd average age of groups

­ occupational exposures and healthy workers

­ SS and location ( or education or race) 

­ apparent effect of studied factor due to confounding 

­ confounding can hide real associations and make associations that aren’t there.  changing comparison of the groups

Which is the confounder

­ the one with the rue association

­ no association with outcome = no confounding 

­ therefore: 

­ confounders must have been associated with the exposure 


­ affect the outcome 

Most popular example

­ death rates are much higher in florida than in Alaska

­ proving that living close to disney world is dangerous

­ problems?

­ other differences

­ age highly associated with mortality 

­ the apparent difference in death rates changed 

when controlling for age 

Consider age as a confounder

­ can stratify analyses results

­ age specific rates

­ Mathematically adjust comparison

­ standardize rates

­ include age variable in math models

­ standardized mortality ratios ( indirect..) 

­ **these approaches are part of analyses 

­ Match subjects between groups by age 

­ compare groups with same age distributions 

­ compare groups that are age “restricted”

­ ***part of study design

Any confounder

­ can stratify analyses results 

­ specific rates by variable level

­ mathematically adjust comparison

­ aka “controlling’ for

­ only if know and measure confounder

­ ***part of analyses 

­ consider any confounder

­ use matched individuals in each group

­ compare groups with similar distributions

­ compare groups restricted to oen value of confounder 

­ restriction limits applicability! 

­ ** all these approaches are part of study design 

­ other problems from variable we aren’t interested in 

­ effect modification by some factor  ( aka interaction)

­ when the effect itself ( how much difference there is

) is changed by this other factor ( ex: coffee drinking does cause a certain cause of cancer but if you’re a smoker it’s going to be a ten times 


­ can not be removed ( can’t adjust ­­ just must be 


­ common potential effect modifiers

­ sex, race

­ often do stratify on these

­ and age 


____________________________________________________________________________ __

Descriptive vs. Analytical ( Review)

­ descriptive only describes

­ no hypotheses


____________________________________________________________________________ __

Descriptive vs. Analytical ( Review)

­ descriptive only describes ( no hypothesis)

­ analytical tests hypotheses ; comparison groups required

­ some study designs can be both descriptive and analytical

­ can be divided in observational vs. experimental

case reports/series

­ only descriptive

­ fits into epidemiology

­ suggest hypotheses

­ provides preliminary results

­ shows exceptions/refuting theories

­ Case series ( related case reports)

­ **published as response to unusual observation; not a study that would be  designed 

­ evidence only for refuting theories

Ecological studies

­ often descriptive

­ sometimes analytical

­ defining characteristics: available data on group level only

­ compares concurrent measures of outcome and risk factors by groupings ­ often known as ecological data→ when you have stuff just about the  whole community

­ pros

­ fast and cheap

­ always done with available data

­ generates hypotheses

­ appropriate for group level interest

­ sometimes gets called correlation studies

­ cons

­ subject to ecological fallacy( only looking at group 

level and saying it happens to individuals); attributing associations in 


­ observational unit is group; don’t know for individual


­ descriptive or Analytical

­ defining characteristic: all data collected for same point in time

­ often from questionnaires or surveys

­ all you get is a snapshot of individuals→ just prevalence

­ pros

­ no follow up ( fast and cheap)

­ control of what data is collected

­ good prevalence data

­ cons

­ no follow up 

­ no incidence data ( can’t know risk of getting 


­ can’t establish temporality ( can be a vital piece in 

establishing cause and effect)

­ prevalence can be misleading

­ prevalence=incidence X duration


_____________________________________________________________________ [handouts]


____________________________________________________________________________ __

Topic for today:  Bias & Validity

­ comparison groups exchangeable 

­ what it means for something to be valid?

­ trusted and proven: true

­ 2 main threats to validity ( anything that threatens validity is 


­ Random Error ( mistake in calculating data); 

­ can be in either direction but it 

averages out. main issue: it balances, doesn’t go in just one 


­ what all of our statistical techniques 

to see how many people I need to have to have not random error 

throw off results: significance

­ Bias 

­ as opposed to random error, always 

in same direction

­ “systematic error” ( something in 

your study where you are always to high or too low; something 

wrong in study)

­  ( one source of bias)Confounding 

will bias results ( bias can be confounding or non)

­ most things we label 

as biased are confounding 

­ Reliability

­ when we have results, we want them to be true and

accurate as well as reliable 

­ reliability of measures in the study; is it repeatable  

( in test retest, do you get the same results)

­ distribution: every time you take the 

measurement...even though there is a certain true value, a measure with 

not great reliability you get something different? along the true value, still  true but one may be more reliable than the other 

­ Bias

­ when doing a study, you have to think about the first part of the  process when you decide who is going to be in the study. if all the people who  participate teend to be , say volunteers who have more adherence to the drug,  they are going to change the results…..this is known as a selection bias ­ selection bias: ( happens ahead of time)

­ direction of the bias: sometimes we 

can anticipate the direction

­ The healthy worker effect ( a type of 

selection bias usually in occupational settings): the people in study who are exposed are more likely to be healthy and make it seem  exposure has more or less effect than they really do.

­ it could mask the real effect or make 

it look very extreme; can’t always tell the direction

­ information bias: > can be non differential or 


­ if both comparison groups are  

being mismeasured in some way→ nondifferential bias  

because it’s the same in all of the comparison groups.  can mask  the difference. makes the difference less, still going to bias the 

results but makes it closer to no difference

­ differential bias:  

­ recall bias ( people may exaggerate 


­ misclassification bias : → put them

in the wrong group...iin case control study: f you’re just  

going to classify people as exposed or not having been  

exposed, already selected and then ask if they were  

exposed or not. ex: in a cohort study, putting people in  

wrong outlook group. in experimental: one group you’re  more likely to miss or put in wrong outcome group. more  for studies where we are saying yes or no to exposure.

­ Internal and External validity

­ Internal validity→ applies to study population

­ external validity→ does it apply to target  


­ does study population represent 

general target population

­ often issue in clinical trials 

­ if you control for a confounder, no bias

­ what do you do about bias in studies?

­ use measures with good validity and at least consistent ( ex: IQ 

consistent measure for intelligence) 

­ use similar comparison groups

­ treat/measure comparison groups the same way

­ anticipate potential bias and expected direction

­ anticipation of bias direction

­ sensitivity analyses → What If?; very important ( generally

requires number input)


­ does a study measure the association it says it does

­ does it do so accurately?

­ could the results be reproduced consistently? 

validity/reliability issues in observational studies 

[ Slides will be posted]


___________________________________________________________________ [beginning of notes are written]

Odds vs. risk

­ ex: 25 o 35 students did the reading

­ the probability is 2535 (71%)

­ the odds are 25 to 10, mathematically ( expressed as 2.5 to 1, 

25/10, or simply 2.5)

­ Odds are harder to interpret

­ an alternative way to describe relative chance of an event

“measures of association” 

→ found together more than found apart

→ possible cause and effect

­ example: spanking is associated with future violent behavior

How do you measure it?

­ effect is change in difference ( change due to the exposure)

­ comparisons that show difference

­ mathematically shown with differences  ( subtraction)

­ or ratios

comparing risks

­ sof if we have risk in exposed and unexposed:

Risk difference = Risk ( exposed)­ risk ( unexposed)

Relative Risk (RR)= Risk ( exposed)/Risk ( unexposed) 

aka risk ratio

→ btw “risk” and “probability” used interchangeably

Reality check

­ most using rsk as incidence

­ but if prevalence, math doesn't change but the interpretation does

­ COmpare risks in exposed and unexposed

­ in example readers and nonreaders

­ risk in readers 1//25=4%

­ relative risk= fraction over a fraction 1/25 ovr 4/10=0..1

­ how to interpret this?

­ for relative risk, if there is no difference it is gonna be 1

­ if there is a difference, zero

­ less than one: risk in the exposed is lower than non exposed

­ if relative risk was 2: we would say that it doubles your chance

­ ­­­> protective association

Odd Odds

­ consider: ods of exposure in diseased vs odds of exposure in non­diseased ­ a/c over b/d= ad/bc

­ odds of being exposed/odds of non exposed

­ Wanted: odds of disease in exposed vs odds of disease in unexposed ­ a/b over c/d= ad/bc

­ the odds ratio works either way

for case control: have to use the odds ratio; can’t use risk ratio

­ when comparing odds of disease by exposure status or odds of exposure by  disease status

­ can be calculated for complex analyses→ logistic regression ­ logistic regression: gives odds ratios

­ good estimate of RR if disease is rare

­ still a legitimate comparison, just harder to interpret

RR vs OR

­ the lower the disease risk, the closer the OR to RR→ rare disease OR  about same as RR

­ OR not as easily interpreted as RR

­ in case control, only compute OR

­ OR has more extreme value than RR

­ more common disease→ more extreme

­ older articles frequently call OR the RR

­ OR can be used for any study while not preferred because of interpretation 

Friis’s Attributable risk

­ mathematically risk difference

­  aka: excess risk, risk difference

­ how much of the risk in exposed due to exposure?

­ Risk (exposed)­Risk ( unexposed)= Risk difference =RD=AR

­ this will reflect underlying incidence ( or if comparing prevalence 

underlying prevalence) 

­ how common the disease was to begin with  (RD)

­ p ( exposed)=30%, p(unexposed)=10%

­ RR =3, RD=20%

­ p(exxposed)=70%, p(unexposed)=50%

­ RR=1.4, RD=2­%

­ p(exposed)=3%, p(unexposed)=1%

­ RR =3, RD=3%

­ Risk difference usually used to describe public health impact 

continuous outcomes and exposures

­ scatterplots: measure association using linear regression

­ not necessarily discrete comparison groups, but still comparisons

­ what is the slope? ( change in x over change in Y) 

­ measure strength of association  by slope or rate of change


____________________________________________________________________________ __

EPI lEcture


Example: what is the RR if only 0.01% of unexposed have outcome but 0.07% of exposed do                                  Disease                    n disease

Exposure A               7                               9,993

No exposure A          1                               9,999

What ist he RR if only 10% of unexposed have outcome but 70% of exposed do? (cohort)

                                 Disease                    no disease

Exposure A               70                             30                 100                                       No exposure A          10                             90                 100                          

Relative risk 70/100=7

OR: (70/30)/(10/90)=21, >> than RR

Odds= people who have it to people who don’t

If no difference between relative risk, Odds is 1

If RR is less than one, Odds ratio will be even further away than one ( less) Vice versa for if RR is greater than one, Odds ration will a bit further ( higher) The less common the disease, the closer they will be

The prevalence of disease changes these measures.

Only change is 1% of population exposed

                                 Disease                    n disease

Exposure A               7                               3                   10 No exposure A          1000                         9,000            10000                                                                                              10,010                                  1007                         9,003

Incidence in Cohort data

­          Risk estimate for exposed in N

o   Calculated from exposed in ‘n’

­          Risk estimate or unexposed in N

o   Calculated fro unexposed in ‘n’

­          Risk estimate for all N

o   Is prevalence of exposure in N same as in ‘n’

o   Calculated based on how many really exposed in population Role of chance in examples

­          7/10,000 over 1/10,000, 95% CI (0.861 to 56.886)

­          Not significant because one is not in the confidence interval o   And it is sketchy how accurate the 95% CI is with <5 in any cell o   If less than one, it is not significant

­          70/100 over 10/100, 95% CI (3.385 to 12.778)

­          7/10 over 1000/10,000, 95% CI (4.646 to 10.548)

o   Significant

Causation and associations

­          Exposed cases will include cases due to other causes ­          Un exposed cases all due to other causes

­          Simple idea…complicates everything

Causal “models” and associations

­          If A is a sufficient cause what would be the RR? (100%)

o   Whatever the risk is in non­exposed over that

o   Something can be sufficient without being necessary, and you can still measure relative  risk but you probably wouldn’t

­          If A is a necessary cause what would be the Rr/

o   No one who doesn’t have the exposure is going to get the disease

Remember causal criteria

1. Strength of association

2. Consistency

3. Specificity

4. Temporality

5. Biological gradient

6. Plausibility

7. Coherence

8. Analogy

Which ones can we use measures of association or?

­          Strength of association

­          Biological gradient

­          Consistency

­          Coherence

­          **specificity (large difference between risk of exposed and not but also if something is  necessary or sufficient; you only see this weird cancer when people have this weird exposure  for example)

o   Risk in unexposed is close to zero and really only see it in a one to one way. [handout]

Page Expired
It looks like your free minutes have expired! Lucky for you we have all the content you need, just sign up here