统计学基础知识之基础概念与知识点
统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。下面是yjbys小编为大家带来的统计学基础知识,欢迎阅读。
统计学基础知识
总体:是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其实测值的集合称为样本。
随机抽样:是指按照随机化的原则,从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。
随机化原则:总体中每一个观察单位都有同等的机会被选入到样本中。
抽样误差:由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。
同质:一个总体中有许多个体,它们之所以共同成为人们研究的对象,必定存在共性,所谓一些个体处于同一总体,就是指他们大同小异,具有同质性。
变异:在自然状态下,个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,表现为各种生理测量值的参差不齐。
变量:确定总体之后,研究者对每个观察单位的某项特征进行测量和观察,这种特征称为变量。
变量值:对变量的测得值称为变量值,或者观察值。它可以是定量的,也可以是定性的。
定量资料:又称数值变量。其变量值是定量的,表现为数值的大小,一般有度量衡单位。
分类资料:也称定性资料,其观察值是定性的,表现为互不相容的类别或者属性。有无序分类和有序分类两种情况。
统计描述:用统计指标、统计图、统计表等方法,对资料的数量特征及分布规律进行客观的描述和表达。
统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征:①参数
估计:用样本的指标去推断总体相应的指标;②假设检验:由样本的差异推断总体之间是否可能存在的差异。
计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。计量资料亦称定量资料、测量资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。
计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。
概率:又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。
频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验重复很多次时P(A)=m/n。
随机误差:又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。
系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。
随机变量:指变量的值无法预先确定仅以一定的可能性(概率)取值的量。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
参数:是指总体的统计指标,如:总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
统计量:是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
算术均数:描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X表示。
几何均数:用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。
中位数:将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。
极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
百分位数:是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。
四分位数间距:是由第三四分位数和第一四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。
方差:方差表示一组数据的平均离散水平,由离均差的平方和除以样本个数得到。
标准差:是样本平均数的平均距离,用来考察样本数据分散程度的大小。
变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV表示。计算:CV=标准差/均数×100%
可信区间:是按预先给定的概率1-α所确定的包含未知总体参数的一个范围。从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1-α。
参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
假设检验:亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,如设总体均数为一定值,两总体均数相等,总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。
I型错误:指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用α表示。
II型错误:指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用β表示。
正态性检验:用均数和标准差描述资料的分布特征,对例数n较小的样本进行t检验时,首先要求样本取自正态分布的总体。
检验效能:1-β称为检验效能,它是指当两总体确有差别,按规定的检验水准α所能发现该差异的能力。
率:又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:率=发生某现象的观察单位数/可能发生某现象的观察单位总数×100%,表示方式有:百分率(%)、千分率(‰)等。
构成比:又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%,表示方式有:百分数等。
比:又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几。计算公式为:A/B,表示方式有:倍数或分数等。
非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的`,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。
参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计。
秩次:变量值按照从小到大顺序所编的秩序号称为秩次。
秩和:各组秩次的合计称为秩和,是非参数检验的基本统计量。
直线回归:建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归。
回归系数:即直线的斜率,在直线回归方程中用b表示,b的统计意义为X每增(或减)一个单位时,Y平均改变b个单位。
相关系数r:用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。
t检验:常用于整体标准差未知且样本含量较小时样本均数与总体均数的比较,应用条件为n≤50,样本来自正态分布的总体,两样本均数比较时要求两样本总体方差相等。
u检验:用检验统计量u来命名的,用于样本含量n足够大,或n虽小但总体标准差已知的样本均数与总体均数的比较、成组设计两样本均数的比较。
观察性研究:是指在没有任何干预措施的条件下,客观的观察和记录研究对象的现状及其相关特征。
病例对照研究:是一种分析流行病学研究方法,主要应用于探索疾病的危险因素和病因。病例对照研究方法是对临床医疗和各种基础研究中形成的病因假设,进行初步验证。是选择一组患某病的病人,再选择一组不患该病的对象,比较两组人群之间在疾病发生之前有关可疑因素的暴露情况,如果两组的暴露率却有差别,则可认为所研究疾病与因素之间存在着关联。
队列研究:又称前瞻性研究,是将特定的人群分为暴露于某因素与非暴露于某因素的两种人群或不同暴露水平的几个亚群,追踪观察其各自的结局,比较两组或各组某结局的发生率,从而判定暴露因素与结局有无因果关联及关联程度大小的一种观察性研究方法。
完全随机设计:又称简单随机分组设计,是采用完全随机化分组方法将同质的实验单位分配到各处理组,各组分别接受不同的处理。各组样本含量可以相等,称平衡设计;也可不等,称非平衡设计。
配对设计:是将实验单位按一定条件配成对子,再将每对中的两个实验单位随机分配到不同处理组。
随机区组设计:是将实验单位组设计或配伍组设计,实际上是配对设计的扩展,是先将实验单位按性质相同或相近者组成区组,再分别将各区组内的实验单位随机分配到各处理组或对照组。
析因设计:为安排析因实验的设计,是将两个或两个以上处理因素的各水平进行组合,对各种可能的组合都进行实验,又称完全交叉分组实验设计。
方差分析:也叫F检验,是统计检验的一种,其基本思想是:按研究目的和设计类型,将总变异中的离均差平方和和自由度分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内变异主要反应个体差异或抽样误差,其他各部分的变异与之比较得出统计量F值,根据F值得大小确定P值,并作出推断。
秩和检验:即先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量的一种方法。
流行病学:研究人群中疾病与健康状况的分布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学,是研究人群中事件或者结局的分布及其影响因素,并研究防止或者促进其发生的策略和措施的科学。
暴露:暴露是指研究对象(人)曾经接触(或不接触)某因素,或者具备某些特征,或者处于某种状态,这些研究者所关心的因素、特征、或状态即为暴露因素;暴露是指可能影响研究对象最后成为(病例或非病例研究者关心的结局=)某种结局的机会。
临床试验:以临床患者的为研究对象,采用随机原则将其分为试验组与对照组,试验组人为地给予某种干预措施,即某种新药或某种疗法,而对照组不给予研究的新药或给传统的医疗措施或给安慰剂,经过一段时间的观察后,评价实验药物的效果或不良反应。
病因:那些能使人群发病概率增加的因素,就可以认为是疾病的病因,其中某个或多个不存在时,人群疾病发生频率就会下降。
危险因素:在复杂病因所致疾病或未明确病因时,相关致病因素常被称为危险因素。
诊断试验:是指运用物理学的、生物化学的、血清免疫学的检查,临床检查和医疗器械检查对病人的疾病和健康状况做出诊断的试验。
机遇:又称随机误差,是由于多种不能控制及不能预测的因素引起的一类表现不恒定、随机变化的误差。
偏倚:又称系统误差,是指研究过程中,一些已知活可控制的因素引起的使研究结果或理论系统抵偏离真实情况。
【统计学基础知识之基础概念与知识点】相关文章:
3.php基础知识点