统计研究方面的问题7篇

统计研究方面的问题7篇统计研究方面的问题 收稿日期:2004-05-26临床讲座———如何进行临床研究随着医学科研的发展,在医学论文中可以看下面是小编为大家整理的统计研究方面的问题7篇,供大家参考。

统计研究方面的问题7篇

篇一:统计研究方面的问题

日期:2004 - 05 - 26临床讲座— — —如何进行临床研究随着医学科研的发展,在医学论文中可以看出人们越来越重视统计学的作用, “只列出实验资料、仅有简单的统计描述,不进行统计分析就下结论”的现象已不多见。

 然而在统计学方法的正确应用、统计结果的正确解释方面还存在很多问题。

 在医学科研中正确、 合理地运用统计学, 不仅可以缩短科研周期、减少人力、物力的浪费,还可以大大提高科研工作的水平和质量,有利于增强科研工作的科学性。

 由于版面有限,本讲座将分为两次进行讨论,本期主要讨论计量资料的统计描述和假设检验, 计数资料的检验及统计应用中常出现的错误将在下期讨论。第六讲研究结果的统计学问题韩少梅(中国医学科学院 中国协和医科大学 基础医学研究所, 北京 100005)在有了严格的临床设计并实施后, 会得到许多研究所需要的信息, 如何运用概率论及数理统计的原理和方法来分析医学信息就是医学统计学的任务了,统计学是描述、归纳、探索数据分布规律、解释数据的科学和艺术, 也是研究人员合理地、 灵活地运用统计学原理和方法, 充分提取试验信息, 深入揭示研究事物客观规律的一种手段。首先要分清资料的类型, 然后看资料符合哪一种分布。

 对不同类型的资料选择不同的统计处理方法,计算不同的指标才能反映数据的综合特征,更好地阐明事物的内在联系和规律。!统计学中的重要概念!"!总体根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合。

 如:

 调查某地 1999 年正常成年男子的红细胞数,则 1999 年正常成年男子的红细胞数就构成一个总体。!"#样本从总体中按随机化原则抽取部分观察单位的实测值所组成的集合。!"$误差实测值与真实值之差称作误差, 根据来源分为随机误差和非随机误差:1 .3.1随机误差:

 又包括抽样误差和随机测量误差。(1)抽样误差:

 由于总体中的个体间往往存在着变异,随机抽取的样本仅是总体中的一部分个体,因而样本测得的指标 (统计量)往往与总体指标 (参数)存在差异。(2)随机测量误差:

 某项指标在同一条件下进行反复测量所产生的误差。1 .3.2非随机误差:

 又包括系统误差和过失误差。(1)系统误差:

 由于设计不严, 测量仪器不准确, 测量者水平的偏差而造成的误差。(2)

 过失误差:

 人为造成的检查、 记录、 观察、 录入数据错误等。

 系统误差一般带有倾向性, 是定量的,可控的。#医学研究中的资料类型临床研究中以患者为观察对象, 则每个观察对象的某项特征称为变量,对变量的测值称为变量值,亦称为资料。

 根据资料类型的不同可分为计数资料、计量资料。#"!计数资料观察值是定性的, 表现为互不相容的类别或属性 (即将观察单位按某种属性或类别分组,所得各组的观察单位数)称为计数资料。

 特点:

 每个观察单位的观察值间有质的区别。653基础医学与临床Basic MedicaI Sciences and CIinics2004.24 (3)

 2.2计量资料凡用专业仪器测量、具有计量单位的测量数据,表现为数值的大小的称为计量资料。

 如身高 (cm)、体重 (kg)、血压 ( kpa)

 等。

 特点:

 每个观察单位的观察值间有量的区别。3计量资料的统计描述及假设检验3.1统计描述一般用统计指标、 统计表、 统计图等方法, 对资料的数量特征及分布规律进行测定和描述。3.2统计推断包括如何抽样, 以及如何在随机变量的样本值基础上推断概率分布和总体值,并进行显著性检验。3.3统计分析3.3.1一般用 t 分布的原理作区间估计:可信度为 1 -!时,计算总体均数可信区间的通式为:X - t!, 1S!()n<"< X + t!, 1S!()n习惯上,常取 1 -!= 0.95,即 95% 可信区间;或取 1 -!= 0.99, 即 99% 可信区间。例 1对某人群随机抽取 20 人,用某批号的结核菌素作皮试,平均侵润直径为 10.9mm, 标准差为 3.86mm。

 问这批结核菌素在该人群中使用时, 皮试的平均侵润直径的 95%可信区间是多少?解:本例 H = 20、 自 由度"= H - 1 = 20 - 1 = 19、!= 0.05(双侧)查附表,得 t0.05,19= 2.09310.9 - 2.093 X3.86! 20,10.9 + 2.093 X3.86!(所以该人群皮试的平均侵润直径的 95% 可信区间为)20= (9.1,12.7)9.1mm ~ 12.7mm。3.3.2可信区间的涵义:

 可以理解为从总体中作随机抽样, 每个样本可以算出 一个可信区间, 若!=0.05,则 95%可信区间意味着 100 次抽样, 可以算得100 个可信区间, 有 95 个可信区间包括总体均数(估计正确),只有 5 个可信区间不包括总体均数 (估计错误)。3.3.3可信区间的两个要素:

 一是准确度, 反映在可信度 (1 -!)

 的大小, 即区间包含总体均数的概率的大小,当然愈接近 1 愈好, 如可信度 99% 比 95%好;二是精密度, 反映在可信区间的宽度上, 即长度愈小愈好。

 在抽样误差确定的情况下, 二者是相互矛盾的。

 若提高了可信度,可信区间势必增大,精密度下降。

 所以,需要同时兼顾准确度与精密度,一般情况下,在可信区间确定的前提下, 可增加样本例数,以减少区间长度,提高精密度。3.4统计假设检验首先对所估计的总体提出一个假设, 如:

 假设这个总体的平均数#等于某个值#0, 然后, 通过样本均数去推断这个假设是否可以接受, 如果可以接受,样本很可能来自这个总体;否则很可能不是来自这个总体。

 应用时首先要了 解各种检验方法的用途、应用条件和检验统计量的计算方法。3.4.1样本均数与总体均数比较的 t 检验:

 从某总体中完全随机地抽取一部分个体组成研究样本进行研究,这样的设计称为单组完全随机化设计, 与一个已知总体均数进行比较。例 2根据大量调查,已知健康成年男子脉搏均数为 72次 /分,某医生在某一山区随机抽查了 25 名健康成年男子,求得其脉搏均数为 74.2 次 /分, 标准差为 6.0 次 /分, 能否据此认为该山区成年男子脉搏均数高于一般成年男子脉搏均数?这两个均数不等有两个可能:

 1. 由于抽样误差所致; 2.由于环境条件的影响。

 如何做出判断呢? 在统计上是通过假设检验来回答这个问题。(1)

 建立检验假设和确定检验水准H0:#1=#0( = 72 次 /分):

 H1:#1"#0( = 72 次 /分)!= 0.05本例分析的目 的是比较山区成年男子脉搏样本均数与一般成年男子脉搏总体均数有无差别?#是未知的,可以假设#等于某一定值#0,#与#0的差等于零,这样的假设称为无差异假设或零假设记为 H0:#=#0,与零假设相对立的假设称为对立假设或备择假设, 符号为 H1,它是在拒绝 H0的情况下而接受的假设。

 假设检验所用的检验统计量一般都是建立在零假设的基础上, 因为 H0比较单纯明确,而 H1却包含着各种情况。检验水准 (size Of test )

 亦称显著性水准, 符号为!, 在实际工作中常取 0.05 或 0.01。(2)选定检验方法和计算统计量本例:

 H = 25, x—= 74.2 次 /分, S = 6.0 次 /分。检验统计量公式为:t =x—-"0Sx—自由度# = n - 1将以上数据代入公式,得:t =74.2 - 72.06.0/! 25= 1.833,# = 25 - 1 = 247532004.24 (3)基础医学与临床Basic MedicaI ScieHces aHd CIiHics

 要根据研究类型和统计推断目的选用不同检验方法,不同检验方法有相应的检验统计量,本例的检验统计量 c 服从!= n- l 的 I 分布,称为 c 检验。(3)确定 P 值和作出推断结论:

 查 c 界值表, 得出结论为, 按"= 0.05 水准,拒绝 H0, 接受 Hl。

 认为该山区的成年男子脉搏均数高于一般的成年男子脉搏均数。关于检验水准"取 0.05、 0.0l 或其他数值, 要根据不同的实验而定。"取值较小, 有利于提高 “阳性”统计检验结果的可靠性;"取值较大, 有利于发现研究总体可能存在的差异, 但可靠性降低。

 较好的做法是精确地计算出 P 值, 这会对人们认识你所作的实验有很大的参考价值。3.4.2随机化配对设计资料均数的 c 检验配对设计分为:

 (l)配成对子的同对受试对象分别给予两种不同的处理; (2)同一受试对象分别接受两种不同处理; (3)

 同一受试对象处理前后的比较。(l)和 (2)的比较, 其目 的是推断两种处理的效果有无差别; (3)为自 身处理前后结果的比较, 其目 的是推断某种处理的效应有无作用。

 以上三种设计的计算方法是一样的。

 应该首先计算出各对数据的差值d。

 当两种处理结果无差别或某种处理不起作用时,理论上差值 d 的总体均数#d= 0。

 配对设计资料以小样本居多,故常用 c 检验。

 其计算公式为:c =l d -!d lSd=l d lsd/! n," = n - l例 3胃癌或巨型胃溃疡 l3 人, 在实行全胃切除术前后的体重 (kg)如下:试比较手术前后体重有无变化?l234567术前42.548.039.046.058.547.539.0术后52.05l.545.052.549.055.052.0"" " " " " " " " " " " " " " " " " " " " " " " " " " " " " "89l0d9.503.506.006.50- 9.507.50l3.0lll2l3术前58.05l.043.038.050.057.5术后52.050.550.04l.05l.572.2d- 6.0- 0.57.003.00l.50l4.70(l)H0:#d= 0, Hl:#d#0,"= 0.05(2)计算统计量c =4.323l.904= 2.27," = l2(3)确定 P 值下结论查 c 界值表 (双侧), c > c0.05, l2= 2.l79, P < 0.05(4)结论:按"= 0.05 水准,拒绝 H0,接受 Hl。

 可以认为术前后体重有显著性差别。3.4.3两组完全随机化设计资料均数的 c 检验:

 将受试对象完全随机地分配到两组中,这两组分别接受不同的处理。

 这样的设计称为两组完全随机化设计。有些研究设计既不能作自 身对比, 也不便于配对。

 如实验中只有把受试动物杀死后才能获得所需数据,则不可能对动物在处理前后各进行一次测定;再如比较两种治疗方法对同一疾病的疗效, 每个患者一般只能接受一种方法的治疗, 把受试患者配成若干对在实际工作中又非常困难, 这时只能进行两组间均数的比较。

 在两组比较的资料中, 每个观察对象都应按照随机的原则进行分组, 两组样本量可以相同,也可以不同,但只有在两组例数相同时检验效率才最高。例 4某医院研究乳酸脱氢同工酶 (LDH)测定对心肌梗死的诊断价值时,曾用随机抽样方法比较了 l0 例心肌梗死患者与 l0 例健康人 LDH 测定值的差别,结果如下,试问 LDH测定值在两组间有无差别?患者 (Xl)23.2 45.0 45.0 40.0 35.0 44.l 42.0 52.5 50.0 58.0健康人 (X2)

 20.0 3l.0 30.5 23.l 24.2 38.0 35.5 37.8 39.0 l3l.0(l)H0:#l=#2(2)计算统计量:Hl:#l##2 != 0.05c =I 43.48 - 3l.0l I3.72l7= 3.3506,"= l0 + l0 - 2 = l8(3)确定 P 界作出结论本例 c > c0.05,l8= 3.l97, P < 0.05(4)结论:

 按"= 0.05 水准,拒绝 H0,接受 Hl。

 可以认为乳酸脱氢同工酶测定值在心肌梗死与健康人之间有差别,心肌梗死患者的含量比健康人的要高。3.2.4辨误:

 如果将例 3 误用随机样本设计的 I 检验,加大了随机误差,即会产生错误的计算结果。nl= l3, Xl= 47.5385, Sl= 7.2585n2= l3, X2= 5l .86l5, S2= 7.0875c =I 47.538 - 5l .86l I2.8l45"= l3 + l3 - 2 = 24查 c 界值表 ( 双侧), c < c0.05, 24= 2.064, P >=4.3232.8l45= l .536,0.05结论:

 按"= 0.05 水准,接受 H0, 可以认为术前后体重没有显著性差别。3.4.5关于非正态分布资料均数差别的检验:医学上有许多资料是服从正态分布的,但有不少资料不是正853基础医学与临床Basic MedicaI Sciences and CIinics2004.24 (3)

 态分布,例如血清抗体滴度、传染病潜伏期、动物对毒物的耐受量等。

 由于 z 分布以原始资料呈正态分布为依据,因此非正态分布资料用 t 检验是不合适的。1 . 当 n 较大时, 由于样本均数在 n 较大时仍可近似正态分布,U =X1 - X2S2X1+ S2X!2例 5某医院在心肾内科普查工作中,测得 40 ~ 50 岁年龄组男性 193 人的? 脂值蛋白平均数为 397.5 (mg%), 标准差为 104.30 (mg%); 女性 128 人的? 脂蛋白平均数为 357.89(mg%),标准差为 89.67 (mg%); 问男性与女性? 脂蛋白平均数有无差别?(1)H0:!1=!2(2)检验统计量公式为:H1:!1"!2 "= 0.05U = =(397.59 - 357.89104.302193+89.672128!= 3.636(3)!>!0.05= 1.96(4)

 结论:

 按"= 0.05 水准, 拒绝 H0, 接受 H1。

 认为男性与女性#脂蛋白平均数有差别,男性高于女性。P < 0.052. 当 n 较小时, 可将数据进行转换使其近似正态后再作检验。

 在进行 z 检验时, 实际资料有时不能满足方差分析的前提条件, 此时若进行方差分析将导致 F 值偏大, 从而增大 I 类错误。

 经过变量变换可以使各组达到方差齐性, 亦可使资料转换为正态分布,以满足方差分析和 z 检验的应用条件。样本均数的差异, 可能有两种原因所致。

 首先可能由随机抽样所致随机误差, 包括个体间的变异和测量误差两部分; 其次可能是由于各组所接受的不同处理引起不同的作用和效果, 导致各处理组之间均数不同。

 一般来说,个体之间各不相同,是繁杂的生物界的特点;测量误差也是不可避免的,因此第一种原因肯定存在。

 而第二种原因是否存在, 这正是假设检验要回答的问题。3.4.6完全随机设计:

 属于单因素研究设计, 在医学试验研究中常根据某一实验因素, 将随机抽取的受试对象,随机的分配到两个以上组中又称为多个水平 (处理), 观察和比较不同处理所产生的效应。这种设计易于理解、实施简便,在临床研究中广泛使用。

 分组时可采用简单随机化来实现, 即将随机抽取的足够量的受试对象,按某种标识进行编号,如就诊日期、出生时间或体重大小等,采用随机数字表或随机函数法等。例 6某职业病防治院对 31 名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量 (L)测定,结果见下表:问三组石棉矿工的肺活量有无差别?本研究是一个观察指标 (肺活量),不同人群 (三个组)属于单因素方差分析。

 将总变异为两个部分:

 一是组内变异,它反映矿工用力肺活量测定值的随机误差;另一个是组间变异,它反映随机误差和石棉肺对用力肺活量的影响。计算步骤:(1)

 建立假设和和确定检验水准H0:三组矿工用力肺活量的总体均数相等,!1=!2=!3H1:三组总体均数不等或不全相等"= 0.05(2)

 计算检验...

篇二:统计研究方面的问题

1 ・

  统 计 学 基 本 问 题 研 究

 杨

 灿

 一、 统计学发展的历史和现状

  统计学的体系、 性质和对象等问题是学术界历来存在争议和分歧的理论问题。

 数百年来关于这类问题的争论可谓头绪纷繁, 莫衷一是。

 几乎每一代统计学者都曾试图对此给出一劳永逸的结论, 然而, 问题却迄今未获完满解决。

 其实, 上述问题正是关乎统计学的学科建设和发展方向的基本理论问题, 而不同时代的统计学者却是站在科学发展历史阶梯的相应位置上来观察和思考这些问题的, 囿于其时其地统计理论和应用的既有条件和有限事实, 据以概括出的观点和认识就不能不带有鲜明的历史印记。

 于是我们看到于“国家显著事项” 的学问(阿亨瓦尔), 政治算术学派则首倡用“数字、 重量和尺度的词汇” 讨论类似的问题(威廉・配第); 其后的苏斯米尔希牧师把统计学看作是一门通过观察大量事实发现支配人生的天然法则(即神定秩序)的“精密社会科学” , 克尼斯也表述过类似的见解, 认为统计①:

 早期的国势学派将“统计学” 限定为关学是一门“用数字解说大量观察” 的“独立社会科学” ; 到了 近代, 凯特勒干脆将统计学径称为“社会物理学” , 其目的在于探寻社会现象领域内的某种“与天体法则具有同样价值的法则” ,而其手段则具有“通用方法” 的特征。

 这些观点相沿下来, 其实正是现代的“社会统计学” 和“社会经济统计学” 的滥觞。

 它表明, 统计学最初是作为一门社会科学产生和发展起来的。

 但这种发展本身却预示了 :

 统计学的研究方法在很大程度上既适用于社会现象领域, 又适用于自然现象领域; 同时, 统计方法的发展和完善也有赖于从相关的数理学科(概率论等)吸收养分, 广为借鉴。

 这些动因成为制定专门的数理统计方法以研究自然现象和社会现象统计规律性的契机,其结果是促成了 数理统计学的产生和发展, 并逐渐形成了 统计学中的“数理学派” 。

 在数理学派看来, 统计学就是数理统计学, 它是以概率论为基础、 研究随机现象统计规律和推断方法的数理学科, 它所提供的数量分析方法是普遍适用于自然和社会现象的通用方法, 这些方法在不同领域中的具体运用, 就形成一系列的应用数理统计学科(如生物统计学等)。

 勿庸置疑, 研究统计学的基本理论问题不能无视历史, 也不能不顾现实。

 我们应该认识到:首先, 统计学从 17 世纪中叶产生并发展到现代, 已由一门社会科学演变为一门横跨社会科学和自然科学两大领域的综合性学科; 其次, 统计研究的终极目 的在于探寻总体现象数量上的规律性, 但许多现象在研究方法上的同类性或统一性, 使得统计学的性质已由单纯研究总体的统计规律性, 逐渐转变到同时研究认识这种规律性的方法手段, 整体上看, 统计学作为“实质性学科” 和“方法论学科” 的特征是此消彼长的; 再次, 统计学所要研究的各种现象总体, 不仅包括随机现象的总体, 而且包括非随机现象的总体, 统计学所要研究的问题, 不仅包括怎样依据

 ① 参见高庆丰:《欧美统计学史》 , 中国统计出版社, 1987 年版; 陈善林等:《统计发展史》 , 立信会计图书社, 1987 年版。

 ・ 2 ・ 样本资料推断总体的状况和特征, 而且包括怎样依据全面资料概括反映总体的水平、 结构和变化趋势等等, 因此, 统计学所运用的方法, 不可能是单一的数理统计方法, 同时还包括许多极有价值的非概率统计方法。

 事实上, 无论社会经济统计学派抑或数理统计学派的传统观点, 都无法正确地概括当今统计学发展的客观实际。

 我们有必要、 也有可能站在统计学发展的历史新起点上, 超脱于传统的概念纷争和既有的理论成规, 对统计学科的基本理论问题作出新的阐释。

 二、 统计学的学科体系和研究对象

  在最为一般的意义上, 现代统计学是关于总体现象数量特征和数量关系的学科。

 统计学所研究的现象可以是社会现象, 也可以是自然现象; 可以是随机现象, 也可以是非随机的确定性现象。

 统计学的研究方法既包括以概率论和随机样本为基础的数理统计方法, 也包括各种非概率的统计方法; 其中很大一部分对于各种类型的现象是普遍适用的, 当然, 也有若干方法较为明显地偏重于局部现象领域中的应用。

 现代统计学的内容构成错综复杂, 既有层次性, 又有交叉性, 因而, 怎样对其学科组成进行适当的分类, 迄未得到合理解决。

 过去, 较为通行的划分是将统计学分为数理统计学和社会①:

 一是将社会经济统计学与数理统计学简单论列, 忽经济统计学。

 然而, 这样划分有两点不足略了 两者之间的交叉关系; 此外, 这样划分其实隐含着把自然科学统计学全部归入应用数理统计学, 不符合学科发展的现实情况。

 统计学中两大学派并存的事实, 并不意味着社会经济统计学和数理统计学是两门独立、 并行的学科。

 另一种常见的划分是将统计学分为描述统计部分和②, 前者考虑怎样整理和概括大量数据, 后者则考虑怎样根据样本推断总体。

 这本推断统计部分来是关于早期数理统计学的传统分类, 现代意义的数理统计学本质上都属于推断统计。

 这种区分用于下述两种情况倒是更为适宜的:

 所谓“描述统计学” 应指以总体全面资料或非随机性局部资料为基础的统计理论与方法体系, 而“推断统计学” 则应指依据随机样本推断总体特征的理论与方法体系(即数理统计学)。

 不过, 这样理解的描述统计学与推断统计学之间并无习称的 “普通统计学” 与“高级统计学” 之分。

 实际上, 推断统计学中的某些基础内容是非常初等的, 而描述统计学中的某些专门方法却具有相当的理论深度和复杂性(如统计指数理论等)。

 另一方面,描述与推断的区分也不是绝对的, 推断统计的某些内容可能需要描述统计的相关概念加以规范,描述统计的某些部分也可以引用推断统计方法加以处理。

 为了 对现代统计科学进行严密、 合理的分类, 除应批判地吸收传统分类方法的有益成份之外, 还必须遵循某些基本原则。

 这些原则应该包括:

 1. 完备性和统一性原则。

 这要求整个分类应当尽可能完整地包括现有统计学科的所有分支和全部内容, 同时, 整个分类及其各组成部分应当在研究的内容、 方法或性质上具有某种程度的统一性或共通性。

 2. 差异性和通用性原则。

 学科分类的各组成部分应在统一中包含差异, 分类标志的选择应充分体现这种差异; 分类结果应当既能反映我国统计科学发展的现状, 又能具备一定的国际可比性, 顺应统计学发展的一般趋势; 同时, 学科分类不应过于倚重特定的理论观点或学术见解,而应具有较为广泛的适应性和兼容性。

 ① 参见周恒彤、 肖红叶:《统计学学科体系建设的几个问题》 , 《统计研究》 1992 年第 6 期。

 ② 参见《简明不列颠百科全书》 , 中国大百科全书出版社, 1985 年版, 第 7 卷, 第 831—832 页。

 ・ 3 ・

  3. 系统性和层次性原则。

 学科分类本身应当层次分明, 结构合理, 既能细分, 又可归并,彼此衔接, 互相匹配, 形成一个完整、 严密的分类体系。

 值得讨论的是, 在学科分类体系中应否引入“独立平行原则” , 也即要求划分出的同一层次的诸分支学科彼此独立、 地位相等、 互不交叉。

 有人据此认为, 按历史上自然形成的学科群把社会经济统计学与数理统计学等划分开来是不妥当的统计学科体系中, 由于存在着纵向学科与横断学科两类不同性质的统计学(前者只涉及某一特定①。

 这种观点似可商榷。

 应当注意到, 在现象领域的统计研究, 如经济统计学和生物统计学; 后者则是概括各有关纵向学科部门的某些共同特点而建立起来的统计学科, 如数理统计学), 倘若恪守“独立平行原则” , 任何实际存在的纵向统计学科都不可能与数理统计等横断学科截然划分开来, 而至多只能作为数理统计学等的应用分支, 此外能够进行的划分就只有数理统计学和描述统计学中不同的技术方法或理论单元了 。

 可见, 在统计学科分类体系中, 应舍弃“独立平行原则” 。

 同时, 有必要引入横断学科与纵向学科两大系列的划分。

 学科分类中的另一个棘手问题是如何处理统计史、 比较统计学和经济计量学等的分类属性。应该说, 上述的统计史和比较统计学等属于一般理解的统计学, 但它们与专门研究统计理论与方法技术的主干学科又有着性质上的差异。

 为此, 需要引入“主干学科群” 与“辅助学科群”的划分。

 至于经济计量学等, 已不是本来意义上的统计学, 而是统计学与其他学科的交叉结合,只能划归另行设置的“边缘(交叉)学科群” 。

 综上所述, 试划分“统计学科的完整体系” 如图 1 所示。

 由图 1 可见, 完整的统计学科体系包括主干学科群、 辅助学科群和边缘(交叉)学科群三个子体系。

 主干学科群内又做若干层次的划分:

 首先分为横断学科与纵向学科; 横断学科又包括前述的描述统计学和推断统计学(数理统计学)两个分支; 数理统计学进一步划分为理论数理统计学和应用数理统计学, 前者侧重于统计方法的数理基础, 后者则侧重于统计方法的应用形式(但并不专门研究具体的自然或社会现象)。

 纵向统计学包括核算统计学和实验统计学两大门类。

 核算统计学不仅包括传统的社会、 人口和经济统计学, 还包括新兴的科学技术统计学和环境生态统计学等。

 核算统计学与实验统计学的区分基于三个方面的特征:

 ⑴研究领域不同。

 核算统计学的研究对象属于一般社会现象领域, 实验统计学的研究对象则属于自然或技术现象领域。

 ⑵研究内容不同。

 实验统计学研究的是自然或技术现象自身及其过程的数量特征和统计规律性, 核算统计学则研究与人类活动有关的社会现象或过程的数量特征和统计规律性。

 ⑶研究基础不同。

 对于自然技术现象与过程的研究, 可以运用实验手段控制和调整其外部条件, 并通过专门的仪器仪表观察其结果, 测定其数据, 同样的过程或结果可以在不受人为因素干扰的同样条件下反复进行或生成, 这些决定了作为实验科学的统计学门类的基本特征; 与此不同的是, 对于社会现象领域内的活动过程及其结果, 根本无法通过实验方式加以控制、 调整和反复观察, 它们虽然具有部分随机因素, 但远不及自然现象那么纯粹, 在这里, 起主导作用的还是参与社会活动的人的意志, 对于活动过程及其结果的观察和评价, 又不能不以人的价值观念和主观判断为基础, 因此, 对于社会现象的统计研究, 究其本质仍然属于一种“核算” , 即从人类的主体性活动的角度, 观察、 计量和研究这种活动的条件、 过程、 结果和影响等各个方面。

 实验统计学与核算统计学的上述差别在科技领域内表现得尤为明显。

 例如, 作为实验科学, 统计物理学通过实验手段研究由大量微观粒子

  ① 参见屈定坤:《统计学二级学科的划分》 , 《统计研究》 1992 年第 6 期。

 ・ 4 ・

  统

 计

 本

 体

 论 (总体、 指标和分组理论) 总 体 描 述 理 论

  统 计 指 数 理 论

 描 述 统 计 学 统 计 设 计 理 论 动 态 分 析 理 论

  横

 统 计 调 查 方 法 论 统 计 平 衡 理 论 ・・・・・・・・・

  断

 统计整理和数据库

  学

  概率论基础 统计判决理论

 主 科

 理论数理统计学

 干

 经典统计理论 贝叶斯统计理论

 学

 推 断 统 计 学

 抽 样 技 术 序 贯 分 析

 科

 试 验 设 计 线性统计模型 统 群

  应用数理统计学 相 关 分 析 时间序列分析 计

  方 差 分 析 非参数统计 ・・・・・・・ 学

  多 元 分 析

  经 济 统 计 学 科 技 统 计 学

  纵 核 算 统 计 学 社 会 统 计 学 环 境 统 计 学

  向

 生 物 统 计 学 心 理 统 计 学

  学

 统 计 物 理 学 农业试验统计学

  科 实 验 统 计 学 天 文 统 计 学 工程技术统计学 ・・・・・・・・

  气 象 统 计 学

  统

 计

 史 统计应用软件 统

 计

 法

 学 ・・・・・・・

 辅

 助

 学

 科

 群 比较统计学

 统计组织管理学

 边

 缘

 学

 科

 群 经济计量学 信

  息

  论 可 靠 性 分 析

  保险精算学 运

  筹

  学 ・・・・・・・

 图 1

 统 计 学 科 的 完 整 体 系

 的运动所形成的宏观层面上的统计规律性, 生物统计学则通过反复实验和大量观察研究遗传和变异的统计规律性;

 但作为核算科学的科技统计学, 并不研究具体自然现象本身, 而是专门研究人类从事科技活动的物质技术条件、 人力和资金的投入以及活动的过程和结果, 研究科技活动的发展变化趋势及其社会经济影响, 这些显然是与科技领域内的实验统计研究大相径庭的。

 三、 统计学的学科性质和理论基础

  统计学究竟是一门实质性科学, 还是一门方法论科学? 这在统计学发展史上(尤其在社会经济统计学派内部)一直是个争执不休的问题。

 那些认为统计学是以研究特定现象的数量特征和统计规律为己任的实质性学科的人, 通常被称为“规律派” 。

 现在, 人们已经越来越倾向于承认统计学是一门方法论科学。

 但是, 持纯粹“方法派” 观点的人无法回避来自下述两个方面的诘①:

 首先, 任何科学有效的统计方法无不来源于对现象统计规律性的研究, 甚至有些统计方法难本身就是某种现象统计规律性的概括; 不仅如此, 即便纯粹的数理统计方法, 也是以概率论所阐明的随机变量规律性为基础的。

 其次, 任何统计方法的创制, 其终极目的...

篇三:统计研究方面的问题

言统计方法是一种有效的 收集、 整理和分析数据, 并做出预测或推断, 直至为决策提供数量依据的科学方法, 广泛应用于医学、 人口学、 经济学和心理学等学科领域。

 随着现代心理学的发展, 心理统计作为一种认识心理学现象数量特征的重要工具受到了广大心理学工作者的重视, 统计分析已成为心理学科研报告中不可或缺的一个重要部分。统计方法的正确应用能保证科研工作的顺利进行, 使研究结果更具有说服力; 有助于认清事物的真相, 发现事物变化的数量界限, 揭示事物发展的内在规律。

 相反, 统计方法如果有意无意的使用不当或错误使用, 会直接影响研究结果的质量, 导致错误的结论, 甚至造成事实的扭曲, 文章的可靠性和科学性将大大降低。目 前, 在各领域的研究中仍有一些研究者对各种统计方法的概念、 使用方法及其适用范围等缺乏准确的理解和把握, 因而在论文中出现了一些统计方法的误用 或错用 。

 更有甚者, 其误用 是有意为之, 这已引 起人们的注意。

 但是, 目 前国内心理学界对统计误用的讨论尚不深入, 可见的相关文献[ 1 ]亦不多见。避免统计方法在心理学研究中的误用和错误使用, 正确的使用各种统计方法, 对于心理学的发展具有重要意义。

 本文沿着心理学研究过程的逻辑思路, 从数据产生、 数据描述、 推断统计等几个方面探讨、 分析心理学研究中应用统计方法可能遇到的误用与应该注意的问题, 并针对这些问题提出克服误用的方法与建议, 目 的有二:

 一是使研究者从事研究时避免陷入统计学的陷阱, 二是在阅读他人研究报告时可以甄别 “ 谎言” 与事实。2 心理研究中应用统计应注意的问题2.1数据产生数据质量是统计的生命, 统计研究中最重要的事情之一就是数据的来源。

 提高心理研究的数据质量, 是对心理现象进行描述和推断的前提。

 心理研究的数据主要来源于观察、 抽样调查、 普查、 实验等, 其中抽样调查和实验应用甚广。

 接下来主要探讨调查与实验中收集数据容易犯的错误, 并根据数据伦理提出建议。2.1.1抽样调查中有偏样本和小样本的使用穷尽研究总体全面调查以研究某一心理现象既无必要也不具可操作性。

 实际上, 只要运用抽样理论, 抽取有充分代表性的样本, 即可取得反映总体[ 2 ]。

 抽样设计中最基本的原特征的可靠资料与数据则是随机化, 它要求样本 “ 彼此独立” 且 “ 机会均等”。

 实际研究中, 研究者会有意无意的在这个问题上打折扣, 造成取样偏差, 主要有:( 1)

 有偏样本的使用;( 2)

 小样本的使用。取样时, 如果样本的选择使得结果总是往某个心理学研究中应用统计方法应注意的几个问题陈启山( 香港中文大学教育心理系, 香港)摘要心理统计是认识心理现象数量特征的重要工具, 在心理学研究中或多或少地存在着统计的误用 。

 本文从心理学研究过程的内 在逻辑出 发, 探讨了 在心理研究中应用 统计应该注意的问题和可能遇到的误用 现象:

 有偏样本与小样本的使用 , 潜在变量的缺失, 欺骗性的统计图 表, 量表信度与统计显著性检验的考量, 事后解释的谬误, 统计关系与因果关系等。

 针对这些问题提出 避免统计误用的方法与建议。关键词心理学研究, 心理统计学, 误用 , 谎言。分类号B84 1.2收稿日 期:

 2006- 7 - 4作者简介:

 陈启山, 男, 香港中文大学教育心理系博士生。

 Ema i l :

 c h e n q i s h a n @c u h k .e d u .h k 。200心理与行为研究 2006, 4( 3):

 200~ 206St ud i e s o f Ps y c ho l o g y a nd Be ha v i o r

 第 3期方向偏, 则称之为有偏的。

 造成样本有偏的原因主要有两类, 一是由 主试造成的 方便取样 ( c o n v e -n i e n c e s a mp l i n g )

 , 即抽样时主试选取那些容易 取得的样本, 这可能是无意的, 也可能是有意为之。另一类是由被试决定要不要回应造成的自 发性回应( v o l u n t a r y r e s p o n s e )

 , 如网络版心理调查、 电话回应及写信回应意见调查等。

 比如, 在线网络调查的数据有两个方面经不起推敲:

 一是有上网条件能接触到这个调查的人不一定能代表总体, 因为并不是每一个人都有机会上网, 即使能也不能保证上网者获取到这份问卷的机会均等; 另一个是接触到问卷的被试是否做出回应是由他本人自 发的, 这常常是有偏的。不同类型的设计和统计方法对样本数有大致的要求, 样本数太小, 会使得统计分析的误差变大,分析结果不够稳健, 研究的外部效度也得不到保证。

 比 如 在 相 关 研究 中 , 抽 样 误 差 造 成 的 变 异 (1)1SNρ=−−, 如 果, 样 本 数 N=100, 则相关系数估计的标准误为 0.09, 相关系数的置信区间为 [ 0.12, 0.4 8]。

 显然, 在其他条件不变的情况下, 随着样本数目 的增加, 估计的标准误随之减少。

 一般地说, 为保证研究质量, 在使用探索性因子分析开发问卷或量表的研究中, 样本的总数建议不少于 100人, 量表题目 数和被试数的比例不小于 1:5。

 在结构方程建模中, 样本容量最好大于 200[ 3 ]。利用样本统计量对总体参数进行估计时的误差主要是偏差 ( bi a s )

 和变异 ( v a r i a bi l i t y )

 。

 可以采用以下手段以减少这些误差:( 1)

 尽量使用 随机样本。

 说来非常简单, 但在现实世界中, 简单随机样本一点也不简单;( 2)

 样本要足够大。

 因为样本统计量的变异由样本大小决定, 而不由总体大小决定, 假如从收获的花生中抽取种子, 用一个勺子作为容器, 把它塞进花生粒当中, 勺子并不知道它是从一小袋还是从一卡车花生中抽取, 只要花生混和的均匀 ( 这样能保证抽取的花生是随机的)

 , 所得结果的变异只与勺子大小有关, 而与总体无关。抽样调查的取样缺陷是任何统计方法也无法事后弥补的, 所以, 在面对调查结果及相信它之前应该思考以下几个问题:( 1)

 谁做的调查?( 3)

 样本是怎样选取的?( 5)

 用 什么方式联络被试获得的数( 6)

 调查的回应率是多少?( 2)

 调查的总体是什么?( 4)样本有多大?据?2.1.2实验研究中潜在变量的缺失调查研究是被动的数据收集方式, 研究者只是记录或度量, 但不给予干预。

 而实验研究却是研究者主动施加处理给被试而主动产生数据的过程, 实验设计的逻辑核心是控制、 比较和随机化。实验研究中经常不为研究者重视的情况是忽视了潜在变量的存在及其作用。

 潜在变量是指对研究中的自 变量和因变量的关系有重要影响, 但却未被研究者纳入研究以解释变异的变量。

 比如, 研究教学方法 ( 自 变量)

 对考试成绩 ( 因变量)

 的影响,学生的学习程度或动机水平就是一个潜在变量。

 潜在变量经常和自 变量掺杂在一起, 此时很难说因变量的变异就是由自 变量引 起的。

 潜在变量既可以是能促进自 变量与因变量关系的第三种变量, 如上文提到的动机水平可能会促进教学方法与学生成绩的相关性; 也可以是削弱自 变量与因 变量关系的变量, 即压抑变量 ( s u p p r e s s o r )。忽视自 变量与因变量间潜在变量的影响, 可能会扭曲自 变量和因变量的关系。

 考虑一个学会感判断 ( j u d g me n to fl e a r n i n g , J OL )

 的 准确性和学习成绩关系的例子。

 一般认为元认知监控对学习者的学习具有重要作用, 然而很多研究却发现, J OL的准确性与学习成绩间的关系并不是想象的那么直接明 朗 , 甚至得出 了 相 反的 结论, 为 什么 会如 此?[ 4 ]进行分析与梳理的基础上,T h i e d e在对以往研究通过实证研究解答了这一疑问:

 以往研究之所以不能确切描述 J OL准确性和学业成绩关系的原因 是因为以往研究没有检视学习者的自 我调控学习行为在 J OL准确性和学习 效果间的作用 , 也即忽视了一个重要的潜在变量。对潜在变量的辨识不仅是一个重要的方法论课题, 更是一个与研究问题有关的理论问题, 实际研究中, 忽略潜在变量主要是由于研究者对所研究问题了解的不深入造成的。

 辨识或者检讨以往同类课题研究中是否存在潜在变量缺失现象的一个可行方法是对之进行元分析 ( me t a - a n a l y s i s )

 。

 总 之, 研究者应该在研究进行之前充分研究已有文献, 厘清所要研究的问题, 尽量不要忽视重要的潜在变量,或者采用协方差分析进行事后补救。2.1.3数据伦理与研究道德数字看起来 “ 总是” 可靠的 , 但是数据是人“ 制作” 出来的, 因而会反映出人的欲望、 偏见和弱点。

 所以, 一方面要讲研究者自 身的数据伦理和研 ρ =0.3201

 心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究心理与行为研究第 4卷第 4卷究道德, 如诚信原则, 另一方面要有 “ 怀疑精神”。比如, 要看数字之间是否相符。《 实验医学杂志》 曾经通过一篇以老鼠为被试的实验论文, 文中有一个统计表, 里面有一个很明显的错误, 稍加留意, 连聪明的小学生也可以看出来。

 表里有 6组动物, 每组各为 20只, 并包含每组成功的 百分比,显然 20的 任何百分比都应是 5 的 倍数, 而作者S u mme r l i n所记录的 百分比却分别 是 53%、 58%、63%、 4 6%、 4 8%以及 67 %。

 这显然是一组数字间存在矛盾、 不相符的数据[ 5 ]。再如, 要看数字是否过于精确或太有规律。

 数字前后出现矛盾, 让人怀疑数据是假的, 而数字过于精确或者太有规律, 也一样叫人起疑。

 已经过世的英国心理学家 Bu r t以研究分隔两地成长的同卵双生子的智商而著称。

 在 Bu r t的研究中, 分隔两地的同卵双生子 I Q的高相关系数显示 I Q主要是受遗传影响。

 Bu r t对他的研究结果写了多次研究报告, 纳入研究的双生子的对数也逐渐增加, 表 1是他发表结果时报告的相关系数, 其结果显得过于精确而有规律。

 事后证实这个数据有作假的嫌疑[ 6 ,7 ]。表 1 Bu r t关于 I Q研究的相关数据2.2数据描述用图表和统计量数来呈现所搜集的数据, 可进一步了解并发现数据的特征。

 人们既可以用统计图表对数据进行初步整理, 也可以用集中量数与离中量数对单变量进行描述, 还可以用相关对双变量与多变量做描述统计。

 这一部分主要探讨用统计图表呈现数据和用相关分析描述数据关系时可能犯的错误。2.2.1“ 良好的” 与 “ 欺骗眼睛的” 统计图表想知道收集的数据说明了什么, 就要在了解了数据是类别还是连续变量后画个图或列个表, 对数据进行初步的整理。

 大量的数据代表着大量的事实, 用 简明 扼要的图 表加以呈现是一个加工的过程, 此时最容易扭曲事实, 其中有些是无心的, 有些却是故意的。统计图种类众多且分别有不同的用途。

 比如用来呈现数据的有条形图 、 饼图 、 象形图 和箱形图等; 线形图、 直方图、 茎叶图、 密度曲线 ( 正态分布曲线是其特例)

 等可以用来描述数字的分布; 而散点图则可以描述数据的相关程度。

 其中, 推荐箱形图和茎叶图, 因为它们承载的信息量相对较大。箱形图综合了 五种量数:

 极小值、 第一四分位数、中位数、 第三四分位数、 极大值, 可以反映集中趋势和离中趋势。

 茎叶图尤其适合于数据不是很多的时候, 相对于直方图它的优点是呈现了实际的观测值, 当然数据很庞大时就不适用, 因为每个茎的叶子会太多。数据本身不会说谎, 但是呈现数据的方式却会给人误导或者给出不同的结论。

 用统计图表呈现数据时, 经常犯的错误或者用它来 “ 说谎” 的手段是改变刻度。

 同样的一组序列数据, 坐标轴单位取值不同的情况下, 所得到时序图的上升、 下降的幅度和范围就不一样。

 如, 某社区从 2001年到 2004年来因抢劫案件而受伤的人数由 3人逐年增加到 6、9 、 12人, 认为需要加强社区治安者绘制了图 1, 而对社区治安持乐观态度者则绘制了图 2, 前者显示该社区治安案件受伤人数的上升幅度很大, 而后者使这一趋势看起来无多大上升。

 两者都是正确的,但是因为目 的不同, 各自 服务的观点亦不同。

 时序图如此, 较复杂的如象形图、 三维图等用于比较时更是如此, 容易欺骗人们的眼睛, 给人以误导。图 1图 2发表日 期分隔两地成长的双生子一起成长的双生子19 55年0.7 7 1 ( 21对)0.9 9 4 ( 83对)19 66年0.7 7 1 ( 53对)0.9 9 4 ( 9 4对)202

 第 3期那么 , 如何把图 画好? 以下两点是需要注意的:( 1)

 一定要把标识和说明表示清楚, 包括变量名称、 变量单位等。( 2)

 让数据更醒目 , 让信息更清楚。

 统计图呈现的主体是数据本身, 而不是标识或背景等, 研究报告中要小心地选择合适的刻度, 尽量避免象形图和三维图。2.2.2相关的滥用与量表信度的再思考相关分析的应用相当广泛, 不考虑理论限制的情况下, 随意的两列或多列变量均可以求得相关系数, 也确有人会这样做。

 考虑到理论构想, 也会出现相关分析的误用、 滥用。

 不是很谨慎的利用相关系数做出解释的表现很多, 如忽视中介变量而导致的研究问题简单化、 小样本的应用而导致的全距限制等。

 相关研究中忽视中介变量的情况和前文关于潜在变量的分析类似, 不再展开。

 举一个小样本使用的极端例子:

 身高和个人品德有关吗? 如果抽取的样本不是很大, 仅仅局限在少数样本上, 就可能得出身高越高品德越好 ( 差)

 的结论, 这个结论显然是靠不住的, 而研究者一般也不会犯如此的低级错误。

 值得警惕的是, 人们经常把小样本、 同质样本或有偏样本获得到的结论无限制的推广到总体的情况。当一个相关系数呈现在面前的时候, 以下几点需要事先牢记:( 1)

 两列变量之间的高相关不一定就说明它们有着很高的相关关系, 因为两个变量之间的相关性常常受到潜在变量的影响。( 2)

 相关系数只是两个变量直线相关的强度, 它不能描述变量的曲线相关, 不管这种相关关系有多强。( 3)相关系数不理会解释变量和反应变量之间的区别,也就是说把变量和变量的名称对调, 相关系数还是一样, 这说明利用相关系数做出因果推论是非常危险的。信度是心理测量学上的一个基本概念, 信度系数可以看作相关系数的特例。

 很多报告中经常会出现 “ 这个量表的信度” 是多少,“ 这个测验量表有很好的信度系数, 是可信的” 等类似的说法, ...

篇四:统计研究方面的问题

传媒 财经纵览Business!· 195 ·数量经济统计中常见的几种偏差问题研究代金博作者简介: 代金博 ( 1992 - ) ,男,河南周口人,天津财经大学统计系硕士研究生,研究方向: 数量经济学。摘 要: 我们知道,每一项成功的研究都离不开数据,数据的获得使我们的统计分析得以实现。然而有时候我们未必能从所得到的统计数据中得到正确合理的判断,这就是因为我们的数据存在着偏差。统计学中的偏差是指在研究或者推论过程中所获得的结果系统地偏离其真实值,它属于系统误差。统计偏差具有单方面性,有正负之分,可高于真实值,也可低于真实值。偏差往往是因为研究对象的选择方法不对,收集信息的方式不当、以及一些混杂因素的存在而产生的,常出现在调查研究的设计阶段、抽样阶段等。关键词: 统计偏差; 数量经济学; 经济统计; 抽样; 回忆性偏差偏差的产生给我们统计调查带来了很多不必要的麻烦,带有偏差的数据常常蒙蔽了我们的眼睛,使我们得出不准确的判断,让我们的整个调查分析得到误导性的结论,接下来让我们了解一下统计学里最常见几种偏差。一、选择性偏差据称美国著名导演宝琳·凯尔曾经在接受电视台采访时,当主持人问她对本次尼克松参与竞选的态度时,她说: “尼克松在本次大选中不可能获胜,我所接触的人中没有支持他的”。可结果并不像凯尔预测的那样,尼克松在大选中成功获胜,使得凯尔的这一判断以失败而告终。也许这句话并非出自凯尔之口,但却说明了统计学中常见的一个问题———不成功的样本所带来的不成功判断,即我们所说的选择性偏差。选择性偏差是指被我们选入观察的研究对象和没有被我们选入观察的对象之间存在差异,使得研究结果出现系统误差,从而得到误导性的结论。在医学中,参加医学实验的志愿者与非志愿者在关心健康,注意饮食卫生以及营养食疗、禁烟禁酒和身体锻炼等方面都存在差异,志愿者作为实验样本,而非志愿者却被排除在外,这样的实验观察势必存在选择性偏差,给实验结果带来不准确的判断。同样的,当我们做一些消费者问卷调查时,在机场进行问卷调查和在乡村公路做调查会出现两个极端,一个是调查者中大多是富人,而另一个则是大多比较贫困,同样的调查可能会出现显著的不同结果。二、回忆性偏差回忆性偏差是研究对象的记忆失真或者记忆不完整所造成的研究结果偏差。人类与生俱来就有一种将现实存在的结果推究到以前发生的事的冲动,即所谓的因果关系。主要起因就是我们在努力解释当前好或者不好的事情时,回忆总是不由自主的将其归结为过去发生的事所引起的。在统计调查中使用纵向追踪研究比横向研究更具有优势,原因之一就避免了回忆性偏差。在追踪研究中,数据是同时采集的,正如在研究学生对学校态度和辍学之间的关系时,在五岁的时候,参与者被问及他对学校的态度。再过十几年,我们重新采访参与者,看他是否高中辍学。而在横向研究中,所用的数据是在统一时间点上采集的,当研究者询问此时已经辍学的他五岁时对学校的态度,所得到的信息必然是不可靠的。三、存活者偏差1941 年,第二次世界大战正如火如荼的进行着,当时美英联军正对德日法西斯进行大规模的轰炸,然而,每次轰炸后,战斗机都损失惨重,伤痕累累,为了减少战斗机和飞行员的损伤,此时英国皇家空军的指挥官找到了哥伦比亚大学统计学家沃德教授,希望他根据统计学知识来寻找战斗机的改装点。沃德对军方提供的资料进行了详细的分析,研究发现从返回战斗机的弹着点上来看,机翼是整个战斗机中最容易被击中的部位,而飞行员所在的座舱和发动机所在的机尾则是最少被击中的部位。联军对这一发现非常满意,并准备立即着手加强对机翼的装甲,但沃德却对此持反对意见,他认为应该加强飞行员座舱和机尾部位的装甲———即最少发现弹孔的地方。这一态度引起了大家的惊愕与怀疑,沃德解释道,在他所分析的样本中,只包含顺利返回基地的战斗机,从统计学角度来看,多次被击中机翼的战斗机还可以安全返回,而很少发现弹着点的部位,并不是真的不会中弹,而是一旦被击中,该战斗机根本没有返回的可能。这一解释让联军指挥官恍然大悟,决定接受沃德的建议,加强了驾驶舱和机尾发动机部位的防御装甲,从此之后联军战斗机被击落的比例显著的下降了。这就是典型的存活者偏差的例子。存活者偏差的出现是因为我们只看到了经过某种筛选后产生的结果,而往往忽略了整个筛选的过程,因此我们失去了被筛选掉的关键信息。正如 《纽约时报》对此曾说过一句很精辟的话: “数据本身并没有对我们撒谎,只不过有些数字没有发出声音罢了”。我们之所以被统计蒙蔽,是因为没有看到这些数字而已。我们将其形容为 “沉默的数据”。四、发表性偏差在现实生活中具有统计学意义的结果 ( A 和 B 相关) 相比于不具有统计学意义的结果 ( A 和 B 无关) 更易被我们所接受和发表,这就是我们所说的发表性偏差,又称 “出版性偏差”,假如说你现在进行一项研究,调查研究玩网络游戏和患胰腺癌之间的关系,你非常严谨认真的追踪调查,花了 15 年收集了 5 万人的数据。最终发现,长时间玩网络游戏和患胰腺癌之间并无任何关系,试想这种结论会有期刊愿意接收发表么? 答案是肯定的———没有期刊会愿意发表,因为你得到的结论玩网络游戏和患胰腺癌毫无关系,不具有明显的统计学意义。公众或者期刊对这一结论感觉索然无味。假如你的另一位同事做同样的实验, “一不小心”得到了不同的结论———玩网络游戏能明显减少患胰腺癌的几率。此时各大期刊便会纷纷伸出橄榄枝,以求这一突破性发现在该期刊上发表。这样的结果便会误导我们,混淆了我们的真实结论。在统计过程中异乎寻常的事时有发生,这只是概率问题。正如我们进行 100 次的统计调查,99 次的调查正确结论都显示不相关,而一次的纯属无稽的结果却显示相关———正如玩网络游戏能降低患胰腺癌的几率,这一结论成功的引起人们的注意,迎合了人们的相关性偏好,把它当作一项伟大的发现。当然,产生这一偏差的源头的并不在于统计研究的本身,但传递给公众的信息却是偏颇的。这源于我们更喜欢相关性。著名的哲学家教育学家安德烈斯贝略曾说过: 数据能代替判断,用数据说谎容易,但是用真实数据说出真相却没有这么简单。统计让我们接触到越来越多的数据,我们应该更好的利用这些数据,探索出数据隐藏下的真相。( 作者单位: 天津财经大学统计系)参考文献:[1] 陈悟朝. 统计原来挺有趣 [J]. 中国统计,2009 ( 11)[2] 魏振军. 统计通俗读本: 漫游数据王国 [M]. 中国统计出版社,2010[3] Darrel Huff,廖颖琳. 统计数字会撒谎 [M]. 中国城市出版社,2009[4] 张建国,王香生等. 体制与健康促进研究中的混杂因素及其控制与处理 [J]. 中国运动医学杂志,2010 ( 6)

篇五:统计研究方面的问题

统计理论研究的立足点及相关问题

  摘 要:

 随着社会的进步和经济的发展, 我国统计理论研究也不断发展。

 统计理论的研究, 既是对当前经济的反映, 更是作出重要决策的依据,要重视。

 本文将从明确统计理论研究的出发点起, 对我国的研究现状加以分析和评价, 从而正确引导和规划未来的统计理论研究。

 关键词:

 统计理论研究 社会现状 注意要点

  我国统计理论研究的立足点是什么? 笔者个人认为是理论与实践的统一。

 当前我国正处于社会主义现代化建设的新时期, 经济上走的是社会主义市场经济道路,经济发展日 趋走向全球化。

 这样广阔的社会大环境, 促进了我国统计理论研究的良性发展。

 一、

 我国统计理论研究的社会现状

  我国实行的是社会主义市场经济体制,其优越性在于既能实现资源的优化配置, 同时又能有效地实现国家的宏观调控, 将二者有机地统一。

 统计工作, 是对经济信息进行整合和处理, 为经济的管理提供信息参考, 这不仅仅直接为各经济主体提供了服务, 还为国家宏观调控服务。

 因此, 统计理论的研究在我国经济发展中占据着十分重要的地位。

 我国统计理论的研究方向是科学合理的, 依据有以下这

 样三点:

 ( 一)

 我国统计理论研究的僵局已经被打破。

 现在市场经济在我国的发展取得了良好的效益,为我国的统计理论研究指明了方向, 以往的那些教条主义、 门户之见等等都已经不存在, 统计理论的研究环境是好的。

 ( 二)

 统计理论的研究范畴越来越广阔。

 经济全球化的趋势, 让资源、 信息、 文化等实现了有效地共享,对统计理论研究是十分有利的。

 比如,当前国际社会对统计理论的研究,取得了许多成果,为统计研究提供了许多借鉴。

 ( 三)

 我国统计理论的研究, 有一定的基础。

 我国统计调查模式、 统计核算体系、 统计分析方法以及统计参与决策能力都取得了重大的突破, 我国统计理论研究具有十分广阔的发展空间。

 虽然我国统计理论研究处在一个良好的社会环境中,但其研究工作依旧存在着许多问题, 比如理论的不完善、 实践的不充分等等。

 二、 我国统计理论研究存在的问题

  我国统计理论研究存在哪些问题呢? 主要是表现为统计理论的不完善、 统计信息的失真、 统计研究体制的不健全等等, 这些具体问题的出现归根结底与一个因素相关联,就是统计理论脱离统计实践。

 首先, 必须明确统计理论与统计实践两者的关系。

 理论是来源于实践, 同时又服务于实践, 实践是检验真理的唯一标准。

 这是

 马克思主义的哲学观, 统计理论与统计实践也当如是。

 其次, 理解当前统计理论与统计实践的关系。

 我国处在社会主义初级阶段, 社会各个方面都处在发展的初期, 统计理论研究也处于探索阶段, 由于实践工作的限制, 理论的发展、 对实践的指导作用都存在局限。

 还有,统计理论研究对统计实践的指导作用还受社会经济发展水平的决定性影响。

 在实际生活中, 统计信息能被利用以及利用的程度, 统计人员是否被重视以及重视的程度, 关键是受社会环境如何变化, 而不是统计理论如何高明, 而我们经常看到的统计信息失真现象, 这根本不是通过统计理论研究能解决的问题, 它属于一个社会问题, 只能通过严肃的执法来解决。

  三、 我国统计理论研究的注意要点

  ( 一)

 继承和发展我国现有的统计理论。

 过去对统计理论的轻视导致理论的实践性并不强。

 但随着市场经济的发展, 我国统计理论也取得了重大的发展。

 比如这些统计理论:

 1.数理统计学的研究和应用,包含自然技术领域里的应用和社会经济领域里的应用。

 2.核算统计研究, 运用了一些概率统计方法, 还运用了大量的非概率核算方法。

 这些方法在现实生活中被广泛地运用, 比如一些有关普查、 全面调查活动, 平衡表和经济账户的处理等等。

 统计理论的发展和备受重视的一个重要标志是,数理统计学术组织的权威性。

 当前统计理论在方法上日 益丰富, 对宏观调控、

 企业管理和社会生活的重要性也日 趋突出,但当今世界上最具权威性和影响力的国际统计学会, 却是一个数理统计学术组织, 这种现象,一方面说明了数理学派观点在统计学界占主导地位, 同时也提醒我们, 国际统计学会是一个倾向性极强的组织, 在很大程度上限制着它的代表性和广泛性。

 也就是说, 中国统计理论研究和核算统计工作的方法是先进的, 有许多经验具有在国际上推广的价值和意义。

 ( 二)

 重视借鉴他国理论与创新本国理论。

 我国经济发展走过了艰难的摸索时期, 才有了今天的成绩, 也包括借鉴他国文明成果。

 统计学作为经济学的一个重要分支, 理论研究是受各种因素影响的。

 如地域政治、 文化传统、 经济结构的深刻影响。

 另外, 还受社会经济发展水平的限制。

 这就决定了在我国统计理论研究的过程中, 要从我国的基本国情出发, 还要大胆地引进与借鉴外国经验。

 我国统计理论现有的成果, 是离不开对他国优秀理论的吸收。

 以后的发展, 更是离不开对他国的借鉴。

 虽然社会主义市场经济与资本主义的市场经济有着本质的区别, 但市场经济的开放性、 竞争性、 独立性、 平等性的特征是共通的。

 这就决定了对他国优秀成果的利用是可行的。

 创新, 是一个民族发展的不懈动力, 也是统计理论研究发展的动力。

 在统计理论的研究过程中, 要用发展的眼光看问题, 做到实事求是, 与时俱进。

 这里的创新体现在三个方面, 一, 在本国原有理论基础上创新; 二, 借鉴他国理论进行创新; 三, 将本国理论与他国理论相结合进行创新。

 总之,一切有利于统计理论研究的方式方法,都是可以尝试着运用的。

 创新,这是理论研究要取得突破的关键所在。

 统计理论研究离不开理论基础, 更离不开实践活动, 在对我国统计理论进行研究时要将理论与实践相结合,从实际出发对统计理论进行创新性研究。

 ◆

 中国论文联盟-WWW.lwLm.COm

 参考文献:

  [1]周 志眉 . 数据挖掘 与统计理论[J]. 漳州 师 范学院学报,2006( 01)

  [2]韩光胜 陈国华 陈清光 袁智.试论统计学理论在安全经济分析中的应用 [J].中国安全生产科学技术,2008( 01)

  [3]张斌 刘增良 余达太 黄洪.基于形式概念分析与统计理论的本体构建模型[J].计算机应用研究,2011(04)

篇六:统计研究方面的问题

统计学研究的探讨

  摘 要:

 进入 21 世纪, 随着我国市场化步伐的加快, 社会对新知识的需求日益增加, 无论是国民经济管理, 还是公司企业乃至个人的经营、投资决策, 都越来越依赖于数量分析, 依赖于统计方法, 统计方法已成为管理、 经贸、 金融等许多学科领域科学研究的重要方法。

 关键词:

 统计学;

 数学;

 挑战

 一、《统计学》 的应用

 1. 内容日益丰富

 随着大统计学思想的建立和统计学在实质学科中的应用的需要, 大多数学校和老师在财经类专业的本、 专业《统计学》 教学过程中, 除了保留社会经济统计学原理中仍有现实意义的内容, 如统计学的研究对象方法、统计的基本概念、 统计数据的搜集整理、 平均及变异指标、 总量指标、 相对指标、 抽样调查、 时间序列、 统计指数等; 同时也系统的充实了统计推断的内容, 如:

 统计数据的分布特征、 假设检验、 方差分析、 相关与回归分析、 统计决策等。

 这一变化使得《统计学》 的内容更适合相关实质学科的发展需要。

  2. 学生的学习难度加大

 首先, 结合《统计学》 的课程特点——概念多而且概念之间的关系十分复杂、 公式多且计算有一定难度等。

 如果学生不做必要的课外阅读、 练习和实践活动, 是很难理解和掌握的。

 对于财经类专业的本、 专科的学生

 来说, 本身的专业课学习负担已不轻。

 其次, 对于财经类专业的本、 专科的学生来说, 由于其本专业的课程体系要求, 使得学生的数学或者数理统计的基础不是特别好, 对于学生来说更不用说, 推断统计将是他们学习的困难。

  二、《统计学》 教学的发展趋势分析

 1. 统计学从数学技巧转向数据分析的训练

 在计算机及计算机网络非常普及的今天, 统计计算技术不再是统计学教学的重点了。

 统计思想、 统计应用才应该是重点。

 现代统计方法的实际应用离不开现代信息处理技术。

 统计软件的使用, 不仅使统计数据的计算和显示变得简单、 准确, 而且使统计教学由繁琐抽象变得简单轻松、 由枯燥乏味变得趣味盎然。

 所以, 在统计教学过程中, 大量的内容只需要给学生讲清楚统计基本思想、 计算的原理和正确应用的条件、 正确解读计算的结果, 而对大量复杂具体的计算可以交给计算机去完成。

  2. 通过统计实践学习统计

 也就是以学生为中心, 通过课堂现场教学、 引导学生先读后写再议、模拟实验、 利用课余时间完成项目、 利用假期时间, 通过参加学校组织的某些团队、 小组或自己组织去开展一些与专业有关的活动, 如社会调查、专题研究、 提供咨询、 参与企业管理等方法。

 全方位地激发学生的学习兴趣、 培养学生的专业能力、 方法能力和社会能力。

  三、 基于 EXCEL 的《统计学》 教学设想

 如何从烦琐的数理统计技巧转向数据处理的训练, 同时还要使学生容易掌握并有机会辅之于实践。

 教师的导向是第一位的, 要求必须选择容易

 获得而且普及性比较强的统计分析软件, 并在课堂教学和引导学生实践中广泛采用。

  1. 微软公司开发的 EXCEL 软件无疑是我们最好的选择专业的统计分析软件 SPSS、 SAS、 BMDP、 SYSTAT 其功能固然强大, 统计分析的专业性、权威性不可否认, 但是对于没有开设统计学专业的院校这些软件并不常用, 如果学生要进行自主性学习也比较难以找到相应的工具, 此外专业统计分析软件的英文操作界面, 也让中国人用起来不是很顺手。

 微软公司开发的 EXCEL 软件作为一款优秀的表格软件, 其提供的统计分析功能虽然比不上专业统计软件, 但它比专业统计软件易学易用, 便于掌握。

 在 Windows 操作系统极为流行的今天, EXCEL 也是随处可见。

 对于《统计学》 这门课程而言, 利用 EXCEL 提供的统计函数和分析工具, 结合电子表格技术,已能满足统计方面的要求。

  2. 基于 EXCEL 的《统计学》 教学设想

 (1)

 在教学内容上, 依据 EXCEL 的函数功能、 电子表格功能、 数据分析功能, 结合统计学原理的基本理论和方法, 整合教学内容。

 比如传统的统计学原理教学过程中, 对统计数据的搜集主要强调统计报表制度, 在 EXCEL 环境应该更注重抽样推断, EXCEL 提供的随机抽样工具使得抽样调查不再是十分复杂的技术, 统计图也可以被广泛运用于对数据的描述; 再比如现有统计学教材很多都讲根据整理的数据计算平均数时, 都用加权平均的方法, 当用组距式变量数列计算平均数时, 用组中值作为各组的代表值进行计算。

 我们知道, 组中值作为各组的代表值是假定各组变量值在组内是均匀分布的, 如果实际数据与这一假定相吻合, 计算结果比较准确,

 否则误差比较大。

  (2)

 案例教学成为《统计学》 课程的重要内容。

 案例教学法不仅可以将理论与实际紧密联系起来, 使学生在课堂上就能接触到大量的实际问题, 而且对提高学生综合分析和解决实际问题的能力大有帮助。

 结合学生所学专业精选案例教学, 比如对于金融专业的学生可以设计用几何平均数计算投资的平均收益率、 运用标志变异指标考察投资组合的风险大小等。对于经管专业的学生, 精选抽样推断、 假设检验、 方差分析对于控制产品质量, 经营决策等方面的案例, 深入浅出地介绍这些方法的基本思想、 并用 EXCEL 进行分析。

 既激发了 学生的兴趣、 扩大了 学生的视野, 也使统计学的课堂不再是教师一块黑板、 一支粉笔、 一本教材、 一张嘴巴就能将一门专业课程从头讲到尾。(作者单位:

 沈阳师范大学数学与系统科学学院)

 参考文献

 [1] 李万臣, 叶铂. 基于统计学方法的水面目 标特征提取[J]. 中国新技术新产品. 2010(03)

  [2] 唐源鸿. 统计学的普及及应用[J]. 经营管理者. 2010(01)

  [3] 邵军. 企业经营统计学的基本内容[J]. 知识经济. 2010(06)

  [4]

 李兴建. 统计学的发展方向 及其趋势[J]. 科技创新导报. 2010(16)

篇七:统计研究方面的问题

研究 关于统计学研究的几点思考 杜成 摘要:统计学在中国的发展历史并不长,但是统计学的发展非常迅速,其发展潜力也很大。各学科的发展都离不开统计学,只 有深入了解和研究统计学,才能促进统计学科的发展。统计学一般分为数理统计学和经济统计学,本文侧重于对经济统计学的讨论, 从统计学的相关概念入手,探究了统计学的研究对象相关问题以及研究方法,并对统计学的发展趋势进行分析。

 关键词:统计学 研究对象 研究方法 一、 统计学的定义 人们的印象里,统计学就是对数据进行简单的运算,然后通 过图表、表格把它们表示出来,这是长久以来人们对统计学的一 些片面认识。统计学的定义有很多种,每种定义对统计学阐述的 侧重点不同。其中维基百科是这样定义统计学的:“ 统计学是研 究如何测定、收集、整理、归纳和分析反映客观现象总体数量的 数据,以便给出正确认识的方法论科学,被广泛的应用在各门学 科之上,从自然科学和社会科学到人文科学,甚至被用来工商业 及政府的情报决策之上”。简单来说,统计学就是数据的科学, 是一门收集、整理、分析、解释数据并从数据中得出结论的科学。

 二、统计学的研究对象及其特点 统计学研究必须要求明确统计学研究的客体是什么,即统计 学的研究对象。统计学中某种性质相同的个体所组成的集合叫总 体。统计学就是研究客观总体的数量特征、数量关系和变动规律, 或者说统计学是研究统计过程的规律和方法以及客观现象统计 规律的科学,它的研究对象既涉及到自然科学领域,又涉及到社 会科学领域。统计学研究对象的特点有以下几点g ( 1) 依赖性。依赖性即统计学研究对象的寄生陛,依赖性 是统计学独有的特点,统计学研究的数据是来自各领域的,是依 靠解决其他领域的问题而存在和发展的。统计学现在已经发展成 为一门媒介科学,它研究的对象是其他学科的逻辑和方法论。

 (2) 数量性。数量性即统计学研究对象是通过数量特征和 数量关系表示的。数量性是统计学研究对象的基本特征,因为数 字是统计的语言,统计是通过数量方面来认识事物的,对统计数 据进行分析,归纳统计规律性,就可以达到统计分析研究的目的。

 (3) 总体性。总体性即统计学以研究对象总体的数量为研 究对象。每一个个体都有自身的随机性,而这些研究对象的总体 又具有共同的特征和共同趋势,所以统计学研究是通过对大量的 个体特征进行研究,从而过渡到对总体普遍存在的事实进行观察 和综合分析,进而得出研究对象总体的数量特征和统计规律。只 有掌握研究对象的总水平、总规模、总体特征和共同趋势才能体 现统计学规律的作用。

 (4) 变异性。变异性即构成统计学研究对象总体中的各个 个体,除了在某一方面必须是同质的以外,在其他方面又要表现 出一定的差异和变异。如果各个个体之间没有区别和差异,统计 研究就是没有意义的。统计学的这种变异既可以表现为数量上 的,也可以表现为非数量上的,但是因为统计学具有数量性,所 以表现为数量上的变异才是统计学所要研究的对象。

 (5) 具体性。具体性即统计学研究对象是具体的数量方面。

 统计学所研究的数量是具体、现实的,而不是抽象的,并且统计 学研究的数量是有现实意义的。比如,要研究城乡居民收入差距, 必须确定具体年份的具体范围内的城镇和农村居民收入数量、收 入构成、收入变化以及计算方法,才能对研究对象进行统计分析。

 (6) 广泛性。广泛性即统计学研究数量方面的范围的很广 泛。其广泛性包括政治、经济、文化、军事、教育等各类社会现 象的数量方面。统计学研究对象的广泛性是统计学成为媒介学科 的必要特征。

 三、统计学的研究方法 每个学科都有 自己独特的研究方法,统计学也不例外,统计 学在长期实践中总结、归纳出了一系列专门的研究方法,如实验 法、大量观察法、统计分组法、综合指标法、统计描述法等。

 ( 1) 实验法。统计学的实验法包括假设检验和实验设计

 假设检验就是在对在总体参数提出假设的基础上,利用样本信息 来判断假设是否成立的统计方法。实验设计就是设计合理的实验 程序,使得收集得到的数据符合统计分析方法的要求,以便得出 有效的客观的结论,其中最常用的实验设计是正交设计法。

 ( 2) 大量观察法。大量观察法就是对全部或者足够数量的 研究现象进行观察和研究,推理归纳出客观现象的本质特征和发 展变化规律。通过对大量的研究对象进行观察和研究,才能排除 偶然因素造成的影响,揭示研究对象的统计规律和本质特征。

 ( 3) 统计分组法。由于所研究现象具有差异性、复杂性及 多样性,需要我们对研究现象进行分组研究,进而来区别研究现 象的类型,研究不同组别之间的区别和联系。统计分组法包括传 统分组法、聚类分析法和判别分析法等。

 (4) 综合指标法。综合指标法是利用总量指标、平均指标、 相对指标、标志变异指标等对研究现象的数量关系和数量特征进 行分析,来反映统计学研究现象的数量方面特征。综合指标法在 统计学的经济应用中具有重要的作用。

 (5) 统计描述和统计推断。统计描述指对调查或实验得到 的统计数据进行整理、分类、计算出各种能反映总体数量特征的 综合指标,并加以分析研究,从而得出有价值的信息,用表格和 图形表示出来。统计推断指以一定的置信水平,根据样本数据资 料来判断总体数量特征的归纳推理方法。统计描述和统计推断在 统计学研究中应用非常广泛。

 四、统计学的发展趋势 (1) 统计学实际应用的范围扩大。在大数据时代的背景下, 统计学开始被各行各业运用起来。统计学逐渐应用到企业管理、 保险金融、政府决策、国家经济安全等方面。统计学在企业管理 方面可以提高企业的管理能力和效率。在保险金融方面可以监控 分析金融风险和保险问题来保证金融保险市场的正常运行。在政 府决策方面可以帮助政府宏观调控,从而减少决策失误。在国家 经济安全方面可以监控经济安全问题,预防经济危机。

 (2) 统计学与其他学科交叉融合。统计学的性质决定了统 计学是- 17 媒介学科,统计学的发展是建立在各类学科的基础上 的,其涉及领域非常广泛。因此,统计学与其他学科交叉融合更 能发挥它的作用,例如,统计学与经济学、管理学等学科进行融 合等,在融合中能不断完善统计学体系,创新统计学研究方法。

 (3) 统计学与网络、计算机的结合。大数据时代的到来, 使得以网络、计算机为代表的信息科技在统计理论、统计分析方 法、统计处理过程等方面都为统计学发展提供了新的支持。统计 与网络和计算机的结合,能更好发挥统计的作用,使统计学的应 用更加广泛 。

 作者简介:

 杜成 (1993一) 男,汉,河南信阳人,单位:河南大学 经济学院,本科,经济统计学。

 (作者单位:河南大学经济学院河南开封市475000) 5 3

推荐访问:统计研究方面的问题 统计 研究