您的当前位置:首页案例库【范本模板】

案例库【范本模板】

来源:小侦探旅游网
案例库

第1章 绪论

1。 两种药用于同一种病,A药治疗5例,4例好转;B药治疗50例,36例好转.结论是:A药优于B药。请问其结论合理吗?为什么?应该如何?

2. 某研究者为了探讨原发性高血压患者肾小管早期损害的监控指标,选取尿常规、蛋白定性检查阴性,血肌酐、尿素氮均在正常范围内的原发性高血压患者74例作为病例组,其中男43例,女31例,平均年龄61岁(4073岁)。根据高血压的病程将患者分为三组,Ⅰ组高血压病期<10年,Ⅱ组高血压病期10~20年,Ⅲ组高血压病期>20年。另选取53名体检健康的职工为对照组。观测两组尿视黄醇结合蛋白(retinal binding protein, RBP)、微量白蛋白(microalbumin, mALB)、β2 微球蛋白(β2 microglobulin, β2-MG)和N-乙酰-β-D—氨基葡萄糖苷酶(N—acetyl—β—D-glucosaminidase, NAG)四项定量指标的取值。结论为:尿RBP、mALB、2—MG和NAG是原发性高血压患者肾小球、肾小管早期损害的敏感指标.请辨析这样设计实验存在什么问题?正确的做法是什么?

3。 某研究者的论文题目为“大学生身心健康状况及其影响因素研究”,以某地职业技术学院理、工、文、医学生(三年制)为研究对象,理、工、文、医学生分别挑选了60、38、19和46人,以问卷方式调查每位学生的一般健康状况、焦虑程度、抑郁程度等.得出的结论是:“大学生身心健康状况不容乐观,学业问题、就业压力、身体状况差、人际交往不良、社会支持不力为主要影响因素”。请问其结论合理吗?为什么?应该如何?

4。 某部队共有1 200人,在某段时间内患某病的人数有120人,其中男性114人,女性6人。某卫生员进行统计分析后说,经假设检验,该病的两性发病率(114/120=95%与6/120=5%)之间的差别有统计学意义,由此得出结论:“该病男性易得”。你对这个结论有何看法?若结论是错误的,那么,错误的实质是什么?正确的做法是什么?

第二、三、四章

1. 某人编制了一张统计表(表1), 你认为哪些需要改进?

表1 1976—1979年吉林市各型恶性肿瘤的死亡率

年龄组 疾 病 胃 癌 食管癌 肝 癌 肺 癌

2. 某医生观察了1 402名临产母亲的住院天数(表2),并得到平均住院天数为6.6天.请对此发表评论。

表2 1 402名临产母亲生产期间的住院天数 组段 (1)

1~ 3~ 5~ 7~ 9~ 11~ 13~ 15~ 17~ 19~ 21~ 23~ 25~ 合计

0~ 无 无 0.34/10万 无 15~ 1。13/10万 0.1/10万 1.64/10万 0.41/10万 35~ 55~ 75~ 313.44/10万 73.56/10万 137。53/10万 19。92/10万 150/10万 2。18/10万 25.30/10万 20.21/10万 35.20/10万 125。10/10万 97。51/10万 134.33/10万 组中值Xi (2)

2 4 6 8 10 12 14 16 18 20 22 24 26 -

频数 (3)

79 316 559 243 89 57 23 19 9 1 2 2 3 1 402

频率fi (4)

5。63 22.54 39。87 17。33 6.35 4。07 1。64 1.36 0。64 0.07 0。14 0。14 0。21 1。00

由加权法的计算公式(2-2)求出平均住院天数

X20.056340.2254240.0014260.00216.6(天)

3.某人绘制一张统计图(图1), 你认为哪些需要改进?

180140图1 1952年与1972年某地肺结核、心脏病和恶性肿瘤的死亡率

4.以病死率为考察指标,对两所医院某病的治疗水平进行比较,结果见教材表2-16,由合计的病死率得出结论为乙医院治疗水平优于甲医院,请评述这个结论。

表3 2000年两所医院某病的病死率比较 病情严重程度

轻 中 重 合 计

甲 医 院 出院人数 病死数

100 300 600 1 000

8 36 90 134

病死率/ %

8.0 12.0 15.0 13。4

1. 为估计某地居民尿汞值的参考值范围, 测得某地200名正常成人的尿汞值如表4。

表4 某地200名正常成人的尿汞值/μgL

尿汞值 例数

0~ 45

4~ 30

8~ 41

12~ 16~ 20~ 24~ 28~ 32~ 36~ 20

15

12

13

5

4

6

40~ 44~ 48~ 3

4

2

1试根据该样本资料估计该地居民尿汞值的95%正常值范围。

下面给出了多种解法,请辨析正误并讲出道理。若有正确的,请指出来;若没有正确的,请一定要补充上。

解法一:

死亡率10060201952年肺结核1952年恶性肿瘤1972年心脏病1972年恶性肿瘤1952年心脏病1972年肺结核 乙 医 院 出院人数 病死数 650

250 100 1 000

65 40 18 123

病死率/ %

10.0 16.0 18.0 12.3

第五章 常用概率分布

计算得该样本资料的均数X13.78(μgL1),标准差S11.71(μgL1),于是估计该地居民尿汞值的95%正常值范围为(X1.96S,X1.96S)=(9.17,36。73)μgL1。

解法二:

估计该地居民尿汞值的95%正常值范围为(X0.95S,X0.95S)=(2.66, 24.90)

μgL1。

解法三:

估计该地居民尿汞值的95%正常值范围为(X1.64S,X1.64S)=(5.42,32.98)

μgL1。

解法四:

估计该地居民尿汞值的95%正常值范围为(0,X1.64S)=(0,32.98)(μgL1)。 解法五:

估计该地居民尿汞值的95%正常值范围为(0,X1.96S)=(0,36。73)(μgL1)。 解法六:

估计该地居民尿汞值的95%正常值范围为(0,X0.95S)=(0,24.90)(μgL1)。 解法七:

1估计该地居民尿汞值的95%正常值范围为(X1.64S,X)=(5.42,13.78)(μgL).

解法八:

1估计该地居民尿汞值的95%正常值范围为(X1.96S,X)=(9.17,13.78)(μgL)。

解法九:

1估计该地居民尿汞值的95%正常值范围为(X0.95S,X)=(2.66,13。78)(μgL1)。

2.某地区10万人口中出现了20例流行性腮腺炎病例,有人希望据此推断该地区10万人口中不少于20人患流行性腮腺炎的概率。于是,有几位爱动脑筋的学生给出了自己的解法。请辨析他们的解法之正误,并讲出道理.

解法一:

P(X20)1P(X20)

2000201120222019191(eeee)

0!1!2!19!1( 解法二:

202020)1(0)10.50.5

P(X20)1P(20)01(C1000000.00020.99980100000C11000000.00020.9998199999C191000000.00020.99981999981)0.52975解法三:

20202020212120100000100000P(X20)eee0.52974

20!21!100000!解法四:

20P(X20)C1000000.00022199979210.999899980C1000000.00020.999820C

1000001000000.0002100000)0.52975

第六章 参数估计基础

1. 某研究者测得某地120名正常成人尿铅含量(mg·L-1)如下:

尿铅含量 0~ 例数

14

4~ 22

8~ 29

12~ 18

16~ 15

20~ 10

24~ 6

28~ 3

32~ 2

36~ 1

合计 120

试据此资料估计正常成人平均尿铅含量的置信区间及正常成人尿铅含量的参考值范围。

由表中数据得到该例的n120,S8.0031,SX0.7306,某作者将这些数据代入公式(4—20),即采用XZSX计算得到正常成人平均尿铅含量100(1)%置信区间为(,14。068 4);采用公式XZS计算得到正常成人尿铅含量100(1)%参考值范围为(,26。030 6).请问这样做是否合适?为什么?应当怎么做?

2.在BiPAP呼吸机治疗慢性阻塞性肺病的疗效研究中,某论文作者为了描述试验前的某些因素是否均衡,在教材表4-5中列出了试验前患者血气分析结果。由于作者觉得自己数据

的标准差较大,几乎和均数一样大,将标准差放在文中显得不雅观,于是他采用“均数±标准误\"(XSX),而不是“均数±标准差”(XS)来对数据进行描述.问在研究论文中以表5方式报告结果正确吗?为什么?

表5 试验组和对照组治疗前血气分析结果(X组别 试验组 对照组

例数 12 10

年龄/岁

pH

pa(CO2)/kPa

SX)

Sa(O2)/% 85。121。

73

86.452。25

pa (O2)/kPa

63。004。7。360。63.004。33 9.250.55

33 05

62。503。7.380.06 63。004.33 9.160.62

95

3.某市往年的12岁男孩平均身高为140。0 cm。现在从该市的12岁男孩中随机抽得120名作为研究对象, 得到平均身高为143。1 cm, 标准差为6。3 cm。请估计该样本对应总体均数的95%置信区间,并确定该均数是否与往年不同.

某学生的回答如下:“该例12岁男孩平均身高的点估计值为143。1 cm,按公式(4—21)计算得到该点估计值的95%置信区间为141。9~144。2 cm。因为往年12岁男孩平均身高为140。0 cm,没有落在所计算的95%置信区间以内,所以可以认为现有男孩平均身高与往年身高有差异”。

请指出学生回答中的不恰当之处.

第七章 假设检验基础

1.为了比较一种新药与常规药治疗高血压的疗效,以血压下降值为疗效指标,有人作了单组设计定量资料均数比较的t检验,随机抽取25名患者服用了新药,以常规药的疗效均值为0,进行t检验,无效假设是0,对立假设是0,检验水平α=1%。结果t值

很大,拒绝了无效假设。“拒绝了无效假设”意味着什么?下面的说法你认为对吗?

(1)你绝对否定了总体均数相等的无效假设。 (2)你得到了无效假设为真的概率是1%。 (3)你绝对证明了总体均数不等的备择假设。 (4)你能够推论备择假设为真的概率是99%。

(5)如果你决定拒绝无效假设,你知道你将犯错误的概率是1%.

(6)你得到了一个可靠的发现,假定重复这个实验许多次,你将有99%的机会得到具有统计学意义的结果。

提示:就类似的问题,Haller和Kruss(2002)在德国的6个心理系问了30位统计学老师、44位统计学学生和39位心理学家.结果所有的统计学学生、35位心理学家和24位统计学老师认为其中至少有一条是正确的;10位统计学老师、13位心理学家和26位统计学学生认为第4题是正确的。(见Statistical Science, 2005, 20(3):223-230.)

2.某工厂生产的某医疗器械的合格率多年来一直是80.0%。最近从该厂一次抽取20个该器械检测,合格13个,计算得到合格率为65。0%;一周后又抽取15个器械检测,合格10个,计算得到合格率为66。7%,分别进行Z检验,得到两总体率相等的结论,表明合格率没下降,两个合格率的平均值为65.85%,进行Z检验,得到两总体率不等的结论,表明合格率下降了.请对这一结论发表你的意见.

3.为研究长跑运动对增强普通高校学生的心功能的效果,某学校随机抽取15名男生,进行5个月的长跑锻炼,5个月前后测得的晨脉数据如表6所示,问长跑锻炼前后的平均晨脉次数有无不同?

表6 某校15名学生5个月长跑锻炼前后的晨脉次数/(次·min1)

学生号 锻炼前锻炼后 1 70 48 2 76 54 3 56 60 4 63 64 5 63 48 6 56 55 7 58 54 8 60 45 9 67 50 10 65 48 11 75 56 12 66 48 13 56 62 14 59 49 15 72 50 —

作者认为该研究属于配对设计的定量资料,通过对差值进行正态性检验,发现差值不是来自正态总体( W 检验:P=0.041),所以用配对资料的符号秩和检验,结果为 T=10,查 T界值表,得双侧P〈0。05。因此认为长跑后的平均晨脉次数低于长跑前的平均晨脉次数。

你认为上述分析是否合适?请说明理由。

第八章 方差分析

1.为研究不同药物对肥胖患者的疗效,将BMI≥28的肥胖患者随机分成两组,每组10人,测得他们服药前及服药2个月后体重的变化(表7).试评价:①A、B两种药物对肥

胖患者是否有效.②A、B两种药物的疗效有无差别。

表7 两组肥胖患者服药前后体重变化/kg

药 物 A B

1

2

3

4

5

6

7

8

9 82.6

10 68.6

服药前 75。6 61.2 服药后

67.8 77。2 73.2 65.4 80。0 74.4 60.8

69.4

73.0 60。2 63。6 72。0 74.6 77。4 79.6 63。4

服药前 69。4 89.9 66。8 63.4 70。0 86.6 90。4 74。8 67。4 84.4 服药后

60.8 95。5 61。6 62。0 69。4 78.0

71.0

76.6

58.2 75。4

(1)假设数据服从正态分布,且总体方差齐,在评价A、B两种药物对肥胖患者是否有效时,作者对A、B两组患者分别采用了独立样本的 t 检验,结果:A 组患者服药前后比较 t =1.040,P=0。312; B组患者服药前后比较 t =1。125,P=0。275。从而得出结论,两种药物均无效。(2)有人认为这种方法不太好,他采用独立样本的t检验,首先比较服药前两组基线水平,结果 t =1.533,P=0。160,表明差异没有统计学意义,两组有可比性.进而,比较治疗后两组体重的差异,结果 t =0。346,P=0.734,从而得出结论:A、B两种药物的疗效差异无统计学意义。

请对以上两种作法发表你的看法。

第九章 基于秩次的非参数检验

1 为研究直肠癌患者手术前后血清CEA含量有无差异,作者收集了以下资料: 术 前(24例):31.5 30.0 28.6 39。7 45。2 20。3 37。3 24。0 36.2 20。5 23。

1 29.0

33。1 35。2 28。9 26.4 25。9 23.8 30。4 31.6 27。9 33.0 34。0 32.7

术 后(12例): 2。0 3.2 2。3 3。1 1.9 2.2 1。5 1.8 3.2 3.0 2。8 2.1

(1)有人采用了两独立样本的t检验,结果t=15.92,=34,P〈0。05.从而得出结论:手术前后血清CEA含量有差异,术前CEA含量高于术后。

(2)也有人觉得上述分析方法不对,应该采用两独立样本的秩和检验,结果为:

Z4.83,P〈0。05。

(3)还有人认为应该采用校正t检验,结果:t=22.51,P<0。05。

(4)有人将上述三种方法作一比较,认为既然三者结论是一致的,所以采用哪种分析方法都无所谓。对此你有何看法?

2.某医院妇产科测定几种卵巢功能异常患者血清中促黄体素的含量(U/L),结果如下: 卵巢发育不良 42。50 38。31 35.76 33。60 31.38

丘脑性闭经 6。71 3.32 4.59 1.67 10.51 2.96 11。82 3。86•8.26 2.63 2.20 垂体性闭经 4.50 2。75 11。14 5。98 1.90 5。43 11.05 22.03

研究者运用t检验进行两两比较,共比较了3次。结论是卵巢发育不良者血清中促黄体素的含量高于丘脑性闭经和垂体性闭经者。这样做是否妥当?为什么?正确的做法是什么?

3.某研究人员将15只小白鼠随机分为3组,比较小白鼠接种3种不同的细菌后存活的天数是否有差别,实验数据如下:

A细菌 2 4 5 7 9 B细菌 4 5 7 8 12 C细菌 8 9 10 17 23

该研究者对数据进行了方差分析(表8),进而经LSD检验,C细菌与A细菌、C细菌与B细菌之间均有统计学差异,而B细菌与C细菌之间无统计学差异。

表8 小白鼠接种3种不同的细菌后存活的天数 细菌类别 A细菌 B细菌 C细菌 例数 5 5 5 XS 5.402.70 7。203.11 13.406。43 F值 P值 0.034 4。53 请问该研究者所作统计处理是否合理?为什么?正确的做法是什么?

4.某地用三种药物杀灭钉螺,每次用200只活钉螺,用药后清点每批钉螺的死亡率(%)如下:

甲 46。5 39.5 40。5 32.5 49。5 30.0 乙 36.0 29。0 20。5 22。5 16.5 26.0 丙 24.0 8.5 9。2 6.5

研究者直接对数据进行了方差分析,得F=17.06,P〈0。001;进而经Bonferroni检验,这三种药物的效果为两两间均有差别(P〈0。05)。

请问该研究者所做统计处理是否合理?为什么?正确的做法是什么?

第十章 卡方检验

1. 某单位调查了4类人员乙型肝炎表面抗体(HBsAb)的阳性率,想比较3种病人与健康人群的阳性率有无差别,数据见表9.

表9 4类人员乙型肝炎表面抗体(HBsAb)的阳性率

组别 肝癌病人 肝炎病人 食管癌病人 健康人 合计

阳性人数

17 18 5 3 43

阴性人数

159 160 142 151 612

合计 176 178 147 154 655

阳性率/%

9.66 10。11 3.40 1.95 6.56

请大家对本案例讨论如下问题:

(1)若看成一个4×2列联表资料进行1次2检验,是否能达到分析目的?

(2)若将每一种病人与健康人群HBsAb的检查结果分别组成四格表,进行3次四格表

2检验,对否?

(3)怎样达到分析目的?

2.在论文《果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效观察》中,为了研究果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效,将患者随机分为观察组和对照组,观察组用果糖二磷酸钠,对照组用胞磷胆碱.治疗效果分为无效、有效和显效三种结果(表10)。

表10 观察组与对照组的疗效比较

组 别 观察组 对照组 合 计

疗效(例数)

显效 58 56 114

2

无效 18 35 53

2有效 44 43 87

合计 120 134 254

原作者采用列联表的专用检验公式,结果是:=4.74,P<0。05,认为两组疗效之间的差异有统计学意义。

请大家对本案例讨论如下问题:

(1)原作者的分析目的是什么?选用检验的问题在哪里? (2)什么情况下可以选用检验?

(3)本问题应选用的统计分析方法是什么?为什么要选择这样的方法?

223.某研究者欲比较食管癌TNM分期的某种基因蛋白阳性表达率有无差异,收集了食管癌Ⅱa期患者7例、Ⅱb期患者10例、Ⅲ期患者23例,检测了某种基因蛋白的阳性表达例数(X)分别为3、8和21例。研究者考虑食管癌的TNM分期是有序变量,因此运用秩和检验处理资料,结果HC=6。119 1,P=0。013 4(表11), 差异有统计学意义。

表11 食管癌TNM分期的阳性表达情况与秩和检验结果

食管癌 TNM分期

Ⅱa Ⅱb Ⅲ

n

7 10 23

X/n

3/7 8/10 21/23

HC

6。119 1

P 0.013 4

请大家对本案例讨论如下问题:

(1)原作者的分析目的是什么?在此目的下应选择的统计分析方法是什么? (2)在什么情况下可以选用秩和检验?

第十一章 两变量关联性分析

1.有研究者以“正常血糖、糖耐量减低及2型糖尿病人群胰岛素抵抗与非酒精性脂肪肝的相关分析”为题,研究了非酒精性脂肪肝的患病率与糖尿病分级(即正常血糖、糖耐量减低和2型糖尿病三级)的关系。以正常血糖者、糖耐量减低者和2型糖尿病患者为研究对象,年龄、性别可比,无大量饮酒史、肝炎史,脂肪肝的诊断以影像学结果为准。指标以均数±标准差表示,统计分析采用两组独立样本比较的t检验。结果发现,三组血糖、胰岛素、血脂水平等和脂肪肝患病率差别有统计学意义(数据及统计结果见表12),糖耐量减低组与正常血糖组比较P<0.05,2型糖尿病组与糖耐量减低组比较P<0。05。结论,随着正常血糖向糖耐量减低及糖尿病发展,血糖、血脂、胰岛素抵抗指数及脂肪肝患病率等指标值皆升高并逐渐加重,差异有统计学意义,认为脂肪肝患病率与血糖水平、血胰岛素、血脂、胰岛素抵抗、糖耐量减低和2型糖尿病等成正相关。

表12 三种血糖水平人群的血生化及脂肪肝患病率

血糖

组别

/mmolL 空腹

正常血糖 糖耐量减低 2型糖尿病

5。0±

0。5 6。5±62

0.5 8.3±68

2.6 87

餐后 5。6±1。0 8.2±1.3 12。5±3.4 1胰岛素/mmolL1 空腹 7.4±1.8 11。4±2。7 16.8±3。2 餐后 24±8 134±58 114±44 三酰甘油

1总胆固醇

/mmolL /mmolL1

/mmolL1

0.9±0.3 2.1±1。0 2。6±1。5

3。0±0。9 4.6±0。8 5。1±0.8

0。6±0.5 1.2±0。7 1。9±0.7

胰胰素 抵抗指数

脂肪肝患病率/% 48.3 69。4 83。8

经t检验,糖耐量减低组与正常血糖组比较,以及2型糖尿病与正常血糖组比较,各指标比较的P值均〈0.01;而2型糖尿病与糖耐量减低组比较,餐后胰岛素两组比较P<0。05,脂肪肝患病率比较P<0。05,其余各指标比较的P值均〈0.01.

请问:该研究的目的与设计方法吻合吗?该研究设计属于何种类型?有无更好的设计方案?本设计最适合哪种统计分析法?本例的统计分析方法有何不妥?本例的统计分析结果能推出本例的结论吗?若否,则可以推出什么结论?本例的统计表达有何不妥吗?

2.有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者A用量表1,评分者B用量表2,对同一批患者(5人)进行了评分,结果见表13,研究者在Excel中采用Pearson函数计算了两次评分的相关系数,结果两者相关系数非常之高(r=0.866 3),因此认为,两种量表得分是一致的。

表13 两种量表评分的结果

量表 1 2

请问:该研究的目的与设计方法吻合吗?就本例的设计而言,存在任何不妥吗?本例可否采用Pearson相关系数进行计算?计算的结果正确吗?推论正确吗?

3.有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1, 2。5, 5, 7。5, 10, 15, 20, 30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度(表14)。在SPSS中作散点图(图2),计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P〈0。001,认为口服药物量与血药浓度呈线性正相关。

表14 不同口服量与相应血药浓度

口服量/mg

血药浓度/mmolL1 口服量/mg 血药浓度/mmolL1

1 1 1 2。5 2。5 2。5 5 5 5 7。5 7。5 7。5 0。3 0。4 0。3 0.6 0。6 0.7 1。0 1.0 1。1 1。8 1。9 2。0 10 10 10 15 15 15 20 20 20 30 30 30 2。8 3.0 3.0 4。5 4。5 4.3 8。3 8。0 7。8 15.2 14.2 13。8 评分人 A B

患者1 86 45

患者2 90 47

患者3 73 39

患者4 88 42

患者5 78 40

图2 药物口服量与血药浓度关系的散点图

请问:本例的两个变量各有何特征?可以计算Pearson相关系数吗?若可以,则计算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗?

第十二章 简单回归分析 1.年龄与身高预测研究.某地调查了4~18岁男孩与女孩身高,数据见表15,试描述男孩与女孩平均身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高.

表15 某地男孩与女孩平均身高与年龄的调查数据

年龄 4.0 4.5 5。0 5.5 6。0 7.0 平均身高 男孩 102.1 105。3 108.6 111。6 116。2 122.5 女孩 101.2 104.5 107.6 110.8 115。1 121.1 年龄 8.0 9。0 10。0 11。0 12。0 13.0 平均身高 男孩 126。8 132.2 136.6 142.3 147。2 156.3 女孩 126。3 131。8 137。9 144.1 150。0 155。1 年龄 14。0 15.0 16。0 17.0 18。0 平均身高 男孩 162。5 166.1 169.0 170.6 170。7 女孩 157.1 157。7 158。7 158.9 158.9 采用SPSS对身高与年龄进行回归分析,结果如表16和表17所示。

表16 男孩身高对年龄的简单线性回归分析结果

Constant AGE

估计值 83.736 3 5.274 8

标准误 1.882 4 0.167 6

t

44.483 9 31.479 8

P 0.000 0 0.000 0

F=990.98 R2=98。5%

表17 女孩身高对年龄的简单线性回归分析结果

估计值

标准误

t

P

Constant AGE

88。432 6 4.534 0

3。280 0 0.292 0

26。961 1 15。529 0

0。000 0 0.000 0

F=241。15 R2=94.1%

经拟合简单线性回归模型,t检验结果提示回归方程具有统计学意义。R结果提示,拟合效果非常好,故可认为:

(1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5。27 cm与4。53 cm,男孩生长速度快于女孩的生长速度.

(2)依照回归方程预测该地男孩10。5岁、16.5岁、19岁和20岁的平均身高依次为139。1 cm、170.8 cm、184.0 cm和189.2 cm;该地女孩10.5岁、16.5岁、19岁和20岁的平均身高依次为136.0 cm、163.2 cm、174。6 cm和179。1 cm.

针对以上分析结果,请考虑:

(1)分析过程是否符合回归分析的基本规范? (2)回归模型能反映数据的变化规律吗?

(3)拟合结果和依据回归方程而进行的预测有问题吗? (4)男孩生长速度快于女孩的生长速度的推断是否有依据?

2. 贫血患者的血清转铁蛋白研究.第6章例6-1中,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6—1。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?

张医生用t检验比较新药与常规药治疗贫血患者后的血红蛋白增加量,计算得:

2X1=27.99,X2=20。21,t=4.137。

王医生认为,可以作线性回归分析。在该数据中涉及了两个变量,一是观察效应变量(连续性),即血红蛋白增加量,将之作为回归分析中的因变量Y;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量X,其中新药组X=1,常规药组X=0。数据转换为

ˆ20.217.78X,t=4.137. 双变量资料形式(表18),经分析得回归方程Y

表18 两种药物治疗贫血患者结果

编号 1 2 3 4 5 Y X0 0 0 0 0 编号 6 7 8 9 10 Y X0 0 0 0 0 编号 11 12 13 14 15 Y X1 1 1 1 1 编号 16 17 18 19 20 Y X1 1 1 1 1 19.5 19。0 13。0 24.7 21.5 22。0 19。0 15.5 24.5 23。4 30。5 21。4 25.0 34。5 33.0 32.5 29。5 25。5 24。4 23。6 请考虑:

(1)王医生的分析方法对不对?

(2)回归分析能代行两样本均数t检验的任务吗? (3)通过这个案例的实践,你得到哪些启发?

第十三章 多重线性回归分析

1.预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料.一共调查了7个指标,分别是吸氧效率(Y,%)、年龄(X1,岁)、体重(X2,kg)、跑1。5 km所需时间(X3,min)、休息时的心跳频率(X4,次/min)、跑步时的心跳频率(X5,次/min)和最高心跳频率(X6,次/min)(表19).试用多重线性回归方法建立预测人体吸氧效率的模型。

表19 吸氧效率调查数据

Y X1 44 40 44 42 38 47 40 43 44 38 44 45 45 47 54 49 X2 89.47 75。07 85.84 68。15 89。02 77.45 75.98 81。19 81.42 81.87 73.03 87。66 66。45 79.15 83.12 81。42 X3 11.37 10。07 8.65 8。17 9。22 11.63 11.95 10。85 13。08 8。63 10.13 14。03 11。12 10。60 10.33 8。95 X4 X5 X6 62 62 45 40 55 58 70 64 63 48 45 56 51 47 50 44 178 185 156 166 178 176 176 162 174 170 168 186 176 162 166 180 182 185 168 172 180 176 180 170 176 186 168 192 176 164 170 185 Y X1 51 51 48 49 57 54 56 50 51 54 51 57 49 48 52 X2 69.63 77。91 91。63 73.37 73。37 79。38 76.32 70.87 67。25 91.63 73。71 59。08 76.32 61.24 82.78 X3 10.95 10。00 10.25 10。08 12。63 11。17 9。63 8.92 11.08 12。88 10。47 9。93 9.40 11。50 10。50 X4 X5 X6 57 48 48 67 58 62 48 48 48 44 59 49 56 52 53 168 162 162 168 174 156 164 146 172 168 186 148 186 170 170 172 168 164 168 176 165 166 155 172 172 188 155 188 176 172 44.609 45。313 54.297 59.571 49。874 44.811 45。681 49.091 39。442 60。055 50。541 37。388 44.754 47.273 51.855 49.156 40.836 46。672 46.774 50。388 39。407 46。080 45.441 54.625 45。118 39。203 45。790 50.545 48。673 47.920 47.467 资料来自:张家放主编.医用多元统计方法。武汉:华中科技大学出版社,2002。 该研究员采用后退法对自变量进行筛选,最后得到结果如表20所示。

表20 多重线性回归模型的参数估计

Variable Intercept

Unstandardized Coefficients Standardized

B 100.079 —0。213 —2。768 —0.339 0。255

Std。 Error 11.577 0。091 0。331 0.116 0。132

Coefficients

-0.214 —0。721 —0.653 0.439

t

8.644 —2.337

P

0.000 0.027

X1

X3 X5 X6

—8。354 0。000 -2。939 1。936

0.007 0。064

2* F34.90, P0.001 R0.843

对模型进行方差分析的结果认为模型有统计学意义(P<0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。考察各个自变量的偏回归系数,研究者发现,X6的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。出现这种悖论的原因是什么呢?

2. 医院住院人数的预测 石磊(1991)发表了其所在医院1970—1989年期间历年门诊人次X1、病床利用率X2、病床周转次数X3和住院人数Y的数据(表21),建立由X1、X2、

X3预测Y的线性回归方程[中国卫生统计,1991,8(6)]。下面列出了多重线性回归分析

的主要结果(表22).

表21 重庆医科大学附属第二医院1970—1989年若干统计资料

年份 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

住院人数

Y 6 349 6 519 5 952 5 230 5 411 5 277 3 772 3 846 3 866 5 142 7 724 8 167 8 107 7 998 7 331 6 447

门诊人数/万人

X1

49.8 38。1 36。6 36。0 32。3 37。8 34。1 42。2 38。1 39.5 55.8 63。0 65。2 66。1 65.4 60.1

病床利用率/%

X2

94。25 98.50 89。86 86。00 83。29 77。88 92.62 86.57 84。29 89。29 97。63 96.53 93.43 94.45 93。03 91.79

病床周转次数

X3 19。84 20。37 18。80 16。34 16.91 18.07 17。96 18。31 18。41 20.61 21。72 23。33 21。91 21。05 19.96 18。81

1986 1987 1988 1989

4 869 5 506 5 741 5 568 56.9 57。7 53.4 48.7

88.94 91。79 99.03 94。93 15。82 16.01 16。59 19。09

表22 多重线性回归模型的参数估计

Variable Intercept

Unstandardized Coefficients Standardized

B Std。 Error Coefficients -3219。628 59。834 327。553

1505.165 15.780 85。725

0。512

0.515

t

3.792 3.821

P

—2。139 0。047

0。001 0。001

X1

X3

2*F24.39, P0.001 R0.861

作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程,得到表22的结果,认为回归效果很好。但是,读者小明作了残差分析图(图3),认为回归效果不好。请仲裁一下,到底谁对谁错?

图3 残差分析图

第十四章 实验设计

1.某项研究欲观察E1A基因对裸鼠移植肿瘤生长的抑制和化学治疗的增敏作用,研究者进行了两个实验。一是裸鼠致瘤实验,在实验设计中,将4周龄裸鼠随意分为3组,每组5只,分别接受不同的处理。二是模拟E1A基因治疗临床应用的裸鼠实验,研究者取20只4周龄裸鼠,接种癌细胞系后,随意地分为4组。已知裸鼠的性别、体重等非实验因素对实验结果可造成不同的影响。请辨析该实验设计存在哪些差错?应当如何改进?

2.为了观察甲紫注入小型猪正常腮腺后组织病理变化情况,有人选择6个月龄、体重2025 kg的中国实验用小型猪15只,雄性9只,雌性6只。每只动物任选一侧腮腺为实验组,另一侧作为正常对照组,以消除个体差异及增龄对实验结果的影响。按注入甲紫后1周、2周、1个月、3个月及6个月将15只动物随机分为5组,每组3只(每个组的3只动物分别随机注入0。6、1.0及4。0 ml 1%甲紫溶液),然后观察组织病理变化情况。请辨析该实验设计存在哪些差错?应当如何改进?

3.为了比较甲磺酸托烷司琼和盐酸托烷司琼控制由顺铂、多柔比星化疗所致胃肠道反应的疗效和不良反应,现选取40例接受含顺铂和(或)多柔比星化疗的肿瘤患者进行实验研究。从充分利用每个受试者,尽可能排除非实验因素(如病情、年龄、性别等)的干扰方面考虑,在课题组会议上,人们分别提出了下面几种实验设计类型,你认为采用哪种设计较好?

设计1,成组设计:将40例肿瘤患者随机地均分成2组,一组给甲磺酸托烷司琼,另一组给盐酸托烷司琼。

设计2,条件相近者配对设计:可将40例肿瘤患者按病情、性别、年龄等各方面都相同或接近的每两个患者配成一对,用随机的方法决定其中一个患者接受甲磺酸托烷司琼,另一个患者接受盐酸托烷司琼。

设计3,40例肿瘤患者第一个化疗周期先用甲磺酸托烷司琼,经过一段时间后在下一个化疗周期用盐酸托烷司琼,即采用“自身配对设计\".

设计4,将40例肿瘤患者完全随机地分成2组,用随机的方法决定第一组20例患者使用两种药的顺序,如先甲磺酸托烷司琼后盐酸托烷司琼,则第2组的20例患者用药的顺序相反。每次用药前后观测指标的取值,即采用“成组交叉设计”.

设计5,将40例肿瘤患者按病情、年龄、性别等配成20对,用随机的方法决定每一对中2个患者使用两种药的顺序,如其中一个患者用药的顺序是先甲磺酸托烷司琼后盐酸托烷司琼,则另一患者用药的顺序正好相反,每次用药前后观测指标的取值,即采用“配对交叉

设计\"。

第十五章 调查设计

1.调查某中学学生的身高和体重,在全体200名学生中,随机抽取15%,即抽取30人,抽取步骤如下:先将全校学生按点名册,从1,2,…,30编号;然后通过计算机产生一系列9位的随机数字;每次选取后面的3位数,共30组,编号等于此数的学生便被抽中;若所取的3位数大于或等于学生最大编号,则将该数的首位数字弃之,若后面所选取的随机数与前面的随机数相同,则废弃后面的随机数,继续抽取新的随机数,直到抽满30名学生为止。请问:这个抽样结果是否正确?它存在什么不足?应该如何操作?

2.孕期补充维生素与婴儿神经管缺陷关系的调查研究。调查对象分为两类,一类为先服用维生素后怀孕的妇女,另一类为怀孕后才开始服用维生素的妇女,调查研究结果表明,前者比后者所生的婴儿神经管缺陷发生率要低得多,故得出了孕期之前补充维生素可以减少生育神经管缺陷婴儿的危险性的结论。请问:这个结论是否可信?它存在哪些不足?应采取什么样的措施才可弥补及完善这些不足?

3.在某项病例对照研究中,研究者选择那些因阴道出血前来就诊且后来被诊断患有子宫内膜癌的妇女作为病例组,选择未患子宫内膜癌的正常妇女为对照组,回顾性调查她们是否使用过雌激素,从而获得了病例对照研究的资料,经计算,发现子宫内膜癌患者发病前使用雌激素者是对照组的9倍,经过统计学处理,认为两组之间的差别有统计学意义,于是作出统计推断:雌激素可导致子宫内膜癌。请问:这项调查研究的结果是否可信?若认为不可信,问题的症结在哪里?应如何解决之?

注:以上各章节案例选自《生物医学研究的统计方法》(方积乾主编,北京:高等教育出版社,2007。6)和《卫生统计学第五版》(方积乾主编,北京:人民卫生出版社,2003)

因篇幅问题不能全部显示,请点此查看更多更全内容