第一章

1. 研究试验

也叫前瞻性研究。可以证明因果关系,试验设计会控制混杂变量。

1.1 随机双盲/随机随机试验

把混杂因素尽可能均分在各个实验组,每个组在基线时,变异一致。尽量让研究干预成为唯一的影响因素。

也就是在零假设下,只存在抽样误差,而基线时每个组中变异基本相同,进而计算得到这种样本的概率,从而推翻原假设。

1.2 变异的变化

称为分布。就是变异的规律

2. 观测试验

也叫回顾性研究。只能证明相关关系,不能证明因果关系,因为混杂因素不可控。例如定期体检可能是良好教育和收入的表征,定期锻炼是健康的表征,等等。

一些混杂因素在一开始就影响了谁是试验组,谁是对照组。

3.

比例、数量比较时,考虑总量。

由部分推断整体时,注意各个subgroup构成比

在观察试验、非随机对照试验中注意受试者是如何被分组的。进而考虑组之间的可比性。有什么混杂因素,如何消除混杂因素。

第二章 描述性统计

1. 直方图用面积而不是高度描述数据。不需要Y轴。高度表示拥挤程度(每单位数量多),面积表示数目。像北京和中国。

2. 平均数使分布保持平衡的点,中位数是使两边面积相等。

3. 均方根RMS比平均数稍大些。

4. 标准单位是偏离平均数多少个标准差。

5. Z分数就是偏离平均数多少个标准差。对应的面积就是百分数,某个点之上或之下就是百分位数。

6. 随机误差的作用方向随机,可能正向可能负。系统误差是作用方向不变。重复测量衡量随机误差。

第二章 相关和回归

1. 散点图:数据越分散,相关关系越弱。一个弱相关关系基本没啥意义。

2. 相关系数:

只是直线相关,信息量不如散点图丰富。

X和Y转换为标准单位:以SD为单位,度量数据偏离平均数的程度,

相关系数就是其积的平均值。其积,采用乘积的形式,一是反应偏离大小,而是反应偏离方向。

 相关系数就是其积的平均值,值越大,说明偏离方向越一致。r越大,数据分布越聚集。

相关系数是按相对SD的值度量,而不是绝对值度量。因此r相同,但可能一个SD大,一个SD小。(两个r相同group,合到一起,r还是不变)

 上述公式转换:

 

SD是反应离散程度,越大越分散;

Cov是两个变量的离散程度。一是反应偏离大小,而是反应偏离方向。

 例子:

五个城市的吸烟率和死亡率强正相关。

错误:五个城市只有五个数据点,SD变了。应该用每个人的数据。可直接计算个人吸烟时长和寿命。

原文地址:http://www.cnblogs.com/SAS-T/p/16756993.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性