整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

统编人教版高中生物必修第二册《第3节 DNA的复制》

统编人教版高中生物必修第二册《第3节 DNA的复制》优质课教案


1节 DNA的复制

教学目标https://www.shimengyuan.com/nianji/2450.html

1.概述DNA分子的复制过程。

2.探讨DNA复制的生物学意义。

3.通过学生对DNA复制的推测,再次领悟假说—演绎方法在研究中的应用。

4. 通过探究DNA分子复制的验证实验,再次领悟同位素标记法,拓宽学生解决问题的思路。

教学重难点

【教学重点】

DNA复制的条件、过程和特点。

【教学难点】

DNA分子的复制过程。

教学过程

一、导入新课

(建议下载使用视频:【情境素材】DNA的复制。)

教师展示一对母女(如明星戚薇和女儿,父女等均可)的照片。教师引导学生思考:为什么母女这样像?教师引导学生得出答案:亲代的遗传物质通过复制传递给了子代。

那么,何谓DNA的复制?

所谓DNA的复制就是指以亲代DNA为模板合成子代DNA的过程,1DNA→2DNA。

那么,新产生的DNA分子是一个全新的DNA分子吗?

二、讲授新课

(一)对DNA复制的推测

1.全保留复制:新复制出的分子直接形成,完全没有旧的部分。

2.半保留复制:形成的分子一半是新的,一半是旧的。

3.分散复制(弥散复制):新复制的分子中新旧都有,但分配是随机组合的。

如何来判断DNA的复制究竟是哪种方式呢?这就需要用假说-演绎法来预测。

(二)对DNA复制方式的探究

【作出假设】DNA复制是一种半保留式的复制

每个子代DNA均由1条母链和1条子链组成。

问题1:如果DNA是半保留复制,复制后得到的子一代DNA和子二代DNA的组成是什么样的呢?

问题2:如果要在实验中直观地区别、“标识”母链或子链,可以采取什么办法?(放射性同位素标记法)

问题3:如果用同位素(放射性)进行标记,用什么元素?(N、P)

问题4:如果亲代DNA是15N的,放在14N的环境中进行培养,则亲代、子一代、子二代DNA分别含有哪种N元素?

(亲代:15N/15N-DNA (全部)

子一代:15N/14N-DNA (全部)

子二代:15N/14N-DNA(1/2) 14N/14N-DNA(1/2) )

问题5:要验证上述预测,就要分别观察亲代和子代的情况,但实验中,复制后的DNA分子混合在一起的,不易分离。怎么解决这个问题?

(通过密度梯度离心使其发生分层)https://www.renjiaoshe.com/jiaocai/2046.html

【验证假设】

学生阅读教材并观察讨论图示:证明DNA进行半保留复制的实验。

DNA是肉眼看不见的,如何才能分辨DNA呢?此时,教师可以让学生分析经典实验中用同位素15N 标记的方法,分析用CsCl密度梯度离心后重带、中带、轻带表示的DNA分子的双链构成是怎样的,在整个实验中亲代、子一代、子二代细胞中提取出的DNA离心的结果说明了什么。通过层层分析,学生不仅能够自己得出结论:DNA的确具有半保留复制的特点,同时还能感受科学探究的魅力。

实验结果与预期结果一致,故证明了DNA的复制是以半保留的方式进行的。

小结:总结本实验假说演绎的流程。(作出假设、演绎推理、验证假设、得出结论)

(三)DNA复制过程

播放多媒体课件,演示DNA复制的过程,首先让学生明确DNA并不是由原来DNA分子产生一个全新的DNA分子,而是DNA分子的两条链分开,每一条链(母链)作为一个模板再配上一条子链,这样形成的2个DNA分子每个都有一条母链和一条子链。DNA复制过程大体分为三个阶段:(1)DNA双螺旋结构在DNA解旋酶作用下解旋成2个单链片段;(2)以解开的每一条单链片段(母链)为模板,遵循碱基互补配对原则,与提供原料中的4种脱氧核苷酸各自互补配对,并在DNA聚合酶作用下连接成一段子链;(3)子链不断延伸并与对应母链盘绕成双螺旋结构,形成各含一条母链和一条子链的2个DNA分子。

然后,设置问题让学生分析DNA复制过程的特点、条件等,领会DNA的结构和碱基互补配对与复制的关系。

思考:(1)DNA复制过程的特点有哪些?(其特点是边解旋边复制,半保留复制。)(2)DNA复制需要哪些条件?(复制需要模板、原料、酶和能量等基本条件。特别需要向学生说明的是,DNA复制所需要的酶有多种,教材中介绍的“DNA解旋酶”、“DNA聚合酶”只是其中主要的两种。)(3)DNA复制的场所在哪里?在什么时间进行的?(DNA复制的场所是细胞核,复制时间是在细胞有丝分裂的间期和减数第一次分裂的间期。)

教师还可结合教材经典实验中大肠杆菌的半保留复制图例,计算在第一代、第二代和第三代中含15N DNA分子的个数及所占比例,进一步强调DNA半保留复制的特点。(建议使用知识卡片:【知识解析】“图解法”分析DNA复制过程中的相关计算)

最后,教师可以让学生分析子代DNA与亲代DNA的碱基序列的特征,探讨DNA自我复制的生物学意义。正是由于DNA分子的这一复制过程,才使得亲代的遗传信息传递给子代,从而使前后代保持了一定的连续性。


师生共同完成下表:

DNA分子复制产生出与亲代相同的子代DNA分子。复制n次,得到2n个DNA分子,其中原亲代DNA分子的链有两条,新合成的链为2n+1-2个,在复制过程中,所需要某种碱基数为(2n -1)aa为DNA分子中某种碱基的数目。

三、课堂反馈

1.DNA的复制是在细胞的______分裂和______第一次分裂前的_____期进行的。复制是指以_____________为模板来合成____________的过程。复制特点是______________。复制过程必需以____________________为模板、_______________为原料、_______ 提供能量、_____的催化等条件,___________________为DNA的复制提供精确的模板、并有_____________能力保证复制能够准确无误地完成。一个亲代DNA分子通过复制形成了两个____________,新形成的DNA分子都是既含一条_____链、又含一条_______链,因此,称DNA的复制为“_________________”。

答案:有丝 减数 间 亲代DNA分子 子代DNA分子 边解旋边复制

亲代DNA分子一条链 脱氧核苷酸 ATP 酶 DNA分子双螺旋结构

碱基互补配对 结构完全相同的子代DNA分子 母 子 半保留复制

2.一个DNA分子经过3次复制后,保留有原来母链的子代DNA分子占全部子代DNA分子的比例为_______; 原来的母链占全部脱氧核苷酸链的比例为______。

A.1/2 B.1/4 C.1/8 D.1/16

答案:B C

3.一双链DNA分子在解旋时,一条链上的G变成C,则DNA分子经n次复制后,发生差错的DNA分子占( A )

A.1/2 B.1/(2n-1) C.1/2n D.1/(2n+1)

四、课堂小结

教师与学生一起小结本节知识,学生边讲教师边板书,或通过课件展示。

建球棍模型认识有机化合物分子结构的特点

【教学目标】

知识与技能:

1.加深对有机化合物分子结构的认识。

2.初步了解使用模型研究物质结构的方法。

过程与方法:

1.通过搭建球棍模型真正提高学生的思维能力,归纳碳原子的成键特征和各类烃分子中的化学键类型。

2.对同分异构体及同分异构现象有一个整体的认识,能准确判断同分异构体及其种类的多少。

情感态度与价值观:

1.体会物质之间的普遍性与特殊性。

2.认识到事物不能只看到表面,要透过现象看本质。

【教学重难点】

重点:了解使用模型研究物质结构的方法。

难点:归纳碳原子的成键特征和各类烃分子中的化学键类型,准确判断同分异构体及其种类的多少。

【教学过程】

一、实验原理

有机化合物分子的立体模型常用的有凯库勒模型和斯陶特模型。应用最广泛的是凯库勒模型。它用不同大小和不同颜色的圆球代表不同的原子或官能团,用木棍代表化学键,因此又称为球棍模型。

碳原子最外层有4个电子,不易失去或获得电子而形成阳离子或阴离子。碳原子通过共价键与氢、氧、氮、硫、磷等多种非金属形成共价化合物。科学实验证明,甲烷分子里,1个碳原子与4个氢原子形成4个共价键,构成以碳原子为中心,4个氢原子位于四个顶点的正四面体立体结构。键角均为109o28’。

键长:原子核间的距离称为键长,越小键能越大,键越稳定。

键角:分子中1个原子与另外2个原子形成的两个共价键在空间的夹角,决定了分子的空间构型。

键能:以共价键结合的双原子分子,裂解成原子时所吸收的能量称为键能,键能越大,化学键越稳定。

二、实验步骤

观察甲烷、乙烯、乙炔的球棍模型,思考碳原子的成键方式与分子的空间构型、键角有什么关系?

观察乙烷分子的模型

当碳原子与4个原子以单键相连时,碳原子与周围的4个原子都以四面体取向成键。

三、问题和讨论https://www.shimengyuan.com/nianji/2432.html

1.碳原子成键规律:

①当一个碳原子与其他4个原子连接时,这个碳原子将采取四面体取向与之成键。

②当碳原子之间或碳原子与其他原子之间形成双键时,形成双键的原子以及与之直接相连的原子处于同一平面上。

③当碳原子之间或碳原子与其他原子之间形成叁键时,形成叁键的原子以及与之直接相连的原子处于同一直线上。

④烃分子中,仅以单键方式成键的碳原子称为饱和碳原子;以双键或叁键方式成键的碳原子称为不饱和碳原子。

⑤只有单键可以在空间任意旋转。

2.二氯甲烷有同分异构体吗?

提示:因为甲烷空间结构为正四面体而不是平面型,所以二氯甲烷无同分异构体。

3.4个碳原子相互结合可能有多少种方式?https://www.renjiaoshe.com/jiaocai/2055.html

提示:碳原子间能相互结合成共价键(单键、双键、叁键……)可以形成碳链,也可以形成碳环。

验原理

假设检验的目标是拒绝原假设,它的核心是证伪。先假设原假设成立,然后计算原假设反面出现的概率,如果概率较大,则证明原假设不成立。

对于 A/B Test 来说, p值是在实验组和对照组没有差别这个前提成立的条件下,实验仍然检测到差异(即极端事件出现)的概率。如果 p值非常小,就拒绝原假设,认为实验组和对照组没有差别这个前提是错误的。那么怎么定义非常小?这时需要 显著性水平(significance level) 来做标尺。

需要注意的是,统计显著性不是实际显著性(Practical significance)。p值只能告诉你两个版本有没有差异,并不能说明实验组到底比对照组好了多少。举个例子,在某个A/B Test中,实验组相比对照组只有0.1%的提升, p=0.001,这说明这次实验是达到统计显著的,但是实验效果却只提升了0.1%。是否你会为了这0.1%的提升全量上线实验组方案,还需从成本等角度全面衡量一个实验的商业效果。因此不能仅凭统计显著性做决策。

实验误区

一类错误、二类错误和功效的定义如下:

H0:实验组之间无显著性差异

显著性水平 :误报,False Negative,I 类错误,即 H0 为真但拒绝了的概率,1 - 置信水平(confidence level)=显著性水平( , significance level);一般设定=5%

:漏报,False Positive, II 类错误,即 H0 为假但接受了的概率。样本量较小时,有增加漏报的可能(H0为假,但数据量少没有观测到),但是高功效需要更多的样本量,延长测试所需要的时间

统计功效 Power:H0为假且拒绝,即接受H1的概率

最小提升 lift : 差异越小,需要的样本量越多

基线转化率: Baseline越小,相同的提升度下,所需要的样本量越多

总结:当 p<alpha 时,得出拒绝 H0,接受 H1 的结论容易犯第二类错误,因此还需要结合 power 来看,即观察到 H0 为假这一判断成立的概率。

1、误解 p 值

p值并不是原假设事件发生的概率也不是拒绝原假设的概率,比如原假设为 Y1-Y2=0,p值并不是两者差异为0的概率(贝叶斯检验的概率是)。p值表示在原假设为真的条件下,比所得到的样本观察结果(检验统计量)更极端的结果出现的概率,如果概率小于alpha值,说明小概率事件发生,而我们认为小概率事件是不会发生的(或者说如果在原假设真实存在的条件下,不太应该出现这个事件,但是出现了该事件,那么更有可能是在备择假设存在的条件下产生的),那么就说明原假设错误。所以说 p 值说明不了任何事。它仅仅是以预期比较为基础的一种方法,帮助我们做出一个相对合理的决策。比如原假设一枚硬币是均匀的,但发现连续抛5次硬币都为正面,而这个事件(统计量)的概率为 小于0.05(alpha值,为极端值出现或小概率事件发生的最大概率),认为这是小概率事件,不可能发生,因此这是一枚不均匀的硬币。

2、缺乏统计功效

统计功效 power=p(拒绝H0|H0为假),解释为真实情况为H0为假时,观测结果能正确检测出来的概率,即为统计检验结果正确的‘拒绝零假设”(H0)的概率。因此当 p<alpha时,还需要看power是否达到一定的条件(样本量是否充足),才能判断是否有显著差异。因为结合上面对p值含义的解释可以发现,再微小的差异,达到足够大的样本量和测量精度,都能得到有统计学意义的P值;再大的差异,在样本量过小和测量精度不那么高的时候,也可能只能得到P>0.05。所以在实验研究中不应该唯P值是论,单看P值大小并不代表实际的差异大小,实际差异要看 effect size。实验预期是拒绝原假设,那么在实验开始前需要设定power的大小,反推出实验所需的样本量,当达到该样本量时,实验结论才会更准确。

假设检验的功效受以下几个因素影响:

样本量 (n):其他条件保持不变,样本量越大,功效就越大。

显著性水平 (α):其他条件保持不变,显著性水平越低,功效就越小。

两总体之间的差异:其他条件保持不变,总体参数的真实值和估计值之间的差异越大,功效就越大。也可以说,效应量(effect size)越大,功效就越大。

标准差:标准差越小,代表两组差异的趋势越稳定,越容易观测到显著的统计结果,功效越大。

统计功效的计算

原假设与备择假设如下:

令 ,按照二类错误的概念,假设 ,有

代表 A 组的样本数量, 代表 B 组的样本数量。K 为 与 的比值,这个值一般情况下,我们都默认为1,即 A、B 两组的用户数量相等,方便做严谨的AB实验对比。可以看到所需样本量大小与以下四个变量有关系,在其他三个变量都确定的情况下,统计功效与样本量成正比,因此通常在实验开始前计算达到功效需要多少样本量:

显著性水平 :显著性水平越低,对实验结果的要求也就越高,越需要更大的样本量来确保精度

统计功效 :统计功效意味着避免犯二类错误的概率,这个值越大,需要的样本量也越大

均值差异 :如果两个版本的均值差别巨大,也不太需要多少样本,就能达到统计显著

标准差 :标准差越小,代表两组差异的趋势越稳定。越容易观测到显著的统计结果

根据实验的预期结果确定实验所需最小流量,可以通过现有网站工具计算所需样本量:

https://www.evanmiller.org/ab-testing/sample-size.html

如果预期提升的指标是人均时长、人均收入等,需要运用 t 检验反算需要的样本量:

https://www.evanmiller.org/ab-testing/t-test.html

3、实验中窥视实验并下结论的后果

即实验中途查看实验结果并因此判断实验结论,造成实验结论犯第一类错误率提高。窥视实验结果对实验的有效统计意义会产生不利影响。它实际上大大增加了误报的可能性,并使置信区间不可信。

背景: 假设模拟两个方案的 10,000 个转化事件,其中两个方案的转化率均为 10%。由于转化率相同,因此进行实验时,应该检测到转化率提升度没有差异。

问题: 如果使用 95% 的置信水平,当收集所有 10,000 个观测值之后,测试结果为预期的 5% 误报率(I 类错误)。因此,如果我们运行 100 个这样的测试,则平均会得到 5 个误报(实际上在此示例中,所有的显著性结论都是错误的,因为两个方案之间的转化率没有差异,我们荏苒检测到具有统计意义的提升)。但是,如果我们在实验过程中进行 10 次评估(每 1,000 个观测值评估一次),结果会显示误报率高达 40%。对测试进行监控使出现误报的可能性增加了三倍以上!这是怎么回事?

原因: 如果使用 95% 的置信水平计算10次实验,总体误报率Pr(至少一个误报)=1- Pr(没有误报)=1 - 0.95^10=40% 则大约40%的概率会检测到一个或多个误报。

当检测到具有统计意义的结果时停止实验。但是,如果该结果不具有统计意义,则会继续测试。这种操作情况极易偏向于寻求显著差异的结果,这样就扭曲了测试的有效显著性水平。

如何解决? 要避免此问题,应该在开始测试之前,先确定足够的测试运行时间。虽然在测试过程中查看测试结果以确保测试正确运行是可以的,但在达到所需访客数量之前,请勿得出结论或停止测试。换言之,不要作弊。对于需要分段测试的实验,即分职业、年龄等属性分段查看实验结果,需要Bonferroni 校正。或设计序贯实验。

4、多组比较

主要有以下的场景:

查看对比多组实验的指标

在不同时间peeking

查看不同分组群的指标

重复实验结果对比

5、置信区间

误区:单独查看控制组和实验组的置信区间,如果重叠,那么无显著差异。但实际案例中delta有显著差异,依然能重叠 29%;

另一个关于置信区间的误区是,认为95%置信水平的置信区间有95%的概率包含真正的实验效应。置信度95%说的是我们有95%的自信能说出“实验组转化率相比对照组转化率高0.8-1.2%”这句话。从概率论的角度解释,就是在其他参数不变的情况下,如果我们重复做同样的实验100次,那么有95次得出的实验组和对照组的转化率差异都在0.8%-1.2%这个区间内。

6、内部有效性问题

违反SUTVA假设:即实验个体之间相互不影响,而社交网络、通讯网络、协同工具、双边市场、共享经济平台的个体都违反了SUTVA假设,因此一般采用聚类作为随机单元。

幸存者偏差:针对一段时间才活跃的用户实验,存在严重的幸存者偏差问题。

ITT(Intent to Treat):剔除不服从实验干预的用户,其实验结论将产生偏差。所以实验计算应该是从分配(assignment)开始,而不是真正执行了 treatment 的用户

SRM(Sample Ratio Mismatch): 实验组与对照组的用户数量在统计上与配置的比例不同。比如对照组和实验组各分配 50%的流量,结果对照组 821, 588 个用户,实验组 815, 482 个用户,比率为0.993,但是按照实验配置的比例应该为1.0,以上样本比率大于 0.993 的概率在 1.8E-6(p值),结论为按照实验1:1的流量配比而得到结果的概率为1.8E-6,因此有理由怀疑实验出现了bug,实验结论不可信。

SRM 成因:

随机化有问题

Data Pipeline 问题,比如数据收集问题

残留效应,指每个试验阶段对后一阶段的延滞作用。比如实验出现了bug,分析日期从修复好bug当天开始,一开始出现的bug会对用户有残留效应,就会出现 SRM 问题

不合适的触发 (trigger) 条件,实验触发的用户需要包含应被treat的用户,比如网站重定向问题

基于影响实验的属性作为触发条件,比如依据机器学习算法结果来触发,因为随着实验进行,模型会更新,且模型会持续受实验组的效应影响。

如何判断 SRM

需要使用统计检验,如卡方统计量检验SRM问题,以确定在实验变量中观察到的用户分布是否在统计上与配置的用户分布不同。使用的阈值是保守的,以减少假阳性的可能性: p值 <

如何debug SRM

验证随机化点或触发点上游没有差异

验证实验分配是否正确

检查data pipelines

检查实验各组是否没有一同开始,比如时段效应,不同时间段的活跃用户率不同,如果设置不同组的开始时间不同,那么会导致SRM

分组查看样本比例

按每天分组

按设备等维度分组

按新老用户等特征分组

https://mp.weixin.qq.com/s/fOdSUesYTOJT5MiTo3vLrA

7、外部有效性问题

外部有效性是指结论是否能延展到一般的场景。比如外推到其他国家,其他群体,或者说随着时间的推移,该结论是否会消失。一般后者的外部有效性困难较大,时间外部有效性问题一般为新奇效应和首因效应。

验证以上问题,可以画出关于指标的时间序列图,看指标在一开始时间是否有增加或下降。处理以上的问题,可以制定更合适的指标,比如次周留存率。或者增加实验的时间。

8、异质效应

不同群体的对比分析可以洞察更多,一般基于以下几种类型进行分层分析:

市场或者国家

设备或者平台

周内分天或者天内分小时效应

用户类型

用户账号特征

9、辛普森悖论

总体和分群体的指标趋势不一致,主要有以下几个情况:

用户采样不均匀,不同的场景各用户占比不一致

用户在某特征上的分布不均,比如在各个国家上的某些指标不相等

实验指标构建

实验平台的四个阶段:

爬(~10个/year):能实现实验分析

走(~50个/year):实验验证——A/A实验和SRM问题验证;定义标准指标

跑(~250个/year):规模化运行实验

飞(~成千/year):能完成自助分析,元分析

指标类型

目标指标:简单且口径较固定

评价指标:可操作性高、比目标指标更敏捷且直接影响目标指标,多为一些因果模型中的中间指标,比如在线时长、点击率等

护栏指标:验证型指标,验证实验运行的正确性;二是保护商业的一些预警指标;数据质量指标

评价指标必须能正面影响目标指标。一般我们只能通过潜在的 causal model 利用现有数据完成假设检验来找到评价指标,这里有一些方法来验证因果关系:利用一手数据,比如调研、焦点访谈和用户体验研究(UER)等用户研究方法,确定影响方向和显著性。

指标开发

用户研究相关方法探索 causal model 中的重要指标

考虑指标的质量,什么样的行为和口径更能衡量该指标

可解释性强

可以用多指标衡量同一事件,互相验证

指标的评估

常见且具有挑战的指标评估是建立从驱动指标到目标指标之间的因果关系,也就是说,驱动指标是否真的可以驱动目标指标,解决因果检验目前可以采用以下几种方式:

使用调研、用户访谈等收集一手数据来检验它们是否都指向同一方向

分析观测数据

使用行业内以有经验

以评估指标为主要目的运行线上实验

用历史实验集合做哦为“黄金”样例来评估新的指标

组合多个指标为一个OEC 指标

为什么需要?

如果只单单观测一个指标,会局限在短期收益;比如对于“给用户是否发送推荐邮件能否提高收益”,只观测收益会忽视邮件对用户带来的负面体验,因此需要同时观测收益和伤害体验的收益损失之和,来评判实验是否成功。

如何实行?

将指标标准化后加权组合为一个目标指标。或者限制指标数量到5个以内,至少看到一个指标显著的概率为1-(1-0.5)^k

如何决策?

如果所有关键指标不显著或者显著,且至少有一个指标显著,那么改版

如果所有关键指标不显著或者负向显著,且至少有一个指标负向显著,那么不改版

如果所有关键指标不显著,那么不改版。考虑增加实验统计功效

不同指标间的平衡,如果一个指标上升,一个指标下降,如何判断?上升的指标所上升价值是否能弥补下降指标的下降价值,可等价换算到同一指标上,看是否目标指标还能有提升。

观测性研究

为更好的提出假设、验证假设、保证外部有效性,可以使用user experience research、焦点小组、调查和观测性研究来辅助实验结论。

各方法的所需用户量和信息深度

1.日志研究——回顾性分析

确定指标的分布、各关键维度的指标不同分布区别、指标随时间的趋势特征;特征化潜在特征,探索指标间关系。缺陷:日志分析通常能大规模分析用户的行为但无法解释为什么会如此表现(user experience research可以)

观测性因果研究

当随机实验无法执行时,可以用观测性因果研究代替。观测性因果研究的挑战主要有:

如何构造控制组和实验组做对比

如何建立因果效应模型

观测性因果研究的相关模型如下:

Interrupted Time Series——贝叶斯结构时间序列分析模型,为田野实验设计,通过设计实验和对照组为相同的群体,测量两组群体随时间的变化的效应差异。

Interleaved experiments,评估排序模型的差异,Netflix设计了一个两阶段的线上测试过程(如图)。第一阶段利用被称为Interleaving的测试方法进行候选算法的快速筛选,从大量初始想法中筛选出少量“优秀的”Ranking算法。第二阶段是对缩小的算法集合进行传统的AB Test,以测量它们对用户行为的长期影响。

Regression Discontinuity Design

Instrumented Variables and Natural Experiments,工具变量大致等同随机实验的随机分配assignment,两阶段最小二乘法回归模型被用来评估效应。

Propensity Score Matching

Difference In Difference

构建实验平台

实验随机单元

“试验单元 (experiment unit)” 是接受 “处理” 的对象或实体。

页面层面:每个网页被视为一个随机单元

访问层面:一次session被视为一个随机单元

用户层面:单个用户被视为一个随机单元,用户可以是真实用户,也可以是一个loginID

对比理解这三个层面:

访问层面和页面层面的单位适合变化不易被用户察觉的实验,因为这样受用户干扰较少;而业务变化容易被用户察觉,尽量选用用户单元。

从用户层面到访问层面再到页面层面,实验单位颗粒度越来越细,相应地可获得的样本量越来越多

判断如何选择实验单元,要避免选取的实验单元会造成同一个用户被分到不同组

一般的,当期望实验的策略场景遭遇以下两种制约时,AB实验往往不能有效开展:

用户体验制约:一些较为敏感的全局策略,如价格调整、新产品上线等,往往需要考虑用户间体验公平性和用户长期体验的一致性。比如出行业务,AB实验导致两组司机定价不一致,这就造成用户体验的不公平性;又或者用户在早上9点看到产品的形态和下午2点不一样,这就和用户长期体验不一致。因此,当不同策略下用户的感知体验差异非常明显时不能开展AB实验。

样本数量制约:部分实验场景由于天然不可抗因素限制样本量非常小,样本量过小无法通过分流的方法开展AB实验。

核心原则:要求用户体验一致的实验场景以用户为样本单位;用户难以感知和分辨的实验场景以事件为样本单位。

因此,当决定随机单元时,需要考虑以下几个原则:

保证用户体验一致性,同一个用户不会进入两个组

实验单元和评价指标单元一致,否则两单元不一致,违反相互独立前提假设

保证前两个原则后,样本数量尽可能多

比如随机单元和分析单元应该一致,实验以页面层面为随机单元,那么实验指标就无法评估干预对用户会话量的影响。用户暴露在不同的分组里会违反独立单元干预假设(SUTVA),那么无法评估该干预的实验效应,因为不同的分组会干涉用户的界面和行为。比如广告竞拍的实验,可以随机化经常竞拍同一类广告的广告主或者广告主的聚类。社交网络平台的实验,为了最小化互相干扰的影响,可以随机化用户的聚类。

随机单元和分析单元

一般更推荐随机单元和分析单元(指标细化维度)一致,比如随机化page,意味着每个pv的点击都是独立的,所以计算点击率(点击/pv)这类均值的方差是标准的。如果随机化用户,那么分析指标也是每个用户的平均session量、每个用户的平均点击量等指标。

如果随机单元比分析单元更粗粒度,比如随机化用户,但分析点击率CTR(page-level)也可以,点击率指标计算有两种方式,一是直接总点击除以总pv,二是单个用户的总点击/总pv,然后算总平均CTR,第二种方式更能很好的避免极端值。但计算方差时容易忽略方差变量间的非独立性,因此需要 bootstrap 或者 delta 方法分析。但是随机单元比分析单元更细粒度,因为无法计算这样分析指标无意义。

user-level 随机化实验

user-level随机化实验能更好避免用户体验不一致的问题,适合用户留存等长期实验,使用user-level随机化实验需要注意:

可以跨设备、跨平台的用户登录id,因为不会随时间、随平台不同而变化

cookies id,比如ios的IDFA、Android的Android ID,这类id在不同平台会不一致,准确度不如用户id

设备ID只标记特定的设备,这类id在不同平台会不一致,准确度不如用户id

实验分析

1、保证实验分析前提的合理性

检验实验/对照组样本量比例,查看是否存在 SRM 问题(后面有具体的检验方法)

检验实验/对照组中特征分布,即可能影响评价指标的维度,其在两组中的分布比例。分布有差异可能会导致辛普森悖论问题

2、正态性假设,选择合适的统计检验方法

应用 T 检验的前提假设是统计量服从正态分布,有一个误区是认为指标 Y 服从正态分布,但其实是指标 Y 的均值(统计量的一种)在大数定理下(抽样分布在大数据下服从正态分布)服从正态分布,因此对于偏度较严重的抽样分布,需要适当增加样本量来满足大数定理中的“大数条件”。同时可以用 Kolmogorov–Smirnov and Anderson-Darling 统计检验分布是否满足正态要求。

如果无法满足正态要求,还可以进行正态转换,或者用 Bootstrap Methods、permutation test 等方法来检验小样本实验。也可以采取非参数检验方法(适用于中位数这类秩统计量),各检验方法适用的场景如下。

各非参数检验方法适用场景

3、判断显著性的两种方式(已满足统计功效要求)

p值法

置信区间法,判断区间是否包含0

4、实验方差估计

方差用来估计p值和置信区间,这里有一些估计方差时会遇到的陷阱:

vs %

详细推导过程:https://toutiao.io/posts/q660w08/preview

Ratio Metrics

当实验主体和分析主体不一致时,比率类的指标,比如转化率、点击率等,其分析主体不像用户平均收入、用户平均点击数指标为用户,而是pv或者click。传统计算方差的方法下有假设:样本间相互独立,当分析主体和实验主体一致时,那满足假设;但是对于user-level 指标,每个指标代表对单个用户的测度。对于page-level 指标,每个指标代表对单个页面的测度,实验主体为用户,但分析主体为单个page,虽然对用户随机分组,但有可能多个样本来自于同一个用户,那么样本间就非独立,计算目标指标时,应该先算出user-level的平均指标,然后再像普通的user-level指标一样计算分析。但是一般实验对点击率这类指标简单的处理方式是直接分母取实验中曝光uv数中点击uv数作为点击率(已去重)。

异常值

异常值对均值和方差有很大影响,尤其是增大了方差。在估计方差时需要移除异常值,最简单的方式是通过阈值直接移除异常样本。

5、Fisher's Meta-analysis

Meta 分析是运用定量方法去总结多个研究结果的系统评价,将若干个研究结果合并成一个单独数字估计的统计方法。以综合已有的实验发现为目的,对同一个问题的实验进行综合的统计分析方法。元分析的有用性:

对过去的实验可以总结出一些洞察,帮助巩固实验数据驱动文化

实验怎样提升组织目标

哪个团队的实验提升总和最大?用于评估团队贡献

指标优化,探索指标的适用性和指标关系

为后来的实验提供先验结论

实验洞察,为后续优化提供思路

实证研究,得出一般性结论(实验的随机化因子可以作为工具变量,因为跟自变量高度相关,与结果变量无关)

6、多重检验

针对多组比较检验时,因为1类错误提升,因此需要p值调整。比如有 A/B/C/D/E 五组,其中 A 为控制组,直接进行 4 组比较:A与B,A与C,A与D,A与E。在置信水平为 95% 时,Pr( 至少存在一个误报 )=1 - 95%^4=18.5%。使用此校正时,只需将显著性水平除以比较次数即可得出达到 95% 置信水平所需的显著性水平。在将邦弗朗尼校正应用于上述示例时将使用 5%/4=1.25% 的显著性水平,这等同于单次测试 98.75% (100% - 1.25%=98.75%) 的置信水平。在上述示例运行四个测试的情况下,这项调整会将有效置信水平维持在 95%。在多重假设检验中,我们一般不再关注每一次假设检验的准确性,而是控制在作出的多个统计推断中犯错误的概率,即 False Discovery Rate(FDR)。

什么时候会遇到多重检验问题:

当 A/B 测试有多个实验组

当 A/B 测试有多个评价指标

分不同维度去细分分析测试结果

在测试过程中不断查看实验结果

总结来说,就是需要多次检验而关注总体的犯错概率时,都是多重检验问题。

多组比较方法有:(解决前三种场景)

原理:调整 ,或者说调整 值

Bonferroni (FWER)校正

原理:假设一共有 组比较,每两两比较检验的 值都与 比较

特点:该方法虽然简单,但是检验过于严格,比如检验 1000 次,将阈值设定为 5%/1000=0.005%;最终使得预期犯错误的次数保持在 0.005%×1000=5%,不到 1 次,抹杀了一切假阳性的概率,导致最后找不到真正显著假阴性。