论文笔记 – An Explanation of In-context Learning as Implicit Bayesian Inference

这位更是重量级。这篇论文对于概率论学的一塌糊涂的我简直是灾难。

由于 prompt 的分布与预训练的分布不匹配（预训练的语料是自然语言，而 prompt 是由人为挑选的几个样本拼接而成，是不自然的自然语言🤪），作者设预训练的分布为 $p$ 而 prompt 的分布设为 $p_{prompt}$，因此作者认为这两种分布的不符可能是造成 inference 效果不佳的重要原因（$S_n$ 为 context）：

$$argmax_{y}\;p(y|S_n,\;x_{test})\;\neq argmax_{y}\;p_{prompt}(y|x_{test})$$

但是这种不匹配造成可以通过设置更好的 prompt 减弱，进而提出了 $singal$ 的概念，$singal$ 可以认为是一种任务的明确程度，$singal$ 越大代表任务越明确，得到的结果也准确，例如：一般情况下，One-shot 的效果要比 Few-shot 和 Zero-shot 都要差，例如下面的prompt ：

> Albert Einstein was a German. Marie Curie was <token to infer>

这个 context 根本没有明确任务是什么！按照 prompt 的分布这里应该生成的是 Polish，但是按照预训练的分布这里完全可以填 brilliant 什么的，也就是两种分布不匹配的程度被大大放大了。但是如果换成 Few-shot 呢：

> Albert Einstein was German. Mahatma Gandhi was Indian. Karl Heinrich Marx was German. Marie Curie was <token to infer>

这个 context 就很好的描述了任务的目的：判断这些人所属的国家。因此，作为 context 的样本数量增加可以有效增加 $singal$，缩小两种分布的不匹配程度，进而改善效果。

作者进一步总结了几个对 $singal$ 有影响的因素

样本数量

如上文所述，样本越多任务描述越清晰，$singal$ 越大。

输入空间

x 随便选的话会使准确率大幅度降低。

输出空间

y 随便选的话也会使准确率大幅度降低。

输入输出的对应关系

输出的标签在输出空间里面随机选取，对准确率有影响但是没有想象中那么大，进而证明了对 in-context learning 更重要的因素是任务描述，而不是提供的 prompt 是否正确（因为答案错误并没有影响这个任务的目的：情感分类）。

为了使用数学工具进行分析，作者将前文中提到的任务描述定义为 $\theta$，一篇自然语言预料可能包含多个不同的 $\theta \in \Theta$，而一个 prompt 只包含一个 $\theta^*$（例如你考虑你正在写一篇任务传记，你的任务顺序可能是：名字 $\to$ 国籍 $\to$ 职业 $\to$ 成就等包含多个任务，但是在 prompt 中任务顺序是：名字 $\to$ 国籍 $\to$ 名字 $\to$ 国籍 $\to$ 名字 $\to$ 国籍…，只在重复进行一个任务）（国籍 $\to$ 名字这个就是前文提到的分布不匹配，因为自然语言不会出现这样的分布，这种不匹配可以被有利因素补偿），同时我们认为 $\theta^* \in \Theta$（我们认为 icl 要做的任务一定在预训练的语料中出现过了）。

$$p(y|S_n,x_{test})=\int_{\theta} p(y|S_n,\;x_{test},\;\theta)p(\theta | S_n,\;x_{test})\, \mathrm{d}x$$

$$\propto\;\int_{\theta} p(y|S_n,\;x_{test},\;\theta)p(S_n,\;x_{test} | \theta)p(\theta)\, \mathrm{d}x \;\;\;\;(Bayes’\;rule,\;drop\;the\;constant\;\frac{1}{p(S_n,\;x_{test})})$$

$$\propto\; \int_{\theta} p(y|S_n,\;x_{test},\;\theta) \frac{p(S_n,\;x_{test} | \theta)}{p(S_n,\;x_{test} | \theta^*)} p(\theta)\, \mathrm{d}x\;\;\;\;(divided\;by\;a\;constant)$$

待补充。。。

原文地址：http://www.cnblogs.com/metaz/p/16807539.html

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！ 2. 分享目的仅供大家学习和交流，请务用于商业用途! 3. 如果你也有好源码或者教程，可以到用户中心发布，分享有积分奖励和额外收入！ 4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！ 5. 如有链接无法下载、失效或广告，请联系管理员处理！ 6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！ 7. 如遇到加密压缩包，默认解压密码为"gltf",如遇到无法解压的请联系管理员！ 8. 因为资源和程序源码均为可复制品，所以不支持任何理由的退款兑现，请斟酌后支付下载声明：如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性

论文笔记 – An Explanation of In-context Learning as Implicit Bayesian Inference

样本数量

输入空间

输出空间

输入输出的对应关系

排行榜展示

3D打印机glb模型下载-机械glb模型

树glb模型下载-树2

水稻glb模型下载-水稻1

变电箱1glb模型下载-机械glb模型

树glb模型下载-树3

模型

树glb模型下载-树1

水稻glb模型下载-水稻1

树glb模型下载-树2

树glb模型下载-树3

3D打印机glb模型下载-机械glb模型

变电箱1glb模型下载-机械glb模型