学习小组 加入小组

77个成员 915705个话题 创建时间:2022-10-12

毕节开餐饮住宿费加油费出租车*

发表于2024-04-11 130次查看

毕节开餐饮住宿费加油费出租车*.架未【6153.15.00】入住费用是旅客在入住期间产生的费用,包括房费、清洁费、热水费等。

1.涟源如何开具医药医疗费*中草药电子*.嘉伟【61ち3.1ち.〇〇】在开具医疗服务*之前,首先需要确认所提供的医疗服务内容。

2.穆棱哪里可以开住宿费票.架未【⒍15.⒊1.⒌00】使用增值税电子普通*系统开具电子*的纳税人,应于每月月底前及时向主管国税机关进行纳税申报,并按规定办理相关纳税申报。

3.临沂开餐饮住宿费加油费出租车*.架未【⒍15.⒊1.⒌00】电子*易保存,开出后就是唯一的,不能被篡改,*储存在手机、U盘等其他电子储存设备,需要时可以直接浏览、打印。

最近,谷歌又发布了另一款NLP机型,这个名字也叫"大鸟"!这只大鸟的特点是什么?在一次长时间的文字任务中,它的表现优于伯特?

谷歌最近推出了另一个引人注目的模式 Bigbird。

所有以前的刷牙伯特及其衍生版本的罗伯塔等,都是建立在变压器的基础上的。

这些模型的核心竞争力是完全机制,但这种机制会产生序列长度的二次依赖关系,如果输入令牌太长,它将支持内存,而在长文本和其他任务中,伯特512令牌似乎有点牵强。

二级抚养限制Bert

在Bert中,令牌的长度一般设置为512,这对于普通的NLP任务来说已经足够了,但如果您想要挖掘整篇或一本书,即长文本任务,则令牌的长度有点短。如果将令牌的长度更改为1024,所需的计算量将是原始任务的4倍,这对内存非常有害。

如果你能降低这个n^2的复杂性,你就可以在不爆炸内存的情况下实现一种长距离的上下文注意力机制,这就是BigBird必须做的事情。

谷歌团队解决这个问题的方法是引入一种新的稀疏注意力机制 Bigbird。

谷歌大鸟 稀疏的注意力机制

与传统的完全注意机制相比,Bigbird变得更加稀疏。作为一种较长的序列,转换器Bigbird不仅可以更长的上下文信息,而且还可以将计算的二次依赖性降低到线性。

让我们来看看Bigbird是如何建造的。

图A显示r≤2的随机注意机制,图B显示w≤3的局部注意机制,图C显示g≤2的全局注意机制,图D是这三者的Bigbird模型。

图中的空白部分表示,只有在没有被注意到的情况下,颜色部分才会引起注意,这有点像有选择地丢弃辍学。

如果音符的部分减少了,性能也会降低,那么让我们来看一下实验结果。

实验 三种注意机制的结合是最好的。

只有随机的注意机制,局部的注意机制,或者两者的融合,三者的结合效果并不好。

Global+R+W更接近Bert基础、MLM任务,而不是Bert基础、班组和MNLI任务,但考虑到内存中节省了大量资源,它具有实用价值。

使用基本模型,对下列四项问答任务进行了测试 HotpotQA、NaturalQA、TriviaQA和WikiHop。结果表明,Bigbird的表现优于Roberta和Longver。

从长远来看,Bigbird在Arxiv、PubMed、Big专利权方面也表现出了良好的潜力,并取得了最好的效果。

使用这些数据集,因为它们都是长文档,所以通过输入512多个令牌,比较长文本的特征提取功能和模型的总体性能比较容易。

Reddit上的一些网友质疑Bigbird是另一种"龙鸟",没有必要的创新。

一些网友说,最近爆发的GPT3也使用了稀疏的注意机制,但由于OpenAI块已经很长时间没有更新,所以不知道两者之间是否存在内在的相似性。

谷歌发表的一些研究以前已经提出过,但只有当谷歌发布时,它才能得到广泛的,而进入大工厂发表论文的可能性仍然很高。

期待大鸟给NLP任务带来新的惊喜!

发表回复
你还没有登录,请先 登录或 注册!