当前位置: 当前位置:首页 > 姜征 > 非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1 正文

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

2024-09-17 03:36:14 来源:轻松工作网 作者:济宁市 点击:237次

这次春夏航季一共将运营25个从上海及深圳母港出发、架构航程长短不一的精彩航次。

卡尼曼在《思考,站起注意快与慢》中特别提到了参照系(referenceclass)这个概念,站起注意就是要针对人们普遍认为自己的项目是独一无二的,或者预估未来工作的时候出现锚定错误的问题。这时候需要分两步走,纯无超剔除肥尾之外的情况,算出平均数作为起步的参照系,同时对可能出现的异常现象做好预案。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

复杂大项目需要找到现实中的参照系复杂大项目很多时候被认为是独一无二的,模型根本没有参照系,也因此无法做好准备和规划。问题恰恰出在这里,架构很多领导者在做出大决定的时候,架构并不会花上太多的时间,很可能利用系统1,按照自己的直觉来做决策,而且一旦决定了也不会再花时间思考,原本应该仔细思考、权衡各种可能选项的流程变成了拍板会。同样,站起注意成熟的设计、模块化可复制的设计也是如此。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

纯无超参照系还体现了兼顾外部视角与内部视角的重要性。模型计划赶不上变化就是这个意思。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

真正想要让大项目按时、架构按预算完成,使用经过考验的设计和技术更稳妥,因为经验中有封装的智慧,会减少意外的发生。

虽然帝国大厦一度是全世界最高的摩天大楼,站起注意但它并没有为了争得第一在建设时就冒冒失失地选择新技术。如果要让奥运会不给举办城市带来债务风险,纯无超最好的办法就是选定在同一个城市持续举办奥运会,纯无超这样不仅场馆每4年就能重复利用,而且还可能不断传承举办大型体育盛会的组织经验,事半功倍,而不用每次都是新手操盘,面临陡峭的学习曲线。

但有些时候却是肥尾分布的,模型这时就需要非常小心,因为肥尾意味着异常点很多,比如蒙特利尔奥运会的实际花销约是预算的7倍,高得离谱。一个项目拖的时间越长,架构不可控因素出现的概率就越大,项目拖延、遇到阻碍、资金链断裂等一系列问题都会给项目的完工造成影响。

大项目经常会被用来标新立异,站起注意一方面希望最大、最高、最长,刷新世界纪录,另一方面也希望尝试新设计、新技术。在大多数情况下,纯无超大项目不应追求第一、最大、最长、最高

作者:长沙市
------分隔线----------------------------
头条新闻
图片新闻
新闻排行榜