热电偶,价格优惠,型号齐全,可按样品定做,竞技宝测速站地址_首页入口欢迎咨询选购。
始于2004年,专注温度压力流量领域特殊现场环境选型定制
全国咨询热线:010-52882318
联系我们

【 微信扫码咨询 】

您的位置: 首页 > 产品中心 > 热电偶

百川智能推出Baichuan2-192K大模型一次可输入35万个汉字

时间: 2024-01-06 20:44:44 |   作者: 热电偶

  10月30日音讯,百川智能发布Baichuan2-192K大模型。其上下文窗口长度高达192K,可处理约35万个汉字,是现在支撑长上下文窗口最优异大模型Claude2(支撑100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支撑32K上下文窗口,实测约2.5万字)的14倍。

  据悉,本年9月25日,百川智能已敞开了Baichuan2的API接口,正式进军企业级商场,敞开商业化进程。此次Baichuan2-192K将以API调用和私有化布置的方法提供给企业用户,现在百川智能现已发动Baichuan2-192K的API内测,敞开给法令、媒体、金融等职业的中心协作伙伴。

  上下文窗口长度是大模型的中心技能之一,经过更大的上下文窗口,模型可以结合更多上下文内容取得更丰厚的语义信息,更好的捕捉上下文的相关性、消除歧义,从而愈加精确、流通的生成内容,提高模型才能。

  此外,LongEval的评测成果为,在窗口长度超越100K后Baichuan2-192K仍然可以坚持十分微弱的功用,而其他开源或许商用模型在窗口增加后效果都呈现了近乎直线下降的状况。

  本次百川发布的Baichuan2-192K经过算法和工程的极致优化,完成了窗口长度和模型功用之间的平衡,做到了窗口长度和模型功用的同步提高。

  算法方面,百川智能提出了一种针对RoPE和ALiBi动态方位编码的外推计划,该计划可以对不同长度的ALiBi方位编码进行不同程度的Attention-mask动态内插,在确保分辨率的一起增强了模型对长序列依靠的建模才能。在长文本困惑度规范评测数据PG-19上,当窗口长度扩展,Baichuan2-192K的序列建模才能继续增强。

  工程方面,在自主开发的分布式练习结构基础上,百川智能整合现在商场上一切先进的优化技能,包含张量并行、流水并行、序列并行、重核算以及Offload功用等,首创了一套全面的4D并行分布式计划。该计划可以根据模型详细的负载状况,主动寻觅最适合的分布式战略,极大降低了长窗口练习和推理过程中的显存占用。

  百川智能在算法和工程上针对长上下文窗口的立异,不仅是大模型技能层面的打破,关于学术范畴相同有着重要意义。Baichuan2-192K验证了长上下文窗口的可行性,为大模型功用提高开辟出了新的科研途径。

  Baichuan2-192K现已正式敞开内测,以API调用的方法敞开给百川智能的中心协作伙伴,现已与财经类媒体及律师事务所等组织达成了协作,将Baichuan2-192K全球抢先的长上下文才能使用到了传媒、金融、法令等详细场景傍边,不久后将全面敞开。

  值得注意的是,Baichuan2-192K可以一次性处理和剖析数百页的资料,关于长篇文档要害信息提取与剖析,长文档摘要、长文档审阅、长篇文章或陈述编写、杂乱编程辅佐等实在场景都有助力效果。

  据介绍,它可以在必定程度上协助基金司理总结和解说财务报表,剖析公司的危险和机会;协助律师辨认多个法令文件中的危险,审阅合同和法令文件;协助技能人员阅览数百页的开发文档,并答复技能问题;还能协助科员人员快速阅读很多论文,总结最新的前沿发展。(一橙)