ITCOW牛新网 6月20日消息,哔哩哔哩(B站)昨日宣布开源其研发的轻量级Index-1.9B系列模型,这标志着公司在人工智能技术领域迈出了重要一步。该系列模型包含多个版本,包括基座模型、对照组、对话模型和角色扮演模型,各具特色,满足不同应用场景的需求。


Index-1.9B base作为基座模型,拥有19亿非词嵌入参数量,经过2.8T中英文为主的语料预训练,表现出在多个评测基准上的领先地位。而Index-1.9B pure作为对照组,与基座模型参数和训练策略相同,但所有指令相关数据被严格过滤,用以验证指令对benchmark的影响。
Index-1.9B chat版本则在SFT(Supervised Fine-Tuning)和DPO(Dialogue Policy Optimization)对齐后,特别强化了对话能力,尤其在引入互联网社区语料后,聊天的趣味性得到了显著提升。更引人注目的是Index-1.9B character模型,它在SFT和DPO的基础上引入了RAG(Retrieval-Augmented Generation),实现了fewshots角色扮演定制,为用户带来了更为丰富的互动体验。
据ITCOW牛新网了解,该系列模型在预训练阶段使用了2.8T规模的数据,中英比例为4:5,代码占比6%。模型内置了角色“三三”,用户也可以根据自己的需求创建个性化的角色。
附B站Index-1.9B系列模型项目地址:https://github.com/bilibili/Index-1.9B/blob/main/README.md