BloombergGPT 可以用于自然语言处理任务,如文本生成、文本分类、问答系统等。它可以理解金融术语和概念,并在金融领域提供准确的答案和预测。训练数据来自于彭博社的金融数据和新闻,以及其他公开数据集。它可以处理多种金融领域的任务,包括股票价格预测、金融事件影响分析、投资组合优化等。
1
BloombergGPT 的简介
彭博社在 3 月 30 日发布了一篇研究论文,详细介绍了一种新的大规模生成人工智能模型 BloombergGPT 的开发。这个大型语言模型(LLM)经过广泛的金融数据专门训练,以支持金融行业中各种各样的自然语言处理任务。BloombergGPT 是一种面向金融领域的大型语言模型,由彭博社开发。它是基于 GPT 系列模型的改进版本,针对金融领域进行了优化和训练。
文章介绍了 BloombergGPT,这是一种专门用于金融领域的大型语言模型(LLM)。该模型是在来自彭博社广泛金融数据源的 3630 亿 token 的庞大数据集上训练的,再加上来自通用数据集的 3450 亿 token。该论文解释了用于根据标准 LLM 基准、开放财务基准和一套最准确反映预期用途的内部基准来验证 BloomberGGPT 的建模选择、训练过程和评估方法。混合数据集训练可生成一个在不牺牲通用 LLM 基准测试性能的情况下显著优于现有财务任务模型的模型。
2
BloombergGPT 的性能
研究人员评估了 BloombergGPT 在两大类任务上的表现:金融特定任务和通用任务。
研究人员根据模型大小、训练数据类型、整体性能以及最重要的访问权限,将 BloombergGPT 与三个最接近的模型进行比较。
BloombergGPT 在金融任务方面的表现远超现有模型,并在通用场景中表现卓越。它在以下五项任务中的四项(ConvFinQA、FiQA SA、FPB 和 Headline)表现最佳。对于 ConvFinQA,这种差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。下面是这五项测试:
ConvFinQA 数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取的问题和答案,旨在测试对于金融领域相关问题的理解和推理能力。
FiQA SA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。
Headline 数据集包括关于黄金商品领域的英文新闻标题,标注了不同的子集。任务是判断新闻标题是否包含特定信息,例如价格上涨或下跌等。
FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。
NER,命名实体识别任务,针对从提交给 SEC 的金融协议中收集的金融数据,进行信用风险评估。
在四个内部特定的情感分析任务中,BloombergGPT 的表现比所有其他测试模型都要好,而且拉开了一定差距。
3
研究贡献
BloombergGPT 的开发,这是一种专门用于金融领域的大型语言模型,在不牺牲通用语言建模基准测试性能的情况下,它在财务任务方面的表现明显优于现有模型。
从彭博社广泛的金融数据源构建了一个包含 3630 亿token的庞大数据集,再加上来自通用数据集的 3450 亿token,这可能是迄今为止最大的特定领域数据集。
对用于在各种基准测试上验证 BloomberGGPT 的建模选择、训练过程和评估方法的解释。
演示混合数据集训练在开发专业语言模型方面的有效性。
虽然 Bloomberg 的研究团队经过考虑后决定不对外发布模型,原因在于大语言模型容易受到数据泄露的攻击,但是专业领域的 GPT 模型开发的经验和理解是宝贵的,可以分享出来。
4
未来的研究方向
考虑通过任务微调在财务领域实现模型协调的独特机会。
探索训练对减少偏见语言的影响。
继续与 BloombergGPT 一起开发金融应用程序,以进一步探索这些建模选择的好处。
论文地址:https://arxiv.org/abs/2303.17564,可以直接点击阅读原文跳转。
因为公众号平台更改了推送规则。如果你不想错过内容,记得点下“赞”和“在看”,这样,每次新文章推送,就会第一时间出现在你的订阅号列表里了~