通过检索增强大语言模型提升金融情感分析

作者：Boyu Zhang, Hongyang (Bruce) Yang, Tianyu Zhou, Ali Babar, Xiao-Yang Liu

阿德莱德大学，哥伦比亚大学，布朗大学

发布日期：25 November 2023

摘要关键词 I. 引言 II. 背景和相关工作 A. 金融情感分析 B. 指令微调 C. 检索增强生成 III. 方法 A. 概述 B. 指令微调的LLM C. RAG模块 IV. 性能评估 A. 数据集 B. 模型训练 C. 基线模型 D. 评估和分析 V. 结论和未来工作参考资料

摘要

金融情感分析对于估值和投资决策至关重要。然而，传统的自然语言处理（NLP）模型由于其参数规模和训练数据集范围的限制，在这一领域的泛化能力和有效性方面存在不足。最近，预训练在大量语料库上的大型语言模型（LLM）因其出色的零样本能力在各种NLP任务中表现优异。然而，直接将LLM应用于金融情感分析仍面临挑战：LLM的预训练目标与预测情感标签的目标之间存在差异，这可能影响其预测性能。此外，金融新闻通常简洁且缺乏足够的背景信息，这会显著降低LLM情感分析的可靠性。为了解决这些问题，我们引入了一种用于金融情感分析的检索增强型LLM框架。该框架包括一个指令微调的LLM模块，该模块确保LLM作为情感标签预测器的行为，以及一个检索增强模块，该模块从可靠的外部来源检索附加上下文信息。与传统模型和ChatGPT及LLaMA等LLM相比，我们的方法在准确性和F1评分方面实现了15%到48%的性能提升。

关键词

情感分析，大型语言模型，指令微调，检索增强生成

I. 引言

金融情感分析是一种从金融文件、新闻文章和社交媒体内容中提取、量化和研究情感状态和主观信息的关键工具。其重要性在于其预测市场走势和提供投资者行为宝贵见解的潜力。鉴于市场反应通常受到新闻情绪的影响（正面、负面或中性），金融情感分析在帮助交易者和金融机构做出明智决策方面发挥着关键作用。它通过提供对市场情感潜流的细致理解，帮助管理风险和识别潜在投资机会。

近年来，许多研究转向NLP模型以提高金融情感分析的准确性和效率。然而，传统的NLP模型受限于其模型参数的限制和训练语料库的规模，往往缺乏全面理解复杂金融新闻的能力，从而限制了金融情感分析的效果。这些限制有时会导致金融情感分析任务的结果不理想。

相反，大型语言模型（LLM）的出现为NLP领域带来了新的时代。这些LLM由于在大规模多样语料库上的预训练，拥有强大的零样本学习能力。因此，它们在许多NLP任务中逐渐超越了其他模型，能够从其广泛的训练中泛化并从未见过的金融数据中得出有意义的见解。

然而，直接将LLM应用于金融情感分析面临两个显著挑战。首先，LLM预训练的目标函数与预测金融情感的目标之间的差异可能导致LLM无法一致地输出金融情感分析的预期标签。其次，金融情感分析的典型对象如新闻快讯和推文，通常简洁且缺乏足够的背景信息。这种信息的匮乏不仅干扰了人类专家的判断，也对大型语言模型的准确预测构成了重大挑战。

为了解决上述挑战，我们在研究中提出了一种检索增强的大型语言模型框架用于金融情感分析。该框架由两个关键组件组成：1）指令微调的LLM，这通过使用专为金融情感分析设计的指令实例集来微调LLM，使其预测与用户意图一致，从而显著提升预测准确性。2）检索增强组件，它为简短的新闻快讯或推文引入附加背景信息。它利用搜索引擎和经过验证的金融来源来收集相关背景信息。这些丰富的背景信息随后传递给指令微调的LLM进行预测，从而产生更准确和细致的结果。

通过在多个金融情感分析基准上的广泛评估，我们证明了与传统的小规模情感分析模型和通用LLM（如ChatGPT和LLaMA）相比，我们的方法明显优越。本文的主要贡献如下：

我们引入了一种新颖的检索增强大型语言模型框架，专为金融情感分析设计。通过整合外部知识检索，我们优化了输入LLM的信息的深度和上下文，确保了更细致和知情的预测。

我们的方法通过利用独特的指令实例集进行指令微调，重新校准LLM以更准确地响应用户意图的金融情感分析任务，显著提高了其预测准确性。

通过在已建立的基准上的广泛评估，我们证明了我们的方法在准确性和F1评分上比传统情感分析模型和著名的通用LLM表现更佳，性能提升了15%到48%。

本文的其余部分组织如下。第二部分简要回顾背景和相关工作。在第三部分，我们描述了包含两个模块的检索增强方法。在第四部分，我们从三个方面展示了性能评估。第五部分总结了本文工作并指出了未来工作的方向。

II. 背景和相关工作

A. 金融情感分析

金融情感分析一直是NLP研究中的一个重要领域，深度学习由于其有效的特征表示在其中得到了广泛应用。早期的方法包括在金融情感分析数据集上微调预训练模型，但它们在理解复杂的金融新闻，特别是包含数据信息或缺乏背景上下文的新闻方面面临挑战。

近年来，大型语言模型（LLM）成为NLP中一个有吸引力的选项。随着模型规模和训练数据的增加，LLM展示了在上下文学习和思维链推理方面的惊人能力，使它们能够以零样本方式进行预测。然而，诸如BloombergGPT和FinGPT等为金融领域量身定制的LLM由于其训练目标（通常是因果语言建模）与金融情感分析的目标不匹配，面临生成预期情感标签的困难。此外，金融情感分析通常处理简短的主题，如新闻快讯和推文，缺乏足够的背景信息。这种简洁性和上下文的不足对LLM构成了重大挑战，使得可靠的情感分析任务更加困难。

B. 指令微调

最新的LLM如GPT-3、LLaMA等采用因果语言建模进行训练，涉及在给定前文的情况下预测下一个标记。然而，这种训练方法引入了LLM输出中的随机性，导致结果可能并不总是符合预期。

为了解决这个问题并使LLM遵循特定指令，研究人员提出了一种称为指令微调的技术。它涉及在由自然语言呈现的格式化实例集合上微调预训练的LLM，旨在引导LLM遵循用户指令。这些实例通常采用任务描述及其对应的期望输出形式，通常由人类标记或半自动构建。通过这一过程，可以微调LLM，使其能够有效理解和执行特定指令，使其在需要控制和定向行为的各种应用中更加可靠。

C. 检索增强生成

检索增强生成（RAG）是一种将上下文检索和LLM用于语言生成的技术。RAG以两步过程运行。首先，它基于输入提示通过检索模块检索相关文档。这些文档通常来自外部知识库，如新闻来源、研究出版物和社交媒体，提供后续生成步骤的附加上下文。接下来，检索到的文档与原始输入提示结合并输入LLM，生成最终输出。通过RAG结合检索和生成，它能够利用两种不同的知识来源：存储在LLM参数中的参数记忆和从检索文档语料库中获得的非参数记忆。这种双重知识方法使RAG能够有效引导生成过程，产生更准确和上下文相关的响应。RAG在开放域问答和代码摘要等领域得到了广泛应用。

III. 方法

A. 概述

如图1所示，我们提出的框架由两个模块组成：指令微调的LLM和RAG模块。

在第一个模块中，我们通过指令微调来微调一个开源预训练LLM，如LLaMA和ChatGLM，使其行为与预测金融情感标签对齐。这一过程涉及构建一个特定于金融情感分析任务的指令实例数据集，并用它来微调预训练的LLM。

B. 指令微调的LLM

指令微调被证明是一种非常有效的方法，可以使LLM的行为与用户指令对齐，特别是在我们研究中，我们旨在预测金融情感标签。最近的研究表明，使用有限的指令跟随数据进行指令微调，能够显著提高LLM对用户指令的响应能力。

在金融情感分析领域应用指令微调通常包括三个步骤。首先，我们构建一个指令跟随数据集，该数据集包括配对的指令及其对应的预期响应——基本上是情感标签。该数据集作为指导LLM有效理解用户指令的基础。第二步是使用构建的数据集对LLM进行微调。通过这个微调过程，当提供指令预测情感标签时，模型学习生成预期响应的准确性。最后一步是将生成的输出映射回预定义的情感类别。这个步骤进一步使预测与预定义的情感类别对齐，并允许对模型性能进行可测量的评估。我们在下面详细介绍这些步骤。

格式化金融情感指令跟随数据集：通过人工标注创建一个金融情感指令跟随数据集需要金融专业人士的专门知识，这可能成本高昂。另一种方法是将现有的监督金融情感分析数据集转换为指令跟随数据集，以降低成本。通常，这些数据集被格式化为文本分类任务，其中输入是金融新闻或标题，输出是表示正面、负面和中性情感的整数类型标签。

按照上述方法，我们创建了10个人工编写的指令描述金融情感分析任务，并通过将一个随机选择的指令与原始数据集中的输入和输出结合，形成每个样本，格式为“Human: [指令] + [输入]，Assistant: [输出]”。这个过程如图2所示。

指令微调：指令微调涉及使用指令跟随数据集对预训练LLM进行微调。首先我们使用字节对编码（BPE）算法将文本标记化。然后我们使用因果语言建模（CLM）目标对LLM进行微调，该目标最大化在给定前文的情况下预测下一个标记的可能性。

指令微调：

指令微调涉及使用指令跟随数据集对预训练LLM进行微调。首先我们使用字节对编码（BPE）算法将文本标记化。然后我们使用因果语言建模（CLM）目标对LLM进行微调，该目标最大化在给定前文的情况下预测下一个标记的可能性。具体来说，对于一个给定的输入序列

𝑥={𝑥1,𝑥2,…,𝑥𝑛}，CLM目标是最大化以下似然函数：

其中，𝑤𝑡 是序列中的第 𝑡 个标记，𝑤<𝑡 表示 𝑤𝑡之前的所有标记，𝜃是模型参数。具体的梯度计算公式为：

将生成的输出映射到情感类别：由于指令微调后的LLM是一个自回归生成模型，即使我们使用指令跟随数据集进行训练来引导其输出朝向预期的情感标签，它仍有可能生成自由形式的文本。因此，我们需要将模型的输出映射回指定的三个情感类别以进行正确评估。我们的方法如下：我们依次检查输出结果是否包含“负面”、“中性”或“正面”。一旦找到一个术语，我们将其映射到相应的标签。否则，我们将其视为“中性”情感。

通过这些步骤，指令微调技术能够显著提高LLM在金融情感分析任务上的准确性和一致性，使其能够更好地响应用户指令并生成预期的情感标签。

C. RAG模块

RAG是一种有效的方法，通过注入外部知识来增强LLM的响应生成准确性。RAG模块的实现包括几个步骤。首先，我们设置外部知识源，这些源极有可能包含相关的金融背景信息。接下来，我们执行两步知识检索过程，包括多源知识查询和基于相似性的检索。这些步骤使我们能够收集与输入查询相关的上下文信息。最后，我们将原始输入查询与检索到的上下文结合，创建指令微调LLM的输入数据，生成最终结果。

设置外部知识源：在基于查询检索相关金融背景信息时，我们的目标是访问真实、相关、有见地且全面的数据，而不是随机的互联网搜索。为此，我们首先确定以下信息源：

新闻来源：著名媒体如Bloomberg、Yahoo Finance、Reuters、CNBC和Market Screener提供内在一致且对金融解释至关重要的信息。这些来源往往有严格的内部写作和报道指南，确保内容的可靠性和验证。此外，由于其运作性质，这些媒体通常会提供各种金融新闻的最早报告。
研究出版平台：集中的以及基于人群的研究出版平台提供了大量的金融见解。集中发布者如高盛和花旗提供专属研究服务Marquee和Velocity，主要面向其机构客户。由于其直接适用性，这些研究提供了高度一致、系统和验证的见解。基于人群的发布平台如Seeking Alpha作为独立贡献者的多样见解的存储库，涵盖了广泛的金融信息，包括大量的价格走势分析、收益电话会议和会议记录以及涉及各类公司的投资研究。所有这些来源都提供检索API，使我们能够访问和检索信息。
社交媒体平台：社交媒体平台如Twitter和Reddit已成为重要的金融信息来源。这些平台提供实时更新和讨论，有助于理解市场情绪和趋势。然而，这些平台上的信息可能高度不稳定且未经验证，需要仔细分析和与其他来源交叉引用。

两步知识检索：我们通过两步过程检索给定查询的上下文金融信息。

多源知识查询：金融新闻标题或推文通常简短，且往往包含无关内容如股票代码。为了解决这个问题，我们的第一步是使用正则表达式预处理文本，去除无关的股票代码或符号。随后，我们利用各种知识来源的检索API提取相关信息。如果新闻项目包含时间信息，我们会在该特定时间范围内进行搜索。搜索返回一系列相关上下文片段，这些片段来自已识别的金融来源。对于每个上下文片段，我们收集原始标题、编辑要点、文章正文段落、帖子和转发作为完整上下文。这个查询策略使我们能够捕捉与金融新闻相关的广泛信息。
基于相似性的检索：即使在初步检索之后，获得的内容仍可能包含大量无关信息，可能会干扰情感预测的准确性。为了解决这个问题，我们提出了一种基于相似性的高级检索算法，旨在进一步过滤和提取从第一步获得的最相关内容。具体来说，我们使用修改的重叠系数作为检索的相似性度量，并经验选择那些与输入查询相似度高于0.8的上下文。重叠系数也称为Szymkiewicz-Simpson系数，用于衡量两个样本之间的相似程度。在句子-上下文对相似性评估任务中，该系数衡量交集中的词数除以对的并集。公式如下：

其中X和Y分别表示来自查询句子和其上下文的金融相关标记集。

我们更喜欢使用Szymkiewicz-Simpson系数而不是语义相似性，主要有两个原因。在金融新闻中，特别是股票代码的精确匹配需求至关重要。该系数强调这种硬匹配，最小化无关检索。相比之下，语义相似性有时会错过特定金融术语的细微差别。此外，Szymkiewicz-Simpson系数能够巧妙地处理短文本与长文本匹配的挑战，确保相关新闻不会被文本长度所掩盖。整体两步知识检索算法如算法1所示。

IV. 性能评估

在本节中，我们评估指令微调和RAG的有效性。为了验证我们方法的性能，我们将其与最先进的情感分析模型和一些流行的LLM进行比较。我们的实验结果验证了我们方法的有效性。仅使用少量的指令跟随数据，我们的模型在情感分析中始终优于其他基线，其性能可以通过RAG模块进一步增强。实验代码可在Github上获得。

A. 数据集

训练数据集：我们的训练数据是Twitter Financial News数据集和FiQA数据集的结合，共有10501个样本。

Twitter金融新闻情感训练： 该数据集是涉及金融领域的新闻推文语料库，主要用于分类推特讨论中的金融情感。数据集包含9540个训练样本，每个样本标注为看跌、看涨或中性之一。
FiQA数据集： 该数据集包括961个样本。每个样本标注为正面、中性或负面之一，表示相应文本中传达的情感。

测试数据集：

Twitter金融新闻情感验证集（Twitter Val）： 这是Twitter数据集的验证集，包含2388个样本。它可以验证模型预测社交媒体上的金融情感的能力。需要注意的是，该平台经常缺乏新闻项目的明确来源和背景。
Financial PhraseBank（FPB）数据集： 该数据集包含从LexisNexis数据库中随机提取的4840个样本。样本由16位具有金融和商业背景的标注者进行标注，确保了高质量的标注。

对于上述所有数据集，我们使用第三方资源提供的类别标签和分布，确保一致性和可靠性。

B. 模型训练

我们使用Llama-7B作为基础模型，并在10个周期内进行指令微调。训练过程使用AdamW优化器，批量大小为32，初始学习率为1e-5，权重衰减为0.1。为了保持效率，我们将输入文本长度最大设为512个标记。我们利用DeepSpeed在8个A100（40GB）GPU上进行微调，总训练时间为58分钟。

C. 基线模型

BloombergGPT： BloombergGPT是一个拥有500亿参数的语言模型，训练于大量的金融数据。由于这是一个闭源模型，我们直接使用他们在FPB数据集上报告的性能。

ChatGPT： ChatGPT是OpenAI开发的最先进的闭源LLM。使用OpenAI的ChatGPT API进行情感分析包括四个步骤：API设置、使用指令跟随数据集准备数据、使用GPT-4.0 API进行请求以及解释响应中的直接情感输出。

Llama-7B： Llama-7B是由Meta创建的开源LLM，其训练语料库主要为英语。我们从Meta获得了Llama-7B模型。

ChatGLM2-6B： ChatGLM2-6B是清华大学开发的开源LLM，支持中英文。我们从Hugging Face Model Hub获得了ChatGLM2-6B模型。

FinBERT： FinBERT是一个金融情感分析模型，在预训练的BERT语言模型上进行了微调。FinBERT模型也可通过Hugging Face Model Hub获得。

D. 评估和分析

为了评估我们模型的性能，我们首先将指令微调的LLM与情感分析模型FinBERT和通用LLM进行比较，以验证指令微调的有效性。然后，我们比较了包括我们的LLM和基线模型在内的LLM有无RAG的性能，以进一步验证RAG的有效性。

性能指标： 我们模型的性能指标包括准确率和F1得分。准确率衡量正确预测的比例，F1得分表示精确率和召回率的调和平均值。

指令微调评估： 在本实验中，我们旨在验证指令微调的有效性，用“Ours”表示。比较分析是针对所有基线模型进行的。评估在Financial PhraseBank（FPB）和Twitter Val上进行。由于FinBERT使用了相同的数据集进行训练，我们在FPB上排除了FinBERT的比较。

数据集	指标	FinBERT	BloombergGPT	ChatGLM2-6B	Llama-7B	ChatGPT 4.0	Ours
FPB	准确率	-	-	0.474	0.601	0.643	0.758
FPB	F1	-	0.510	0.402	0.397	0.511	0.739
Twitter Val	准确率	0.725	-	0.482	0.544	0.788	0.863
Twitter Val	F1	0.668	-	0.381	0.363	0.652	0.811

表1的结果表明，我们的指令微调的Llama-7B模型表现优于其他模型，达到了最高的准确率和F1得分。指令跟随数据的微调过程增强了模型对金融短语情感的辨别能力，使其性能优于ChatGPT 4.0和原始Llama-7B模型。这些发现表明，指令微调方法显著提高了模型在金融情感分析中的表现。

RAG模块的性能： 我们在Twitter Val数据集上验证了RAG模块对我们指令微调模型和ChatGPT 4.0的有效性。表2的结果表明，引入RAG上下文将普遍提高LLM的性能，验证了检索到的上下文增强了信息，使LLM能够做出更准确的预测。特别是我们的模型在结合RAG后再次实现了最佳性能。

指标	ChatGPT 4.0 无RAG	ChatGPT 4.0 有RAG	Ours 无RAG	Ours 有RAG
准确率	0.788	0.813	0.863	0.881
F1	0.652	0.708	0.811	0.842

为了更好地展示RAG模块的有效性，我们在表3中展示了一个案例研究。最初，陈述的模糊性导致我们指令微调模型将其误分类为“中性”。通过RAG，我们使用Seeking Alpha的信息扩充了上下文，将“shakes off”解释为评级升级，这帮助我们的模型正确地重新分类为“正面”。这展示了RAG增强模型理解能力，并提供了对新闻标题情感的更细致理解。

文本	结果
无RAG	$ENR - Energizer shakes off JPMorgan’s bear call.
有RAG	“Energizer shakes off JPMorgan’s bear call. JPMorgan hikes Energizer Holdings (NYSE) to a Neutral rating from Underweight... We came away encouraged by some of the company’s initiatives and believe their focus on innovation and brand investment can lead to relative outperformance going forward... Shares of Energizer are 0.46% premarket to $50.44.”

V. 结论和未来工作

总之，本文提出了一种新颖的检索增强大型语言模型框架，专为金融情感分析设计。我们独特的指令微调方法重新校准LLM以更准确地响应用户意图的金融情感分析任务，显著提高了其预测准确性。外部知识检索的整合进一步丰富了输入LLM的信息的深度和上下文，使其能够做出更细致的预测。

然而，我们方法的一个局限是仅依赖文本相似性来检索相关信息。这种方法忽略了与新闻时间相关的重要宏观经济信息以及与相关企业财务和运营状况相关的微观经济信息。结合这些经济数据可以提供更全面的视角，使LLM能够做出更准确的判断。未来的工作可以探索将这些附加的经济维度与文本数据相结合，以进一步提高大型语言模型进行金融情感分析的精度和可靠性。

参考资料

1. [1] GartnerGlossary,“Definitionofsentimentanalysis-financeglossary gartner,” 2023. 2. [2] Dogu Araci, “FinBERT: Financial sentiment analysis with pretrained language models,” in arXiv preprint arXiv:1908.10063, 2019. [3] Yi Yang, Mark Christopher Siy Uy, and Allen Huang, “Finbert: A pretrained language model for financial communications,” arXivpreprint arXiv:2006.08097, 2020. [4] Sahar Sohangir, Dingding Wang, Anna Pomeranets, and Taghi M Khoshgoftaar, “Big data: Deep learning for financial sentiment analysis,” Journal of Big Data, vol. 5, no. 1, pp. 1–25, 2018. [5] Min-Yuh Day and Chia-Chou Lee, “Deep learning for financial sentiment analysis on finance news providers,” in IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE, 2016, pp. 1127–1134. [6] Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, and Gideon Mann, “BloombergGPT: A large language model for finance,” arXiv preprint arXiv:2303.17564, 2023. [7] Hongyang Yang, Xiao-Yang Liu, and Christina Dan Wang, “Fingpt: Open-source financial large language models,” arXiv preprintarXiv:2306.06031, 2023.

[8] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al., “Training language models to follow instructions with human feedback,” Advances in Neural Information Processing Systems, vol. 35, pp. 27730–27744, 2022.

[9] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothe ́e Lacroix, Baptiste Rozie`re, Naman Goyal, Eric Hambro, Faisal Azhar, et al., “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.

[10] Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al., “Lamda: Language models for dialog applications,” arXiv preprint arXiv:2201.08239, 2022.

[11] Pekka Malo, Ankur Sinha, Pekka Korhonen, Jyrki Wallenius, and Pyry Takala, “Good debt or bad debt: Detecting semantic orientations in economic texts,” Journal of the Association for Information Science and Technology, vol. 65, no. 4, pp. 782–796, 2014.

[12] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Ku ̈ttler, Mike Lewis, Wen-tau Yih, Tim Rockta ̈schel, et al., “Retrieval-augmented generation for knowledge-intensive nlp tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020.

[13] TomBrown,BenjaminMann,NickRyder,MelanieSubbiah,JaredD Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al., “Language models are fewshot learners,” Advances in neural information processing systems, vol. 33, pp. 1877–1901, 2020.

[14] Renze Lou, Kai Zhang, and Wenpeng Yin, “Is prompt all you need? no. a comprehensive and broader view of instruction learning,” arXiv preprint arXiv:2303.10475, 2023.

[15] Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le, “Finetuned language models are zero-shot learners,” in International Conference on Learning Representations, 2022.

[16] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al., “Multitask prompted training enables zeroshot task generalization,” arXiv preprint arXiv:2110.08207, 2021.

[17] YizhongWang,YeganehKordi,SwaroopMishra,AlisaLiu,NoahA Smith, Daniel Khashabi, and Hannaneh Hajishirzi, “Self-instruct: Aligning language model with self generated instructions,” arXiv preprint arXiv:2212.10560, 2022.

[18] Deng Cai, Yan Wang, Lemao Liu, and Shuming Shi, “Recentadvances in retrieval-augmented text generation,” in Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2022, pp. 3417–3419.

[19] Yuning Mao, Pengcheng He, Xiaodong Liu, Yelong Shen, Jianfeng Gao, Jiawei Han, and Weizhu Chen, “Generation-augmented retrieval for open-domain question answering,” arXiv preprint arXiv:2009.08553, 2020.

[20] Shangqing Liu, Yu Chen, Xiaofei Xie, Jingkai Siow, and Yang Liu, “Retrieval-augmented generation for code summarization via hybridgnn,” arXiv preprint arXiv:2006.05405, 2020.

[21] Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, and Kai-Wei Chang, “Retrieval augmented code generation and summarization,” arXiv preprint arXiv:2108.11601,2021.

[22] Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, et al., “Glm-130b: An open bilingual pre-trained model,” arXiv preprint arXiv:2210.02414, 2022.

[23] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto, “Stanford alpaca: An instruction-following llama model,” https://github.com/tatsu- lab/stanford alpaca, 2023.

[24] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing, “Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality,” March 2023.

[25] Boyu Zhang, Hongyang Yang, and Xiao-Yang Liu, “Instruct-fingpt: Financial sentiment analysis by instruction tuning of general-purpose large language models,” arXiv preprint arXiv:2306.12659, 2023.

[26] Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, and Ji-Rong Wen, “A survey of large language models,” 2023.

[27] Rico Sennrich, Barry Haddow, and Alexandra Birch, “Neural machine translation of rare words with subword units,” arXiv preprint arXiv:1508.07909, 2015.

[28] Paul J Werbos, “Generalization of backpropagation with application to a recurrent gas market model,” Neural networks, vol. 1, no. 4, pp. 339–356, 1988.

[29] M.K.Vijaymeena1andK.Kavitha,“Asurveyonsimilaritymeasures in text mining,” Machine Learning and Applications, 2016.

[30] Vipula Rawte, Aparna Gupta, and Mohammed J Zaki, “A comparative analysis of temporal long text similarity: Application to financial documents,” in Workshop on Mining Data for Financial Applications. Springer, 2020, pp. 77–91.

[31] NeuralMagic,“Twitterfinancialnewssentiment,”http://precog.iiitd. edu.in/people/anupama, 2022.

[32] Macedo Maia, Siegfried Handschuh, Andre Freitas, Brian Davis, Ross McDermott, Manel Zarrouk, and Alexandra. Balahur, “Www ’18: Companion proceedings of the the web conference 2018,” in International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, CHE, 2018.

[33] Ilya Loshchilov and Frank Hutter, “Fixing weight decay regulariza- tion in adam,” arXiv preprint arXiv:1711.05101, 2017.

[34] Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, and Yuxiong He, “Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters,” in Association for Computing Machinery, New York, NY, USA, 2020, KDD ’20, p. 3505–3506.