FinBERT：使用预训练语言模型进行金融情感分析

原文：Dogu Tan Araci 阿姆斯特丹大学

Submitted on 27 Aug 2019

原文链接：

https://arxiv.org/abs/1908.10063

https://arxiv.org/pdf/1908.10063

摘要

金融情感分析由于语言的专业性和标注数据的缺乏，是一项具有挑战性的任务。通用模型在金融上下文中的效果不够理想，因为金融文本使用了专门的语言。我们假设预训练的语言模型可以帮助解决这个问题，因为它们需要更少的标注示例，并且可以进一步在领域特定的语料库上进行训练。我们引入了基于BERT的金融语言模型FinBERT，以解决金融领域的自然语言处理任务。我们的结果显示，在两个金融情感分析数据集上，FinBERT在所有测量指标上都优于当前的最先进结果。我们发现，即使使用较小的训练集并仅对部分模型进行微调，FinBERT仍然优于最先进的机器学习方法。

1 引言

在开放市场中，价格反映了经济中交换资产的所有可用信息。当有新信息出现时，经济中的所有参与者会更新他们的立场，价格也会相应调整，这使得持续超越市场变得不可能。然而，随着新信息检索技术的出现，“新信息”的定义可能会发生变化，早期采用这些技术可能会在短期内提供优势。

分析金融文本，如新闻、分析师报告或公司公告，是获取新信息的一个可能来源。每天都有大量此类文本被创建，手动分析这些文本并从中提取可操作的见解对于任何单一实体来说都是一项过于庞大的任务。因此，使用自然语言处理（NLP）方法对金融文本进行自动化的情感或极性分析在过去十年中变得越来越受欢迎。

本论文的主要研究兴趣是极性分析，即在特定领域内将文本分类为正面、负面或中性。这需要解决两个挑战：1）使用神经网络的最复杂的分类方法需要大量标注数据，而标注金融文本片段需要高昂的专业知识费用。2）在一般语料库上训练的情感分析模型不适合这个任务，因为金融文本具有独特的词汇和倾向于使用模糊的表达，而不是容易识别的负面/正面词汇。

虽然精心设计的金融情感词典如Loughran和McDonald（2011）可能看似解决方案，因为它们将现有的金融知识纳入文本分析中。然而，这些方法基于“词计数”方法，在分析给定文本的更深层语义意义时显得不足。

NLP迁移学习方法看起来是解决上述两个挑战的一个有希望的解决方案，也是本论文的重点。这些模型的核心思想是，通过在非常大的语料库上训练语言模型，然后使用从语言建模任务中学习到的权重初始化下游模型，可以实现更好的性能。这种初始化层可以从单个词嵌入层到整个模型。这种方法理论上应该能解决标注数据稀缺的问题。语言模型不需要任何标签，因为任务是预测下一个词。它们可以学习如何表示语义信息。微调标注数据只是学习如何使用这些语义信息来预测标签的任务。

迁移学习方法的一个特别组成部分是能够在特定领域的未标注语料库上进一步预训练语言模型。因此，模型可以学习目标领域文本中的语义关系，这些关系可能与一般语料库有很大不同。这种方法对于像金融这样的利基领域尤其有前景，因为使用的语言和词汇与一般领域有很大不同。

本论文的目标是测试使用和微调预训练语言模型在金融领域中的假设优势。为此，我们将尝试使用由Malo等人（2014）创建的Financial PhraseBank和FiQA Task 1情感评分数据集预测金融新闻文章中对金融实体的句子的情感。

本论文的主要贡献如下：

我们引入了FinBERT，这是一个基于BERT的金融NLP任务语言模型。我们在两个金融情感分析数据集上评估了FinBERT。

我们在FiQA情感评分和Financial PhraseBank上实现了最先进的结果。

我们实现了另外两个预训练语言模型ULMFit和ELMo用于金融情感分析，并与FinBERT进行了比较。

我们进行了实验，研究了模型的几个方面，包括：在金融语料库上进一步预训练的效果、防止灾难性遗忘的训练策略以及仅微调模型的一个小子集以减少训练时间而不显著降低性能。

论文的其余部分结构如下：首先，讨论了金融极性分析和预训练语言模型的相关文献（第2节）。然后，描述了评估的模型（第3节）。接下来是对实验设置的描述（第4节）。在第5节中，我们展示了金融情感数据集上的实验结果。然后在第6节中从不同角度进一步分析了FinBERT。最后在第7节中得出结论。

2 相关文献

2.1 金融情感分析

情感分析是从书面语言中提取人们情感或意见的任务。我们可以将最近的努力分为两组：1）使用“词计数”方法从文本中提取特征的机器学习方法，2）将文本表示为嵌入序列的深度学习方法。前者无法表示由特定词序列产生的语义信息，而后者由于学习的参数更多，通常被认为过于“数据饥饿”。

金融情感分析不仅在领域上不同于一般情感分析，而且在目的上也有所不同。金融情感分析背后的目的是猜测市场将如何对文本中呈现的信息做出反应。Loughran和McDonald（2016）对利用机器学习的“词袋”方法或词典方法进行金融文本分析的最新工作进行了详细调查。例如，在Loughran和McDonald（2011）中，他们创建了一个金融术语词典，并为这些术语分配了“正面”或“不确定”等值，通过计数具有特定词典值的词来衡量文档的语气。另一个例子是Pagolu等人（2016），他们将包含金融信息的推文中的n-gram输入监督机器学习算法，以检测提及的金融实体的情感。

Kraus和Feuerriegel（2017）是最早将深度学习方法应用于文本金融极性分析的论文之一。他们应用LSTM神经网络对特定公司公告进行预测股市走势，并显示这种方法比传统的机器学习方法更准确。他们发现，将模型预训练在较大语料库上可以改善结果，但他们的预训练是基于有标签的数据集，这比我们的限制更大，因为我们是在无监督任务中预训练语言模型。

还有其他几篇论文使用不同类型的神经架构进行金融情感分析。例如，Sohangir等人（2018）在StockTwits数据集上应用了几种通用的神经网络架构，发现CNN是表现最好的神经网络架构。Lutz等人（2018）采用了doc2vec生成特定公司公告中的句子嵌入，并利用多实例学习预测股市结果。Maia等人（2018）使用文本简化和LSTM网络的结合来根据情感分类金融新闻中的句子，并在Financial PhraseBank上取得了最先进的结果，这也是本文中使用的数据集。

由于缺乏大规模的标注金融数据集，利用神经网络进行情感分析面临挑战。即使其第一个（词嵌入）层是用预训练值初始化的，模型的其余部分仍然需要通过相对较少的标注数据学习复杂的关系。更有前景的解决方案可能是使用预训练值初始化几乎整个模型，并通过分类任务微调这些值。

2.2 使用预训练语言模型进行文本分类

语言建模是预测给定文本中下一个词的任务。自然语言处理的一个重要进展是，训练语言模型的模型可以通过少量修改成功地微调用于大多数下游NLP任务。这些模型通常在非常大的语料库上进行训练，然后通过增加适当的任务特定层在目标数据集上进行微调。文本分类是本文关注的一个显著用例。

ELMo（Embeddings from Language Models）是这种方法的早期成功应用之一。ELMo使用深层双向语言模型在大型语料库上进行预训练。对于每个词，模型的隐藏状态用于计算上下文化的表示。使用ELMo的预训练权重，可以为任何文本计算上下文化的词嵌入。下游任务的初始化嵌入与静态词嵌入如word2vec或GloVe相比，性能有显著提高。对于SST-5这样的文本分类任务，与双注意分类网络一起使用时，实现了最先进的性能。

虽然ELMo使用预训练的语言模型来上下文化表示，但这些信息仅存在于任何使用它的模型的第一层。ULMFit（Universal Language Model Fine-tuning）是第一个实现NLP真正迁移学习的论文，通过使用新的技术如判别性微调、斜三角学习率和逐步解冻。他们能够有效地微调整个预训练语言模型进行文本分类。他们还提出了在领域特定语料库上进一步预训练语言模型，假设目标任务数据与初始模型训练的通用语料库有不同的分布。

ULMFit的主要思想是有效地微调预训练语言模型进行下游任务，BERT将其带到了另一个水平，也是本文的主要焦点。BERT与之前的不同之处在于：1）它定义了语言建模任务为预测序列中随机掩码的词，而不是下一个词，以及一个任务是分类两句话是否互相接续。2）它是一个非常大的网络，在前所未有的大语料库上进行训练。这两个因素使其在多个NLP任务上实现了最先进的结果，如自然语言推理或问答。

微调BERT进行文本分类的具体细节尚未被彻底研究。最近的一项研究是Sun等人（2019）。他们进行了系列实验，研究不同的BERT配置进行文本分类。我们将在论文的其余部分引用他们的一些结果，用于配置我们的模型。

3 方法

本节将介绍我们在金融领域的BERT实现FinBERT，并简要介绍相关的神经架构。

3.1 预备知识

3.1.1 LSTM

长短期记忆（LSTM）是一种递归神经网络，它通过使用“遗忘”和“更新”门允许序列中的长依赖关系在网络中持续存在。它是建模任何序列数据生成过程的主要架构之一，从股价到自然语言。由于文本是标记的序列，任何LSTM自然语言处理模型的第一个选择是确定如何最初表示单个标记。使用预训练权重进行初始标记表示是常见做法。一个这样的预训练算法是GLoVe（Global Vectors for Word Representation）。GLoVe是一种通过在大语料库的词共现矩阵上训练对数双线性回归模型来计算词表示的模型。它是一个有效的词向量表示模型，但它不会在词序列中上下文化这些表示。

3.1.2 ELMo

ELMo嵌入是上下文化的词表示，这意味着周围的词会影响词的表示。ELMo的核心是一个具有多个LSTM层的双向语言模型。语言模型的目标是学习给定词汇表中序列标记的概率分布。ELMo模型的是根据序列中的前后标记来建模标记的概率。然后模型还学习如何对来自不同LSTM层的不同表示进行加权，以计算每个标记的上下文化向量。一旦提取了上下文化表示，可以用这些表示初始化任何下游NLP任务。

3.1.3 ULMFit

ULMFit是一个用于下游NLP任务的迁移学习模型，利用语言模型预训练。与ELMo不同，使用ULMFit，整个语言模型与任务特定层一起进行微调。ULMFit中的基础语言模型是AWD-LSTM，它使用复杂的dropout调整策略来更好地正则化其LSTM模型。为了使用ULMFit进行分类，预训练的AWD-LSTM的输出层添加了两个线性层，第一层接受池化后的最后隐藏状态作为输入。

ULMFit引入了一些新颖的训练策略来进一步在领域特定语料库上预训练语言模型，并在下游任务上进行微调。我们在FinBERT中实现了这些策略。

3.1.4 Transformer

Transformer是一种基于注意力的架构，用于建模序列信息，是递归神经网络的替代方案。它最初被提出为一个序列到序列模型，因此包括编码器和解码器机制。这里我们将重点放在编码器部分（尽管解码器非常相似）。编码器由多个相同的Transformer层组成。每层有一个多头自注意力层和一个完全连接的前馈网络。对于一个自注意力层，学习了三个从嵌入的映射（键、查询和值）。使用每个标记的键和所有标记的查询向量，通过点积计算相似度分数。这些分数用于加权值向量，以到达标记的新表示。通过多头自注意力，这些层被连接在一起，从而可以从不同的“角度”评估序列。然后结果向量通过共享参数的完全连接网络。

正如Vaswani（2017）所论证的那样，Transformer架构相对于基于RNN的方法有几个优点。由于RNN的序列性质，在GPU上很难并行化，序列中相距较远的元素之间的太多步使信息难以持续。

3.1.5 BERT

BERT实质上是一个由一组堆叠在一起的Transformer编码器层组成的语言模型。然而，它定义了不同于ELMo和AWD-LSTM的语言建模任务。BERT不是在给定之前的词来预测下一个词，而是随机掩码序列中的15%的标记。通过在最后一个编码器层上进行softmax层进行词汇的掩码标记预测。BERT训练的第二个任务是“下一个句子预测”。给定两个句子，模型预测这两个句子是否互相接续。

输入序列通过标记和位置嵌入来表示。序列的开头和结尾分别添加了两个标记[CLS]和[SEP]。对于所有分类任务，包括下一个句子预测，使用[CLS]标记。

BERT有两个版本：BERT-base有12个编码器层，隐藏大小为768，12个多头注意力头，共110M参数；BERT-large有24个编码器层，隐藏大小为1024，16个多头注意力头，共340M参数。这两个模型都在BookCorpus和英语维基百科上进行训练，这两个语料库总共超过3,500M词。

3.2 针对金融领域的BERT：FinBERT

在本节中，我们将描述BERT的实现：1）在领域语料库上进一步预训练的过程，2-3）我们如何实现BERT用于分类和回归任务，4）我们在微调期间使用的防止灾难性遗忘的训练策略。

3.2.1 进一步预训练

Howard和Ruder（2018）表明，在目标领域语料库上进一步预训练语言模型可以提高最终的分类性能。对于BERT，没有明确的研究表明这种方法也有效。尽管如此，我们实现了进一步预训练，以观察这种适应是否对金融领域有益。

对于进一步预训练，我们尝试了两种方法。第一种是在一个相对较大的目标领域语料库上预训练模型。为此，我们在一个金融语料库（具体语料库见第4.2.1节）上进一步预训练了BERT语言模型。第二种方法是仅在分类训练集的句子上预训练模型。尽管第二个语料库要小得多，但使用直接目标数据可能会提供更好的目标领域适应。

3.2.2 FinBERT用于文本分类

情感分类通过在[CLS]标记的最后隐藏状态之后添加一个密集层来进行。这是BERT用于任何分类任务的推荐做法。然后，在标注情感数据集上训练分类器网络。图1展示了整个过程的概述。

3.2.3 FinBERT用于回归

虽然本文的重点是分类，但我们也在一个具有连续目标的数据集上用几乎相同的架构实现了回归。唯一的区别是使用的损失函数是均方误差，而不是交叉熵损失。

3.2.4 防止灾难性遗忘的训练策略

如Howard和Ruder（2018）所指出的，灾难性遗忘是这种微调方法的一个重大风险。微调过程可以迅速导致模型“忘记”语言建模任务中的信息，因为它试图适应新任务。为了解决这个问题，我们应用了Howard和Ruder（2018）提出的三种技术：倾斜三角学习率、区别性微调和逐步解冻。

倾斜三角学习率应用了一个斜三角形的学习率调度，即学习率首先线性增加到某个点，然后线性减少。

区别性微调是为网络中的较低层使用较低的学习率。假设我们在第l层的学习率为α。然后对于区别率θ，我们计算第l-1层的学习率为αl-1 = θαl。此方法的假设是较低层表示深层次的语言信息，而较高层包含实际分类任务的信息。因此，我们以不同的方式微调它们。

逐步冻结是指我们开始训练时只解冻分类器层。训练期间，我们逐渐解冻所有层，从最高层开始，以使较低层特征成为微调最少的层。因此，在训练初期阶段，防止模型“忘记”从预训练中学习到的低层语言信息。

4 实验设置

4.1 研究问题

我们旨在回答以下研究问题：

(RQ1) FinBERT在短句分类中的表现如何，与其他迁移学习方法（如ELMo和ULMFit）相比？

(RQ2) FinBERT在具有离散或连续目标的金融情感分析中如何与最先进的方法相比？

(RQ3) 在金融领域进一步预训练BERT或在目标语料库上预训练BERT如何影响分类性能？

(RQ4) 倾斜三角学习率、区别性微调和逐步解冻等训练策略对分类性能的影响如何？它们能否防止灾难性遗忘？

(RQ5) 哪个编码层在句子分类中表现最好（或最差）？

(RQ6) 微调多少层才够？即在预训练后，需要微调多少层才能达到与微调整个模型相当的性能？

4.2 数据集

4.2.1 TRC2-financial

为了进一步预训练BERT，我们使用了一个我们称之为TRC2-financial的金融语料库。这是Reuters的TRC2的一个子集，包括2008年至2010年间路透社发布的180万篇新闻文章。我们筛选了一些金融关键词，以使语料库更相关，并在可用计算能力的范围内。最终的语料库TRC2-financial包括46143篇文档，超过2900万字和近40万句子。

4.2.2 Financial PhraseBank

本文使用的主要情感分析数据集是由Malo等人（2014）创建的Financial PhraseBank。Financial PhraseBank包括从LexisNexis数据库中随机选择的4845个英语句子。这些句子由16名具有金融和商业背景的人标注。标注者被要求根据他们认为句子中的信息可能对所述公司的股价产生的影响进行标注。数据集还包括句子间标注者的共识水平。表1展示了共识水平和情感标签的分布。我们将所有句子的20%作为测试集，其余的20%作为验证集。最终，我们的训练集包括3101个示例。对于某些实验，我们还使用了10倍交叉验证。

4.2.3 FiQA Sentiment

FiQA是为WWW '18会议的金融意见挖掘和问答挑战创建的数据集。我们使用任务1的数据，包括1174个金融新闻标题和推文及其对应的情感评分。与Financial PhraseBank不同，该数据集的目标是连续的，范围为[-1, 1]，其中1为最积极。每个示例还包括关于句中提及的金融实体的信息。我们使用10倍交叉验证评估该模型。

4.3 基准方法

为了对比实验，我们考虑了三种不同方法的基准：LSTM分类器，使用GLoVe嵌入的LSTM分类器，使用ELMo嵌入的LSTM分类器和ULMFit分类器。需要注意的是，这些基准方法没有像我们对BERT的实验那样详尽，因此结果不应被解释为一种方法绝对优于另一种方法的结论。

4.3.1 LSTM分类器

我们实现了两个使用双向LSTM模型的分类器。在这两个分类器中，隐藏层大小为128，由于双向性，最后隐藏状态大小为256。一个全连接前馈层将最后隐藏状态映射到表示三个标签的向量。这两个模型的区别在于一个使用GLoVe嵌入，而另一个使用ELMo嵌入。两模型都使用了0.3的dropout概率和3e-5的学习率。我们训练它们，直到验证损失在10个周期内没有改善。

4.3.2 ULMFit

如第3.1.3节所述，使用ULMFit进行分类包括三个步骤。第一个步骤是预训练语言模型已经完成，预训练权重由Howard和Ruder（2018）发布。我们首先在TRC2-financial语料库上进一步预训练AWD-LSTM语言模型3个周期。之后，我们通过在预训练的AWD-LSTM输出上添加一个全连接层，在Financial PhraseBank数据集上微调该模型进行分类。

4.4 评估指标

对于分类模型的评估，我们使用三个指标：准确率、交叉熵损失和宏平均F1分数。我们使用平方根的逆频率率加权交叉熵损失。例如，如果一个标签构成所有示例的25%，我们将该标签的损失加权为2。宏平均F1分数计算每个类别的F1分数，然后取平均值。由于我们的Financial PhraseBank数据集存在标签不平衡（近60%的句子为中性），这为分类性能提供了另一个好的衡量标准。对于回归模型的评估，我们报告均方误差和R2，因为这是标准方法，也是最先进论文报告的方法。

4.5 实现细节

对于我们的BERT实现，我们使用0.1的dropout概率，0.2的预热比例，最长序列长度为64个令牌，2e-5的学习率和64的迷你批量大小。我们训练模型6个周期，在验证集上进行评估，并选择最好的一个。对于区别性微调，我们将区别率设为0.85。我们开始训练时只有分类层解冻，每三分之一训练周期解冻下一层。我们使用一个带有NVIDIA K80 GPU、4个vCPU和64 GiB主机内存的Amazon p2.xlarge EC2实例来训练模型。

5 实验结果（RQ1和RQ2）

表2展示了FinBERT、基准方法和最先进方法在Financial PhraseBank数据集上的实验结果。我们展示了整个数据集和100%标注者一致性的子集的结果。

注：加粗字体表示相应指标中最佳结果。LPS [17]、HSC [8]和FinSSLX [15]结果取自其各自的论文。对于LPS和HSC，论文中未报告整体准确率。我们使用论文中报告的不同类别的召回率计算了它们。对于我们实现的模型，我们报告了10倍交叉验证结果。

在所有测量指标中，FinBERT在我们自己实现的方法（LSTM和ULMFit）以及其他论文报告的模型（LPS、HSC、FinSSLX）中表现最好。未使用语言模型信息的LSTM分类器表现最差。在准确率方面，它接近LPS和HSC（对于完全一致的示例甚至比LPS更好），但它的F1得分较低。这是因为它在中性类别上的表现要好得多。使用ELMo嵌入的LSTM分类器在所有测量指标上都优于使用静态嵌入的LSTM分类器。它在表示较少的标签上表现不佳，导致平均F1得分较低。但其性能与LPS和HSC相当，在准确率上超过它们。因此，上下文化的词嵌入在这个规模的数据集上产生了接近于基于机器学习的方法的性能。

ULMFit在所有指标上显著提高，并且不会因为模型在某些类别上表现得比其他类别好得多而受到影响。它还轻松超过了基于机器学习的模型LPS和HSC。这表明语言模型预训练的有效性。AWD-LSTM是一个非常大的模型，预计在这个小数据集上会过拟合。但由于语言模型预训练和有效的训练策略，它能够克服小数据问题。ULMFit也超过了FinSSLX，它在大规模金融语料库上对词嵌入进行预训练并进行情感标签分类。

FinBERT在所有指标上都超过了ULMFit，因此也超过了所有其他方法。为了测量模型在不同大小的标注训练数据集上的性能，我们在5种不同配置下运行了LSTM分类器、ULMFit和FinBERT。结果见图2，其中绘制了每个模型在测试集上的交叉熵损失。100个训练示例对于所有模型来说都太少。然而，一旦训练规模达到250，ULMFit和FinBERT开始成功区分标签，FinBERT的准确率高达80%。所有方法随着数据量的增加而一致变好，但ULMFit和FinBERT在250个示例上的表现比LSTM分类器在整个数据集上的表现更好。这表明语言模型预训练的有效性。

表3展示了FiQA情感数据集的结果。我们的模型在MSE和R2方面都优于最先进模型。需要注意的是，这两篇论文[31] [24]使用的测试集是FiQA任务1的官方测试集。由于我们无法访问该测试集，我们报告了10倍交叉验证的结果。没有迹象表明[15]中发布的训练集和测试集来自不同的分布，我们的模型可以解释为处于不利地位，因为我们需要将训练集的一部分作为测试集，而最先进论文可以使用完整的训练集。

表3：FiQA情感数据集上的实验结果

表4：展示了不同预训练策略的性能。

注：加粗字体表示相应指标中最佳结果。结果通过10倍交叉验证报告。

在所有测量指标中，在金融领域语料库上进一步预训练的分类器表现最好，尽管差异不大。这可能有四个原因：1）语料库的分布可能与任务集不同，2）BERT分类器可能不会显著提高进一步预训练的性能，3）短句分类可能不会显著受益于进一步预训练，4）性能已经足够好，进一步预训练没有太多改进空间。我们认为最后一个解释最为可能，因为对于所有标注者一致的Financial PhraseBank子集，Vanilla BERT的准确率已经达到了0.96。在其他一致性水平上的性能应该较低，因为即使是人类也无法完全达成一致。需要更多的实验来证明在另一个金融标注数据集上的进一步预训练效果是否显著。

6 实验分析

6.1 进一步预训练的效果（RQ3）

我们首先测量进一步预训练对分类器性能的影响。我们比较了三种模型：1）无进一步预训练（称为Vanilla BERT），2）在分类训练集上进一步预训练（称为FinBERT-task），3）在领域语料库TRC2-financial上进一步预训练（称为FinBERT-domain）。我们使用测试数据集上的损失、准确率和宏平均F1分数评估这些模型。结果见表4。

在所有测量指标上，在金融领域语料库上进一步预训练的分类器表现最好，尽管差异不大。这可能有四个原因：1）语料库的分布可能与任务集不同，2）BERT分类器可能不会显著提高进一步预训练的性能，3）短句分类可能不会显著受益于进一步预训练，4）性能已经足够好，进一步预训练没有太多改进空间。我们认为最后一个解释最为可能，因为对于所有标注者一致的Financial PhraseBank子集，Vanilla BERT的准确率已经达到了0.96。在其他一致性水平上的性能应该较低，因为即使是人类也无法完全达成一致。需要更多的实验来证明在另一个金融标注数据集上的进一步预训练效果是否显著。

6.2 灾难性遗忘（RQ4）

为了衡量对抗灾难性遗忘技术的效果，我们尝试了四种不同的设置：无调整（NA），仅使用倾斜三角学习率（STL），倾斜三角学习率和逐步解冻（STL+GU），以及同时使用所有三种技术（STL+GU+DFT）。我们使用测试损失和训练周期中的验证损失轨迹报告这四种设置的性能。结果见表5和图3。

所有三种策略的应用在测试损失和准确率方面表现最好。逐步解冻和区别性微调背后的理由相同：较高层的特征应该比较低层的特征更加微调，因为从语言建模任务中学习到的信息主要存在于较低层。表5显示，单独使用区别性微调和倾斜三角学习率的表现比单独使用倾斜三角学习率更差。这表明逐步解冻对我们的情况最为重要。

灾难性遗忘的一种表现形式是训练几个周期后验证损失的突然增加。模型训练时，若不采取相应措施，过拟合会迅速出现。如图3所示，当不应用上述任何技术时，情况正是如此。模型在第一个周期后在验证集上表现最好，然后开始过拟合。而同时应用所有三种技术时，模型稳定得多。其他组合介于这两种情况之间。

6.3 选择最佳层进行分类（RQ5）

BERT有12个Transformer编码器层。在语言模型训练期间，最后一层是否捕捉了与分类任务最相关的信息尚未明确。我们在每个Transformer编码器层之后放置分类层来进行实验。我们还尝试了所有层的平均值。

如表6所示，最后一层在所有测量指标上对模型性能贡献最大。这可能表明两个因素：1）使用较高层的模型较大，因此可能更强大，2）较低层捕捉了更深层的语义信息，因此它们难以为分类任务进行微调。

6.4 仅训练部分层（RQ6）

BERT是一个非常大的模型。即使在小数据集上，微调整个模型也需要显著的时间和计算能力。因此，如果仅微调部分参数可以获得稍低的性能，在某些情况下可能是可取的。特别是如果训练集非常大，这一改变可能使BERT更方便使用。这里我们实验了仅微调最后k个编码器层的效果。

表7展示了结果。仅微调分类层的性能与微调其他层相比相差甚远。然而，仅微调最后一层就轻松超过了最先进的机器学习方法（如HSC）。从第9层开始，性能几乎相同，只有微调整个模型的性能更好。这一结果表明，为了利用BERT，不需要昂贵的整个模型训练。可以通过较少的训练时间换取性能的轻微下降。

6.5 模型失败的情况

在Financial PhraseBank的100%标注者一致性子集上取得了97%的准确率后，我们认为检查模型错误预测的情况可能是一个有趣的练习。因此，本节中我们将展示模型错误预测的几个示例。Malo等人（2014）指出，大多数标注者之间的不一致是正面和中性标签之间（分别为98.7%、94.2%和75.2%）。作者将其归因于区分“通常使用的公司光环词和实际的积极陈述”的困难。我们将展示混淆矩阵，以观察FinBERT是否也是这种情况。

示例1：税前亏损总额为300万欧元，而2005年第一季度为2200万欧元。

真实值：正面预测：负面

示例2：这项实施对运营商非常重要，因为它即将在巴西推出固定到移动融合服务。

真实值：中性预测：正面

示例3：涂层杂志印刷纸的情况将继续疲弱。

真实值：负面预测：中性

第一个示例实际上是最常见的失败类型。模型未能进行数学计算，确定哪个数字更高，并且在缺乏表示方向的词时可能会预测中性。然而，也有许多类似情况下模型正确预测的例子。示例2和3是相同类型失败的不同版本。模型未能区分关于给定情况的中性陈述和表明公司情感的陈述。在第三个示例中，公司业务的信息可能会有所帮助。

图4展示了混淆矩阵。73%的失败发生在正面和中性标签之间，而负面和正面标签之间的比例为5%。这与标注者之间的一致性数据和常识一致。区分正面和负面更容易，但决定一陈述是表示正面前景还是仅仅是客观观察可能更具挑战性。

7 结论与未来工作

在本文中，我们通过在金融语料库上进一步预训练BERT并微调其进行情感分析，实施了FinBERT。我们相信这是BERT首次应用于金融领域，也是少数几个在领域特定语料库上进行进一步预训练的研究之一。在我们使用的两个数据集上，我们显著超过了现有最先进的结果。在分类任务中，我们将现有最先进结果的准确率提高了15%。

除了BERT，我们还实现了其他预训练语言模型，如ELMo和ULMFit用于比较。进一步在金融语料库上预训练的ULMFit超过了现有最先进的分类任务结果，但较BERT稍逊。这些结果显示了预训练语言模型在情感分析等下游任务中的有效性，特别是在小标注数据集上。完整数据集包括3000多个示例，但即使仅使用500个示例训练集，FinBERT也能超过现有最先进的结果。这是一个重要的结果，因为传统上，NLP的深度学习技术被认为过于“数据饥饿”，显然这种情况已不再如此。

我们进行了广泛的BERT实验，研究了进一步预训练和多种训练策略的效果。我们不能确定在领域特定语料库上进一步预训练对我们的情况有显著提升。我们的理论是，BERT在我们的数据集上已经表现足够好，进一步预训练没有太多改进空间。我们还发现，使用学习率策略微调较高层比较低层更积极地进行训练的表现更好，并且在防止灾难性遗忘方面更有效。另一个实验结论是，通过仅微调BERT的最后两层，可以获得与微调整个模型相当的性能，但训练时间显著减少。

金融情感分析本身并不是最终目标，它的价值在于支持金融决策。我们的工作可以扩展为直接使用FinBERT进行与金融新闻相关的股市回报数据（包括方向和波动性）的分析。FinBERT足够好来提取显式情感，但建模那些未必显而易见的隐性信息应是一个具有挑战的任务。另一种可能的扩展是使用FinBERT进行其他自然语言处理任务，如命名实体识别或金融领域的问答。

8 致谢

我要感谢Pengjie Ren和Zulkuf Genc对我卓越的指导。他们在研究过程中给予我独立自主的空间，同时在我需要时提供宝贵的建议。我还要感谢Naspers AI团队，感谢他们委托我这个项目，并一直鼓励我分享我的工作。我感谢NIST与我分享路透社TRC-2语料库，以及Malo等人公开提供出色的Financial PhraseBank。

参考资料

[1] Basant Agarwal and Namita Mittal. 2016. Machine Learning Approach for Sentiment Analysis. Springer International Publishing, Cham, 21–45. https://doi.org/10.1007/978- 3- 319- 25343- 5_3

[2] OscarAraque,IgnacioCorcuera-Platas,J.FernandoSánchez-Rada,andCarlosA. Iglesias. 2017. Enhancing deep learning sentiment analysis with ensemble tech-niques in social applications. Expert Systems with Applications 77 (jul 2017),236–246. https://doi.org/10.1016/j.eswa.2017.02.002

[3] JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2018.BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding. (2018). https://doi.org/arXiv:1811.03600v2 arXiv:1810.04805

[4] Li Guo, Feng Shi, and Jun Tu. 2016. Textual analysis and machine leaning: Crack unstructured data in finance and accounting. The Journal of Finance and Data Science 2, 3 (sep 2016), 153–170. https://doi.org/10.1016/J.JFDS.2017.02.001

[5] Jeremy Howard and Sebastian Ruder. 2018. Universal Language Model Fine-tuning for Text Classification. (jan 2018). arXiv:1801.06146 http://arxiv.org/abs/1801.06146

[6] Neel Kant, Raul Puri, Nikolai Yakovenko, and Bryan Catanzaro. 2018. Practical Text Classification With Large Pre-Trained Language Models. (2018). arXiv:1812.01207 http://arxiv.org/abs/1812.01207

[7] Mathias Kraus and Stefan Feuerriegel. 2017. Decision support from financial disclosures with deep neural networks and transfer learning. Decision Support Systems 104 (2017), 38–48. https://doi.org/10.1016/j.dss.2017.10.001 arXiv:1710.03954

[8] Srikumar Krishnamoorthy. 2018. Sentiment analysis of financial news articles using performance indicators. Knowledge and Information Systems 56, 2 (aug 2018), 373–394. https://doi.org/10.1007/s10115- 017- 1134- 1

[9] XiaodongLi,HaoranXie,LiChen,JianpingWang,andXiaotieDeng.2014.News impact on stock price return via sentiment analysis. Knowledge-Based Systems 69(oct2014),14–23. https://doi.org/10.1016/j.knosys.2014.04.022

[10] Bing Liu. 2012. Sentiment Analysis and Opinion Mining. Synthesis Lectures on HumanLanguageTechnologies5,1(may2012),1–167. https://doi.org/10.2200/s00416ed1v01y201204hlt016

[11] Tim Loughran and Bill Mcdonald. 2011. When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. Journal of Finance 66, 1 (feb 2011), 35–65. https://doi.org/10.1111/j.1540- 6261.2010.01625.x

[12] Tim Loughran and Bill Mcdonald. 2016. Textual Analysis in Accounting and Finance: A Survey. Journal of Accounting Research 54, 4 (2016), 1187–1230. https://doi.org/10.1111/1475- 679X.12123

[13] Bernhard Lutz, Nicolas Pröllochs, and Dirk Neumann. 2018. Sentence-Level Sentiment Analysis of Financial News Using Distributed Text Representations and Multi-Instance Learning. Technical Report. arXiv:1901.00400 http://arxiv.org/abs/1901.00400

[14] Macedo Maia, Andrï£¡ Freitas, and Siegfried Handschuh. 2018. FinSSLx: A Sentiment Analysis Model for the Financial Domain Using Text Simplification. In 2018 IEEE 12th International Conference on Semantic Computing (ICSC). IEEE, 318–319. https://doi.org/10.1109/ICSC.2018.00065

[15] MacedoMaia,SiegfriedHandschuh,AndréFreitas,BrianDavis,RossMcdermott, Manel Zarrouk, Alexandra Balahur, and Ross Mc-Dermott. 2018. Companion of the The Web Conference 2018 on The Web Conference 2018, {WWW} 2018, Lyon, France, April 23-27, 2018. ACM. https://doi.org/10.1145/3184558

[16] Burton G Malkiel. 2003. The Efficient Market Hypothesis and Its Critics. Jour-nal of Economic Perspectives 17, 1 (feb 2003), 59–82. https://doi.org/10.1257/9089533003321164958

[17] Pekka Malo, Ankur Sinha, Pekka Korhonen, Jyrki Wallenius, and Pyry Takala.2014. Good debt or bad debt: Detecting semantic orientations in economic texts. Journal of the Association for Information Science and Technology 65, 4 (2014), 782–796. https://doi.org/10.1002/asi.23062 arXiv:arXiv:1307.5336v2

[18] G. Marcus. 2018. Deep Learning: A Critical Appraisal. arXiv e-prints (Jan. 2018). arXiv:cs.AI/1801.00631

[19] Justin Martineau and Tim Finin. 2009. Delta TFIDF: An Improved Feature Space for Sentiment Analysis.. In ICWSM, Eytan Adar, Matthew Hurst, Tim Finin, Natalie S. Glance, Nicolas Nicolov, and Belle L. Tseng (Eds.). The AAAI Press. http://dblp.uni- trier.de/db/conf/icwsm/icwsm2009.html#MartineauF09

[20] Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. Learned in Translation: Contextualized Word Vectors. Nips (2017), 1–12. arXiv:1708.00107 http://arxiv.org/abs/1708.00107

[21] Stephen Merity, Nitish Shirish Keskar, and Richard Socher. 2017. Regularizing and Optimizing LSTM Language Models. CoRR abs/1708.02182 (2017). arXiv:1708.02182 http://arxiv.org/abs/1708.02182

[22] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Doha, Qatar, 1532–1543. https://doi.org/10.3115/v1/D14- 1162

[23] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. (2018). https://doi.org/10.18653/v1/N18- 1202 arXiv:1802.05365

[24] Guangyuan Piao and John G Breslin. 2018. Financial Aspect and Sentiment Predictions with Deep Neural Networks. 1973–1977. https://doi.org/10.1145/3184558.3191829

[25] Aliaksei Severyn and Alessandro Moschitti. 2015. Twitter Sentiment Analysis with Deep Convolutional Neural Networks. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval -SIGIR '15. ACM Press. https://doi.org/10.1145/2766462.2767830 [26] Sahar Sohangir, Dingding Wang, Anna Pomeranets, and Taghi M Khoshgoftaar. 2018. Big Data: Deep Learning for financial sentiment analysis. Journal of Big

Data 5, 1 (2018). https://doi.org/10.1186/s40537- 017- 0111- 6

[27] Chi Sun, Xipeng Qiu, Yige Xu, and Xuanjing Huang. 2019. How to Fine-Tune BERT for Text Classification? (2019). arXiv:1905.05583 https://arxiv.org/pdf/1905.05583v1.pdfhttp://arxiv.org/abs/1905.05583

[28] Abinash Tripathy, Ankit Agrawal, and Santanu Kumar Rath. 2016. Classification of sentiment reviews using n-gram machine learning approach. Expert Systems with Applications 57 (sep 2016), 117–126. https://doi.org/10.1016/j.eswa.2016.03.028

[29] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention Is All You Need. Nips (2017). arXiv:1706.03762 http://arxiv.org/abs/1706.03762

[30] Casey Whitelaw, Navendu Garg, and Shlomo Argamon. 2005. Using appraisal groups for sentiment analysis. In Proceedings of the 14th ACM international conference on Information and knowledge management - CIKM '05. ACM Press. https://doi.org/10.1145/1099554.1099714

[31] Steve Yang, Jason Rosenfeld, and Jacques Makutonin. 2018. Financial Aspect-Based Sentiment Analysis using Deep Representations. (2018). arXiv:1808.07931 https://arxiv.org/pdf/1808.07931v1.pdfhttp://arxiv.org/abs/1808.07931

[32] Lei Zhang, Shuai Wang, and Bing Liu. 2018. Deep learning for sentiment analysis: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 8, 4 (mar 2018), e1253. https://doi.org/10.1002/widm.1253

[33] Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2015. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. (jun 2015). arXiv:1506.06724 http://arxiv.org/abs/1506.06724