环球最资讯丨可直训ChatGPT类模型！华师大、NUS开源HugNLP框架：一键刷榜，全面统一NLP训练

2023-05-24 16:04:26 来源：新智元公众号

声明:本文来自于微信公众号新智元（ID:AI_era），作者:王嘉宁，授权站长之家转载发布。

(资料图片)

近日，华师大HugAILab团队研发了HugNLP框架，这是一个面向研究者和开发者的全面统一的NLP训练框架，可支持包括文本分类、文本匹配、问答、信息抽取、文本生成、小样本学习等多种NLP任务模型搭建和训练。

开源地址:https://github.com/HugAILab/HugNLP

论文:https://arxiv.org/abs/2302.14286

值得注意的是，HugNLP还集成了大量最新的Prompt技术，例如Prompt-Tuning、In-Context Learning、Instruction-tuning，未来还将引入Chain-of-thought

HugAILab团队还研发了一系列的应用，例如CLUE&GLUE刷榜工具，可支持ChatGPT类模型训练和部署产品HugChat，以及统一信息抽取产品HugIE等。

HugNLP是一个分层式框架，遵循“高内聚低耦合”的开发模式，其核心包括模型层（Models）、处理器层(Processors)、评估器层(Evaluators)和应用层(Applications)四部分。

框架图如下所示:

模型层:包含模型部分，主要按照任务类型进行划分;

处理器层:对数据进行加载、缓存、分词等处理，并转换为模型输入的Tensor;

评估器层:根据不同类型的任务（分类或生成），指定不同的评估流程和评价指标;

应用层:对应的应用执行脚本。理论上来说，选定一个模型、一个数据处理器以及一个评估器，即可对应一个应用。

HugNLP完全基于HuggingFace开发，具有易扩展、易部署能力，同时集成了MLFlow训练追踪器，方便使用者及时追踪实验进度，并进行实验分析。

HugNLP框架之所以称为全面，是因为其集成了大量的NLP任务模型，目前已经实现的包括:

预训练:Masked LM、Causal LM、知识增强预训练;

Instruction-Tuning:支持自回归生成式、区间抽取式、NLI等统一范式训练;

文本分类/匹配:传统Fine-tuning、Prompt-tuning、In-Context Learning;

序列标注:支持NER等序列标注任务;

元学习:基于序列的元学习（SentenceProto）、基于区间的元学习(SpanProto)、基于token的元学习(TokenProto，NNShot);

问答:支持抽取式问答、多项选择式问答、开放生成式问答;

文本生成:支持文本摘要、机器翻译（正在开发中）;

代码智能:目前集成了代码克隆检测（Clone）、代码缺陷检测(Defact)等Code任务;

快速部署HugNLP框架，只需要执行代码三行命令即可:

gitclonehttps://github.com/HugAILab/HugNLP.gitcdHugNLPpython3setup.pyinstall

下面介绍HugNLP的几个核心能力:

Benchmark一键刷榜;

预训练和知识注入;

Fine-tuning & Prompt-tuning;

Instruction-tuning;

In-Context Learning;

半监督Self-training;

Code代码智能;

一、Benchmark一键刷榜

HugNLP最先开发了面向一些常用榜单的刷榜工具，例如GLUE、CLUE等。用户只需要配置相应的数据集名称，即可实现一键刷榜。

为了验证框架的有效性，在22年9月提交了CLUE榜单的刷榜结果，选择一系列中文小模型（RoBERTa、MacBERT、P-BERT等）并结合了logits集成方法，至今依然维持在第15名位置，曾一度超越了部分企业。

例如如果训练CLUE榜单的AFQMC数据集，可编辑文件

applications/benchmark/clue/clue_finetune_dev.sh

修改参数:

--user_defined="data_name=afqmc"

执行下列命令即可:

bashapplications/benchmark/clue/clue_finetune_dev.sh

同样的方法还可以训练一些常用的NLP任务，例如阅读理解、实体识别、以及GLUE英文数据集等。

HugNLP还集成了一系列模型用于刷榜，例如BERT、RoBERTa、DeBERTa、MacBERT、Erlangshen等。

二、预训练与知识注入

传统的一些预训练模型（例如BERT、GPT2等）是在通用语料上训练的，而对领域事实知识可能不敏感，因此需要显式的在预训练阶段注入事实知识。

在HugNLP中，主要实现了几个知识增强预训练，包括DKPLM和KP-PLM。DKPLM是一种可分解的知识注入方法;KP-PLM则是将结构化知识转化为自然语言描述的形式进行注入。这些知识注入的方法是可插拔式的，因此无需修改模型结构，很容易用于下游任务的微调。

执行下面命令即可进行Masked Language Modeling和Causal Language Modeling的预训练:

bashapplications/pretraining/run_pretrain_mlm.shbashapplications/pretraining/run_pretrain_casual_lm.sh

三、 Fine-tuning & Prompt-Tuning

基于预训练语言模型的NLP，通常遵循Pre-training和Fine-tuning范式。HugNLP也包含Fine-tuning技术。

3.1参数有效性学习

HugNLP集成了包括Prefix-tuning、Adapter、BitFit、LoRA等参数有效性训练方法，可以加速模型的训练，降低显存占用量。

在训练脚本中，只需要添加一行参数，即可开启参数有效性训练:

--use_freezing

对于参数有效性方法，HugNLP实现了若干类别的分类模型，如下所示:

CLASSIFICATION_MODEL_CLASSES={"head_prefix_cls":{"bert":BertPrefixForSequenceClassification，"roberta":RobertaPrefixForSequenceClassification，}，"head_ptuning_cls":{"bert":BertPtuningForSequenceClassification，"roberta":RobertaPtuningForSequenceClassification，}，"head_adapter_cls":{"bert":BertAdapterForSequenceClassification，"roberta":RobertaAdapterForSequenceClassification，}，"masked_prompt_cls":{"bert":PromptBertForSequenceClassification，"roberta":PromptRobertaForSequenceClassification，}，"masked_prompt_prefix_cls":{"bert":PromptBertPrefixForSequenceClassification，"roberta":PromptRobertaPrefixForSequenceClassification，}，"masked_prompt_ptuning_cls":{"bert":PromptBertPtuningForSequenceClassification，"roberta":PromptRobertaPtuningForSequenceClassification，}，"masked_prompt_adapter_cls":{"bert":PromptBertAdapterForSequenceClassification，"roberta":PromptRobertaAdapterForSequenceClassification，}，}

只需要指定下面参数即可，例如选择adapter进行分类:

--task_type=head_adapter_cls

3.2对抗训练:引入对Embedding的扰动，提高模型的鲁棒性

HugNLP框架集成了若干种对抗训练的方法，其中最简单的对抗方法为FGM算法:

首先计算输入样本（通常为word embedding）的损失函数以及在处的梯度:;

计算在输入样本的扰动量:，其中为超参数，默认取1.0;

得到对抗样本:;

根据得到的对抗样本，再次喂入模型中，计算损失，并累积梯度;

恢复原始的word embedding，接着下一个batch。

在训练时，只需要添加一行参数，即可默认调用FGM算法:

--do_adv

3.3Prompt-tuning:通过模板来复用预训练目标

传统的Fine-tuning在低资源场景下容易出现过拟合问题，因此复用预训练的目标可以拉近Pre-training和Fine-tuning之间的语义差异。

HugNLP集成了PET、P-tuning、Prefix-tuning等Prompt-Tuning算法，并无缝嵌入在NLP分类任务的模型里。

在训练时，只需要指定下面两个参数，即可以开启Prompt-tuning模式，例如选择p-tuning算法:

--task_type=masked_prompt_ptuning_cls--use_prompt_for_cls

四、Instruction-tuning

在大模型时代，如何将不同类型的NLP任务进行范式统一，是构造通用人工智能的核心要素。HugNLP为此定义了三种统一范式的思想:

万物皆可生成:将所有NLP任务建模为单向自回归生成，例如GPT-3、ChatGPT等;

万物皆可抽取:将所有NLP任务建模为抽取式机器阅读理解;

万物皆可推断:将所有NLP任务建模为自然语言推断;

基于三种不同的范式统一，HugNLP推出两个核心产品，分别是:

HugChat:基于生成式Instruction的中小型ChatGPT类模型;

HugIE:基于抽取式Instruction的统一信息抽取框架;

4.1HugChat:基于Causal Language Modeling的生成式对话模型

最近ChatGPT火爆全球，为了让研究者可以训练自己的ChatGPT，HugNLP框架集成了基于生成式Instruction的训练产品——HugChat，其支持各种类型的单向生成式模型的训练，例如GPT-2、GPT-Neo、OPT、GLM、LLaMA等。

在8张V10032G的条件下，可训练OPT-13B大模型。HugAILab团队开源了约200万条英文、300万条中文对话数据，用于训练模型。例如训练GPT-2（XL），可直接执行脚本:

bash./application/instruction_prompting/HugChat/supervised_finetuning/run_causal_instruction_gpt2_xl.sh

基于HugNLP，训练的GPT-2（1.3B）模型，即可实现很简单的对话任务。只需要执行如下命令即可玩转HugChat:

python3applications/instruction_prompting/HugChat/hugchat.py

例如可以写套磁信邮件:

再例如搜索谷歌地球的相关信息:

也可以实现编写简单的代码（1.3B的模型具备此能力已经很惊叹了!）:

HugNLP目前正在开发其他类型的Decoder-only大模型，相关信息和开源内容如下表所示:

HugChat后期将推出垂直领域的大模型解决方案，同时将与OpenAI API进行融合，推出大模型服务框架。

4.2HugIE:基于Global Pointer的统一信息抽取框架

信息抽取（Information Extraction）旨在从非结构化的文本中抽取出结构化信息，是构建知识库的重要步骤之一。通常信息抽取包括两个核心步骤，分别是命名实体识别(Named Entity Recognition)和关系抽取(Relation Extraction)。

我们基于HugNLP研发一款HugIE产品，旨在实现统一信息处理。其主要核心包括如下几个部分:

将实体识别和关系抽取，统一为新的范式——基于抽取式阅读理解的方法。HugIE采用Global Pointer模型实现信息抽取;

定义Instruction Prompt，指导模型生成需要抽取的内容;

采用多任务训练的方法训练;

HugIE目前已经开源了模型:https://huggingface.co/wjn1996/wjn1996-hugnlp-hugie-large-zh 可以基于HugNLP框架使用HugIE抽取模型，如下图所示:

五、In-Context Learning

In-Context Learning（ICL）首次由GPT-3提出，其旨在挑选少量的标注样本作为提示(Prompt)，从而在形式上促使大模型生成目标答案。ICL的优势在于无需对参数进行更新，即可实现惊艳的效果。

HugNLP框架集成了ICL，主要涉及到样本的挑选和预测结果的校准两个部分:

样本挑选:默认为从训练集中随机挑选样本，后期将会开发一系列样本挑选的算法，例如聚类、K近邻、余弦相似度等;

预测校准:由于所挑选标注样本与待预测样本存在分布差异，需要对预测的概率分布进行校准，这里采用Calibrate Before Use方法，如下图，可以对预测分布进行校准，提高预测效果。

目前ICL已经集成在HugNLP里，只需要指定下面参数即可:

--user_defined="data_name=xxxnum_incontext_example=4l=1use_calibrate=True"--use_prompt_for_cls

六、半监督Self-training

半监督旨在同时结合标注数据和无标签数据来训练NLP任务。Self-training是一种简单但有效的迭代式训练方法，其通过Teacher模型先获取伪标签，对伪标签进行去噪后，再训练Student模型。传统的Self-training会引入大量噪声，从而降低训练的效果。

为了提高性能，HugNLP引入成熟的Uncertainty-aware Self-training技术。框架图如下所示:

其采用了来自贝叶斯推断中的MC Dropout技术，即对Teacher模型执行次推理，每次推理开启Dropout开关，从而得到若干与Teacher模型满足独立同分布的模型预测。

基于这些预测结果，可以通过信息熵的变化量得到Teacher模型对无标签数据的不确定性量化指标（即BALD算法），核心公式如下:

进行多次DC Dropout的代码实现如下（详见hugnlp_trainer.py）:

y_T=list（）foriintqdm(range(T)):y_pred=[]forstep，inputsinenumerate(unlabeled_dataloader):_，logits，__=self.prediction_step(model，inputs，prediction_loss_only，ignore_keys=ignore_keys)y_pred.extend(logits.detach().cpu().numpy().tolist())predict_proba=torch.softmax(torch.Tensor(y_pred).to(logits.device)，-1)y_T.append(predict_proba.detach().cpu().numpy().tolist())y_T=np.array(y_T)#computemeany_mean=np.mean(y_T，axis=0)BALD算法实现如下:defget_BALD_acquisition(y_T):expected_entropy=-np.mean(np.sum(y_T*np.log(y_T+1e-10)，axis=-1)，axis=0)expected_p=np.mean(y_T，axis=0)entropy_expected_p=-np.sum(expected_p*np.log(expected_p+1e-10)，axis=-1)return(entropy_expected_p-expected_entropy)

HugNLP使用半监督模式，只需要做两件事:

（1）执行脚本时添加参数:

--use_semi

（2）在指定的数据集目录下，存放unlabeled data文件。

七、其他更丰富的应用

目前HugNLP还开发了很多应用如下所示:还有更多丰富的应用正在开发中。HugNLP也欢迎有志之士加入HugAILab参与开源开发工作。

环球最资讯丨可直训ChatGPT类模型！华师大、NUS开源HugNLP框架：一键刷榜，全面统一NLP训练

不懈什么四字词语_不懈|每日信息

不懈什么四字词语_不懈|每日信息

环球最资讯丨可直训ChatGPT类模型！华师大、NUS开源HugNLP框架：一键刷榜，全面统一NLP训练

不懈什么四字词语_不懈|每日信息

韩国第一季度总和生育率仅0.81，人口连续41个月减少-资讯

正泰新能获PVBL2023光伏行业ESG建设领航奖 全球实时

黑芝麻：截至目前公司未有定增计划，若后续有相关安排，公司将严格遵守相关规定履行审批程序和信息披露 当前看点

世界观天下！4V4热血街头足球网游《自由足球》5月24日典藏菲正式登场

每日报道：中钢协：5月中旬21个城市5大品种钢材社会库存环下降3.2%

含雨的成语和诗句 含雨的成语诗句-快播报

百事通！运动小白、跑步爱好者，这个跑团喊你免费“RUN”！

警营来了“发明家”

关于大成景旭纯债债券型证券投资基金暂停大额申购（含定期定额申购）及基金转换转入业务的公告_快播

江海股份（002484）：5月23日北向资金减持28.17万股

成功登顶！

如何发展数字经济？总台记者带你探访浙江一线企业

宝石宠物第二季53集_宝石宠物第二季_世界微头条

环球今头条！金山云跌8.4%，第一季度营收同比下滑14.2%至21.74亿元，净亏损扩大至6.09亿元

广岛核爆受害者要求政府批准《禁止核武器条约》

创业环保投资恩施市大沙坝一期、二期（谭家坝）污水处理厂及配套管网工程特许经营项目及设立项目公司

当前滚动:图评丨阿森纳保持了大半个赛程的积分优势在赛程后半...

全球观焦点：中小银行应在“三低一高”中进行“三个转向”，跨越数字化转型深水区

“恋爱脑”女子为博男友欢心定制两张假身份证，牵出制售伪造证件犯罪链-速读

上环后经期延长淋漓不尽腹痛_经期腹痛的饮食注意事项

【全球快播报】《信长之野望 新生 with 威力加强版》系统介绍：更为进化的“君臣同心”

【天天报资讯】首届“新绿杯”信息通信行业赋能“双碳”创新大赛决赛启动 激励行业绿色低碳技术创新

塞尔达传说王国之泪爸爸的蓝色衬衫获取教程_每日热闻

云南加强新时代水土保持工作 增加国际河流水土保持宣介_世界微资讯

六安轻工中学_环球播资讯

5612号台风巅峰强度_5612号台风_世界快播报

每年10月15日是什么节日_有关10月15日的节日介绍

银柳干养可以放多久（银柳干养能晒太阳吗） 当前焦点

美国债务上限之争持续，机构称是推高金价的催化剂！

2023时事政治模拟题每日一练（05.23）

彩虹股份： 2023年面板行业随着需求逐步复苏，价格走出低谷，企稳回升

世界信息:短发女性角色不受欢迎？日漫中到处都是，你不知道罢了

热讯：金琴路小学六（3）中队生动演绎“遇到山洪如何自救”

年近八旬挂帅征战全运，徐根宝：目标夺冠 我的身体还是可以的

麻将桌被安装作弊器 女子为找出作弊者报假警

选购活性炭注意什么 活性炭选购方法

第74集团军某旅开展跨昼夜连贯侦察演练砥砺实战本领 环球速递

个别网页打不开是什么原因呢 个别网页打不开是什么原因|环球新消息

我市全面加强知识产权保护|当前要闻

一定会得到的，不会再是一个人面对，焰和圆会一起面对，一起找到，幸福

南宁再发通告：广泛征集市道路停车位收费意见建议

“硬核”动力装备亮相广西先进技术展示 点燃绿色发展“新引擎” 焦点热闻

近年作品评分均不高！37岁杨幂承认此前安于现状，直言要做好演员：新戏特意请了表演老师，去现场不带剧本

环球观速讯丨黑龙江通报8起澄清正名案例

每日热门：当日快讯：芬兰国有能源企业Gasum终止与俄气出口公司的管道天然气供应协议

禁用ChatGPT后苹果低调入局 5月已发布近30个AI岗位|每日速递

重报集团145名干部职工无偿献血29860毫升 为临床用血紧张贡献力量 天天微资讯

环球聚焦：成都华创建筑拟出让51%股权，募资约1亿元

广州车展：新宝马2系Coupe售29.98万元_世界最新

世界观点：柯力传感3涨停

当前关注：库因克和昆克的区别（库因克是什么）

马祖拉：球队需要打得更快些 我们的出手次数变少了

兰德里菲尔兹个人资料和图片_兰德里菲尔兹最新篮球明星动态_天天资讯

国际欧亚科学院院士杨开忠：国家城镇体系的“边缘竞争力”相对无效率 应重塑边缘经济地理|当前热闻

韩国连续五个月增持美债

四连胜！国乒男单“丢局”，世界第二能否成为世乒赛“三冠王”？ 环球消息

关于数学家的小故事30字-当前关注

厦门市政水务集团:供水管网“数字双胞胎” 守护城市“动脉”安全|世界新资讯

真正有品位的六七十岁男人，出门一不穿花、二不戴金，到老都时髦

第76届世界卫生大会在日内瓦开幕_每日头条

2022年宴席白酒市场容量超2300亿

许昌市第三十三次全国助残日 “五送”活动启动仪式举行

数字驱动汽车全产业链变革 当前消息

世界热议:汇丰晋信基金管理有限公司关于调整旗下开放式基金在国泰君安证券股份有限公司的交易限额的公告

人造柔性电子皮肤可重建触觉

天天热点！消防工程师在线教育（中华网校消防工程师）

市场流动性充裕 实体企业积极参与

股票每个交易日的交易时间_股票时间交易时间

万能钥匙自动连接wifi有啥风险_万能钥匙自动连接wifi风险简述

联合水务最新公告：前4月自来水供水业务售水量同比增12.64%

谁会成为下一个快手顶流？本报联手快手本地生活推出青岛美食休闲“玩味”盛典活动_天天热闻

天天微头条丨意甲36轮前瞻：拉齐奥抗压能力如何？佛罗伦萨体能吃紧

全球视讯！2023年海南高考加分资格考生部分名单公示

当前观点：irr公式显示错误 irr公式

全球即时看！瓦格纳宣布：完全拿下巴赫穆特，结束数月鏖战，攻占乌军最后据点

正泰新能获PVBL2023光伏行业ESG建设领航奖全球实时

黑芝麻：截至目前公司未有定增计划，若后续有相关安排，公司将严格遵守相关规定履行审批程序和信息披露当前看点

含雨的成语和诗句含雨的成语诗句-快播报

【全球快播报】《信长之野望新生 with 威力加强版》系统介绍：更为进化的“君臣同心”

【天天报资讯】首届“新绿杯”信息通信行业赋能“双碳”创新大赛决赛启动激励行业绿色低碳技术创新

云南加强新时代水土保持工作增加国际河流水土保持宣介_世界微资讯

银柳干养可以放多久（银柳干养能晒太阳吗）当前焦点

年近八旬挂帅征战全运，徐根宝：目标夺冠我的身体还是可以的

麻将桌被安装作弊器女子为找出作弊者报假警

选购活性炭注意什么活性炭选购方法

第74集团军某旅开展跨昼夜连贯侦察演练砥砺实战本领环球速递

个别网页打不开是什么原因呢个别网页打不开是什么原因|环球新消息

“硬核”动力装备亮相广西先进技术展示点燃绿色发展“新引擎” 焦点热闻

重报集团145名干部职工无偿献血29860毫升为临床用血紧张贡献力量天天微资讯

马祖拉：球队需要打得更快些我们的出手次数变少了

国际欧亚科学院院士杨开忠：国家城镇体系的“边缘竞争力”相对无效率应重塑边缘经济地理|当前热闻

四连胜！国乒男单“丢局”，世界第二能否成为世乒赛“三冠王”？环球消息

数字驱动汽车全产业链变革当前消息

市场流动性充裕实体企业积极参与

广州生态系统多样性显著增强将开展大规模国土绿化全球微头条

华晨宝马iX1申报图曝光车身尺寸加长

中国唯一毛南族自治县集中展示特色非遗环球头条

惠来县气象台发布暴雨黄色预警【III级/较重】【2023-05-21】环球今亮点

（经济观察）虚拟数字人“现身”各行各业释放可观商业价值-世界聚看点

腾讯新闻头像图片高清原图_腾讯新闻图标头像

官方降价！本田新雅阁售17.98-25.88万首推插混版

全球新资讯：启源女神英雄如何上阵启源女神英雄上阵方法

关于袁惟仁醒了袁惟仁为什么昏迷的相关信息当前速讯

【听，他们说“中国式现代化”】初大平：牵手世界顶级资源助力江苏科技发展