0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

只需一个API,包含了27个预训练模型

DPVg_AI_era 来源:lq 2019-07-27 07:52 次阅读

只需一个API,直接调用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27个预训练模型。简单易用,功能强大。

One API to rule them all。

前几日,著名最先进的自然语言处理预训练模型库项目pytorch-pretrained-bert改名Pytorch-Transformers重装袭来,1.0.0版横空出世。

只需一个API,直接调用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27个预训练模型。

简单易用,功能强大。目前已经包含了PyTorch实现、预训练模型权重、运行脚本和以下模型的转换工具:

BERT,论文:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,论文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova

OpenAI 的GPT,论文:“Improving Language Understanding by Generative Pre-Training”,论文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

OpenAI的GPT-2,论文:“Language Models are Unsupervised Multitask Learners”,论文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei,Ilya Sutskever

谷歌和CMU的Transformer-XL,论文:“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”,论文作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet,论文:“XLNet: Generalized Autoregressive Pretraining for Language Understanding”,论文作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM,论文:“Cross-lingual Language Model Pretraining”,论文作者:Guillaume Lample,Alexis Conneau

这些实现都在几个数据集(参见示例脚本)上进行了测试,性能与原始实现相当,例如BERT中文全词覆盖在SQuAD数据集上的F1分数为93;OpenAI GPT 在RocStories上的F1分数为88;Transformer-XL在WikiText 103上的困惑度为18.3;XLNet在STS-B的皮尔逊相关系数为0.916。

项目中提供27个预训练模型,下面是这些模型的完整列表,以及每个模型的简短介绍。

BERT-base和BERT-large分别是110M和340M参数模型,并且很难在单个GPU上使用推荐的批量大小对其进行微调,来获得良好的性能(在大多数情况下批量大小为32)。

为了帮助微调这些模型,作者提供了几种可以在微调脚本中激活的威廉希尔官方网站 run_bert_classifier.py和run_bert_squad.py:梯度累积(gradient-accumulation),多GPU训练(multi-gpu training),分布式训练(distributed training )和16- bits 训练( 16-bits training)。

注意,这里要使用分布式训练和16- bits 训练,你需要安装NVIDIA的apex扩展。

作者在doc中展示了几个基于BERT原始实现和扩展的微调示例,分别为:

九个不同GLUE任务的序列级分类器;

问答集数据集SQUAD上的令牌级分类器;

SWAG分类语料库中的序列级多选分类器;

另一个目标语料库上的BERT语言模型。

这里仅展示GLUE的结果:

该项目是在Python 2.7和3.5+上测试(例子只在python 3.5+上测试)和PyTorch 0.4.1到1.1.0测试。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13572
  • pytorch
    +关注

    关注

    2

    文章

    808

    浏览量

    13238

原文标题:GitHub超9千星:一个API调用27个NLP预训练模型

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    KerasHub统、全面的训练模型

    深度学习领域正在迅速发展,在处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这
    的头像 发表于 12-20 10:32 108次阅读

    什么是大模型、大模型是怎么训练出来的及大模型作用

    ,基础模型。   大模型简称,完整的叫法,应该是“人工智能训练
    的头像 发表于 11-25 09:29 1641次阅读
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

    从零开始训练大语言模型需要投资多少钱?

    ,前言   在AI领域,训练大型语言模型(LLM)是
    的头像 发表于 11-08 14:15 230次阅读
    从零开始<b class='flag-5'>训练</b><b class='flag-5'>一</b><b class='flag-5'>个</b>大语言<b class='flag-5'>模型</b>需要投资多少钱?

    直播预约 |数据智能系列讲座第4期:训练的基础模型下的持续学习

    鹭岛论坛数据智能系列讲座第4期「训练的基础模型下的持续学习」10月30日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目
    的头像 发表于 10-18 08:09 236次阅读
    直播预约 |数据智能系列讲座第4期:<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础<b class='flag-5'>模型</b>下的持续学习

    如何训练有效的eIQ基本分类模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是直观的图形用户界面(GUI),简化了ML开发。开发人员可以创建、优化、调试和导出ML模型,以及导入数据集和模型
    的头像 发表于 08-01 09:29 1874次阅读
    如何<b class='flag-5'>训练</b><b class='flag-5'>一</b><b class='flag-5'>个</b>有效的eIQ基本分类<b class='flag-5'>模型</b>

    训练和迁移学习的区别和联系

    训练和迁移学习是深度学习和机器学习领域中的两重要概念,它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定
    的头像 发表于 07-11 10:12 1080次阅读

    大语言模型训练

    能力,逐渐成为NLP领域的研究热点。大语言模型训练是这威廉希尔官方网站 发展的关键步骤,它通过在海量无标签数据上进行训练,使
    的头像 发表于 07-11 10:11 439次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的重要概念,尤其是在自然语言处理(NLP)和计算机视觉(CV)
    的头像 发表于 07-03 18:20 2899次阅读

    解读PyTorch模型训练过程

    PyTorch作为开源的机器学习库,以其动态计算图、易于使用的API和强大的灵活性,在深度学习领域得到了广泛的应用。本文将深入解读PyTorch模型
    的头像 发表于 07-03 16:07 1083次阅读

    深度学习模型训练过程详解

    深度学习模型训练复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练
    的头像 发表于 07-01 16:13 1305次阅读

    大语言模型:原理与工程时间+小白初识大语言模型

    的分布式表示,基于训练的词嵌入表示。 独热表示就是在大的向量空间中,其中位1,其余都为
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型训练

    进行损失计算,得到下一个目标的预测。也会设计些其他辅助训练任务,与主任务共同训练。选择合适的训练
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础威廉希尔官方网站

    就无法修改,因此难以灵活应用于下游文本的挖掘中。 词嵌入表示:将每个词映射为低维稠密的实值向量。不同的是,基于训练的词嵌入表示先在语料库中利用某种语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心威廉希尔官方网站 综述

    的具体需求,这通常需要较少量的标注数据。 多任务学习和迁移学习: LLMs利用在训练中积累的知识,可以通过迁移学习在相关任务上快速适应,有时还可以在
    发表于 05-05 10:56

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是种新的训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜
    的头像 发表于 02-29 17:37 799次阅读