特斯联NLP自训练学习算法:提升机器学习效率,促进AI普惠发展

艾媒咨询| 2020中国人工智能产业白皮书

本报告研究涉及企业/品牌/案例:酷芯微电子,蒜泥科技,影谱科技<br/><br/>2025年中国人工智能核心产业规模预计将超过4000亿元,中国未来有望发展为全球最大的人工智能市场。首先是国家政策环境的利好,同时人工智能商业化发展的经济环境近年基本处于稳定状态。伴随着人口结构变化和社会发展,企业的用工成本逐渐攀升,企业正在寻求数字化转型,希望通过应用人工智能降低用工成本,这些都为人工智能的商业化发

艾媒咨询| 2020中国人工智能产业白皮书 精品决策

   机器学习是推动人工智能(AI)向前发展的核心技术。随着深度学习技术的发展,人工智能在产业应用中得到了质的提升。然而,当前的深度学习技术依然依赖有较丰富机器学习经验的算法研发人员以及大量的标签数据,二者的高成本制约了AI算法的产业化应用。此外,由于在实际应用中,研发人员极大概率无法获取大量标签数据,市面上的AI开放平台推广效果并不理想。

  为解决上述问题,特斯联基于TACOS(特斯联智慧城市操作系统)打造了可赋能城市AI的“九章AI算法赋能平台”。该平台以弱监督训练体系、联邦学习训练体系、自编码技术三大核心技术为支撑,通过共享孵化模式,为无AI背景的跨行业企业、中小微企业提供低代码、无代码的自有知识产权的算法孵化技术。

  NLP自训练学习算法:已知反哺未知,提升学习效率

  针对标签数据不足的问题,特斯联核心算法团队基于8000+项目的业务数据,提出了自监督、半监督、带噪学习等技术,最大限度从领域数据、大量无标签数据、已有无标签样本、已知标签样本特征中挖掘潜在内嵌信息,反哺到未知标签数据上,减少人工干预,提升学习效率。同时,平台基于bert模型实行自监督无人工干预的预训练,让bert模型深入地学习到领域内知识,从而保证模型得到领域内数据更精确的特征表示。

  其中,自训练系统是“九章”平台的核心系统。该系统首先采用自监督对比学习技术,充分利用无标签数据进行自监督训练,让模型清晰地表达现有数据;其次,使用少量带标签数据对模型微调,让模型在任务数据上达到较好效果。该系统解决了标注数据不足,少标签数据的问题,可在极少人工干预的情况下,让不懂AI算法的人员训练出属于自己的AI模型。

  特斯联推出算法共享租赁模式,让AI飞入寻常百姓家

  依托特斯联的产业数据,“九章AI算法赋能平台”不断打磨弱监督、联邦学习训练体系,将数据变成真正能够赋能产业的资产。此外,“九章”具有自进化的特点,可依据需求的不断变化,为城市提供包括行业应用、教培、科研等全方位的AI赋能服务。

  目前,“九章”已在全国多个园区的科创中心落地,通过数据云平台、develop studio、算法舱三大功能模块,为入驻企业提供包括算力、模型、平台在内的全系共享租赁及数据资产托管服务,以共享模式降低中小微企业的算法孵化成本。同时“九章”通过research studio实现学术生态的拉通,用户可以通过联邦学习让学术研究安全地共享到完整的数据生态,让学术生态研究的预训练模型通过弱监督体系为“九章”源源不断地提供动力。

  截至目前,“九章AI算法赋能平台”共有82个预训练模型,累积预训练模型调用量逾千次,其算法调用超百余万余次。

艾媒咨询| 2020中国人工智能产业白皮书

本报告研究涉及企业/品牌/案例:酷芯微电子,蒜泥科技,影谱科技<br/><br/>2025年中国人工智能核心产业规模预计将超过4000亿元,中国未来有望发展为全球最大的人工智能市场。首先是国家政策环境的利好,同时人工智能商业化发展的经济环境近年基本处于稳定状态。伴随着人口结构变化和社会发展,企业的用工成本逐渐攀升,企业正在寻求数字化转型,希望通过应用人工智能降低用工成本,这些都为人工智能的商业化发

艾媒咨询| 2020中国人工智能产业白皮书 精品决策