自然语言处理(NLP)被誉为人工智能皇冠上的“明珠”。近年来,人工智能(AI)取得了长足的发展,其中最重要的技术进步之一发生在NLP领域。NLP技术的进步使得机器翻译质量大幅提高,也催生了更多数字化场景应用,随之国内NLP产业也迎来快速发展。据艾瑞咨询预测,2022年NLP相关产业规模将达到1500亿元,到2025年达到2400亿元。微软亚洲研究院认为未来十年是NLP发展的黄金时期。
浪潮之下,创新企业正在成为NLP创新突破的重要力量,中科凡语就是其中的典型代表。中科凡语是中国科学院自动化研究所孵化、专注于NLP服务的创新型企业,已发展成为业内领先的多语言跨领域多模态自然语言处理方案商、服务商、运营商。恰逢中科凡语成立4周年之际,中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士分享了NLP的发展趋势和中科凡语的工作成果。
中国科学院自动化研究所研究员、
博士生导师、中科凡语董事长周玉博士
从通用到定制形成动态闭环
搭建NLP底层技术平台
目前NLP产品的应用落地任重道远,面临的问题主要有两个,一是高定制化场景带来的高沟通门槛,使得沟通效率较低;二是要开发通用性较强的产品,需要不同的业务数据支撑,适配过程较为漫长。面对NLP产品的定制化和通用性难题,中科凡语独辟蹊径。
周玉研究员表示,“早期可以面对不同行业领域客户先提炼出共性需求,搭建一个通用的技术框架,满足基础的模块功能;然后再构建通用场景的通用产品;之后再迁移到特定场景进行定制化开发;最后在定制化过程中再衍生出面向特定场景的产品。总的来看,其实是在动态演化过程中不断完善迭代,从通用到定制形成动态闭环。”
NLP产品开发的底层逻辑是技术储备,技术储备越丰富,通用技术模块越成熟,迁移成本就会越低,在特定行业的产品化效率也就越高,行业壁垒也就随之建立起来。
基于深厚的技术积淀,目前中科凡语推出了“信译”、“信推”、“信析”、“信服”和“信取”五大NLP技术产品。“信译”是基于为用户提供优质、专业、准确、高效的机器翻译服务;“信推”是针对长文本完成多模态自动摘要生成和关键词提取及内容推送;“信取”则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理,等等。目前中科凡语所推出的“五信”,“飞译”或是“洞知”产品,都是基于客户普遍的共性需求所建立的。未来的产品开发,还将继续朝着系统化、模块化、工具化的方向出发,为客户提供更易组装、更加灵活、适用性更强的智能服务产品,构建多模块、广适用、高精度的底层NLP技术平台。
专业领域亿级语料数据
为行业发展提供动力
高质量标注数据是AI时代NLP技术的关键因素。NLP技术本质上是基于深度学习的,相比于视觉或音频信息,自然语言更加抽象,蕴含了更加丰富的人类定义的知识。因此,NLP的技术效果很大程度上取决于标注数据的质量和规模。
中科凡语作了大量的基础工作。在标注人员方面,以翻译样本标注为例,中科凡语同全国100多所高校外国语学院达成了合作,并建立了与之相对应的人物画像,丰富语种人才库的同时,进一步提升适配效率;在标注数据方面,分层分级,重点筛选种子样本;再通过不断优化迭代算法方面的优势,来最大化的降低标注成本,筛选出有价值的数据。同时,通过前台数据与后台算法的深度绑定,中科凡语进一步提升了数据储备的质量和规模,形成一个良性的闭环。
基于中国科学院自动化研究所相关团队20余年的积累,中科凡语目前已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料,及大规模涵盖多语言、多领域、多场景、多任务、多层次的高精准标注语料,NLP语料数据方面行业领先。同时,通过创新迭代的智能化标注算法,中科凡语也在不断充实NLP语料池,着力挖掘大规模、高质量的标注数据。这不仅带来效率提升、技术升级,更是NLP发展的必然趋势。
深耕行业夯实优势
NLP下一个十年中文论剑
纵观国内外NLP产业发展现状,国外NLP技术由于起步早、技术领先,而国内目前则处于奋起直追阶段。随着中国企业逐渐从“辅助角色”进化为中坚力量,“学术界+工业界”的双轮驱动推动中国AI力量悄然变化。
中科凡语作为国产NLP领域先行者,承接了中科院自动化所过去20多年在NLP领域技术积累,在技术、数据乃至人才方面都有着天然优势。成立四年来,中科凡语已成功落地了100多家G端客户、50余家B端客户,同时还承担了多项国家和政府重大需求项目,例如为“一带一路”沿线国家提供翻译、信息整合及分析服务等,未来还将持续深耕认知智能、通用智能、因果推断等技术领域,进一步推动NLP成果产业化。中科凡语还于2020年11月成立了凡语AI研究院,已吸引60多名高级人才加入,共同进行前沿研究,探索新的基础模型与技术路线,建立竞合协同的行业生态。
在政策红利和蓝海市场的双重利好下,NLP 已步入发展快车道,并涌现了许多商业化应用,如机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等。随着AI技术不断走向“深水区”,作为AI最高层次的NLP也将伴随着数智化的产业趋势快速迭代更新。中科凡语致力于通过本身在NLP领域积累的人才、算法、数据等优势,联合业界的专家学者、行业精英,共同推动NLP最前沿技术和应用,在国产NLP的发展中贡献力量。
金科君创已投部分TMT企业
(以投资先后顺序排列)