天天日报丨昆仑万维CEO方汉:大模型智力提升受语料制约 端到端内容生成前景可期
21世纪经济报道记者雷晨 北京报道
6月6日,由21世纪经济报道、北京人工智能产业联盟元宇宙专业委员会、中国文化产业协会文化元宇宙专业委员会主办的“21世纪卓越董事会人工智能闭门会议”在北京召开,会议主题为“AI领域上市公司创新涌现、技术难题与发展路径”。业内专家、学者以及多位上市公司高管参会,共同探讨AI发展新路径。
(资料图片仅供参考)
昆仑万维(300418.SZ)CEO方汉出席本次闭门会并发表主旨讲话。他表示,昆仑万维是国内最早布局AIGC领域的公司之一, 从2020年就开始布局AI音乐领域,2022年1月启动SkyMusic音乐实验室,2022年4月达到人工智能领域最优效果。同年,昆仑万维从音乐AI往多模态AI拓展,并和奇点智源就百亿级大语言模型、图像AIGC、编程AIGC等技术领域达成全面技术战略合作。2022年12月正式发布“昆仑天工”,其AI生成能力已覆盖图像、音乐、文本、编程等内容模态。2023年4月17日,昆仑万维正式发布「天工」大语言模型。
大模型智力提升受语料制约
众所周知,GPT-4是多模态的大模型,但是在方汉看来,多模态只能增加大模型的输入和输出能力,并不能显著提高大模型的智力。
他认为,要想实现上述目标,唯一的途径是不断寻找质量更高的文本语料,但是高质量的文本语料已经几乎被挖掘殆尽。
他进一步指出,多模态之所以不会显著提高大模型的智力,是因为人类所有的智慧,包括科研,大多数是以文本为基础的,只有高质量的文本数据才是大模型不断提高智力的途径,不管是工业劳动,还是科研学术,最后都是落实到文本形式记录我们的智慧活动。当然,人类有很多生产行为没有被记录下来,他认为,这部分智力不会被大模型所学习到。
因此,方汉预测,大模型的智力提升将会出现一个瓶颈,也就是在逼近一个数量之后,几乎不会有太多的提高。因为现在所有大模型的智力提升仍然严重依赖于数据,所以它就一定不会自迭代加速向前发展。从工程师的角度来看,方汉认为现在人们对人工智能的担忧还是杞人忧天。
“另外,我们在实践过程中发现,用大模型来写代码,写一两个函数是非常强的,但是你让它写整个工程,需要人类大量的辅助,也就是说它目前还没有学习到对于整个工程的理解,这样导致了人类使用大模型仍然是为了对自己能力的加持,大模型取代整个程序语言还需要一段时间。”他表示。
谈及大模型对于行业的影响,方汉认为有两个标准,一是应用能否在线上完成闭环,如果业务在线上完成闭环,那么会受到大模型特别大的冲击;二是判断产品的容错度,如果容错率特别高的话,该行业也特别容易受到冲击。
端到端内容生成价值可期
商业化方面,方汉在会上表示,昆仑万维在战略层面采取To B跟To C并重的战略。
B端方面,方汉总结道,如何把行业数据生成大模型可用的数据是最难的事情。他表示,国内非常多的企业都缺比较好的数据,国内现在要To B的应用,要帮助所有行业把现有的知识推导过程给补上,不能光有题目跟答案,而要把推导过程给列出来,这样才能让各个行业去利用。
展望国内C端市场,方汉预计,国内C端一定是免费为王。另外,他看好私有化部署方向,整个大模型训练固然对算力有极高的要求,但是目前软件优化的速度远远超过硬件迭代的速度。
海外方面,他认为中国企业最适合的是C端市场,在海外的C端市场可以做端到端的内容生成工具。“这个听起来比较简单,但实际上目前所有的AIGC工具都不是端到端的内容生产工具,而是素材生产工具。”方汉称。
方汉表示,从端到端直接生成最终的内容,最终形态是小说、动画、漫画、短视频、长视频、电影,目前小说、漫画、音乐的生成技术都比较成熟了,在这里去做端到端的内容生成工具,从而形成新的UGC社区,这个是有价值的。
不过,在方汉看来,端到端内容生成工具仍有一个技术难点没有解决,一旦解决了一致性的内容生成之后,整个影视行业、短视频行业都会被颠覆,而且一致性视频生成有望在1-3年之内取得突破。最迟3年以后,人类将可以用AI来生成一致性非常强的长视频。
关键词: