凤凰卫视发布AI数据业务,丰富大模型华语语料资源
- +1 你赞过了
【天极网企业频道】作为人工智能领域的一个重要分支,AI大模型正在带领我们进入一个充满无限可能和惊喜的新时代,大模型通过模拟人类的学习方式,理解和处理自然语言,展现出极高的泛化能力。据不完全统计,截止10月份国内已经发布了238个大模型。大模型产业已然进入“百模大战”模式,行业赛道热度不断高涨,越来越多的企业开始尝试使用大模型来升级改造自身业务。
凤凰卫视便是奔赴AI大模型领域的代表之一。在11月13日召开的“数聚未来——凤凰大模型数据研讨沙龙”上,凤凰卫视正式发布“凤凰智媒AI数据业务”,并发布首批“中文访谈对话数据集”和“正向价值对齐数据集”。未来也将陆续发布面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集。
凤凰卫视奔赴AI星辰大海
在人工智能领域,算力、算法和数据三者密不可分:算力提供了强有力的支持,算法决定了机器的智能水平,数据则是让机器学习不断进化的源泉。作为人工智能领域最珍贵、最重要的资源之一,数据包含了人工智能系统所需要的文字、图像、声音信息,数据的质量和数量决定了算法的效果和性能。
在笔者看来,数据在人工智能发展中发挥着至关重要的效能,其短板与不足也需要得到重视。凤凰卫视执行副总裁兼运营总裁李奇表示:“数据仍是目前人工智能发展的短板之一,数据就像是人工智能时代的石油资源,它的开发和应用都将是一个系统工程,需要产业界无数企业共同参与。”
凤凰卫视如何做?具体来看,凤凰卫视即将推出以数据为中心的一站式AI训练平台,计划2024年5月上线。据悉,平台将与高质量数据集市实现互联互通,确保数据在平台的安全使用,还将提供一系列以数据为中心的服务,包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。
除了一站式AI训练平台,凤凰卫视发布首批“中文访谈对话数据集” 和 “正向价值对齐数据集”。其中,“中文访谈对话数据集” 基于凤凰卫视访谈类节目生成,规模达百万轮次,连续对话的平均轮次超 30 轮次。“正向价值对齐数据集” 的构建则以权威学术团队的研究成果为指导,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。
凤凰卫视融媒体研发副总经理冯伟表示,高质量的数据语料库是AI时代承载中华文化的新载体,凤凰数据的核心目标是为AI时代的中华文化传播奠定坚实基础,让AI与中华文化认知对齐更简单。据悉,凤凰卫视还将于明年3月、7月、11月发布第2至4批数据集。
应对挑战,大模型产业蓄力未来
大模型发展初期尚需要面对诸多挑战:首先,计算资源和时间成本高,大模型的训练和推理需要大量的计算资源和时间,这不仅增加了成本也限制了模型的可用性和可推广性;其次,数据多样性和质量,如果数据存在问题,相应的会影响模型的训练效果;再次,泛化能力和鲁棒性,大模型虽然具有强大的学习能力和特征提取能力,但往往存在过拟合和泛化能力不足的问题。
此外,可解释性和透明度也是大模型发展的挑战之一。通常,大模型往往非常复杂,难以解释其决策和行为,这会影响人们对模型的信任和使用。因此,如何提高大模型的可解释性和透明度,是未来研究的重要方向之一。
香港科技大学 (广州) 协理副校长熊辉认为,虽然算力是行业公认的中国大模型面临的挑战之一,但真正的挑战是数据。他表示:“虽然国内大模型在中文数据上占有优势,但整体的中文数据在整个人类知识的数据体系中仅占很小一部分,中国大模型如何能够真正做到跨语言体系、跨文化体系,构建起高价值、高质量、全方位的数据集,仍然面临较大挑战。”
视觉中国创始人、总裁柴继军从版权角度对大模型带来的挑战进行阐述,他表示:“AIGC 将会对传统的版权生态形成极大挑战。在他看来,人类创作与机器创作能否真正做到人机协同尚无明确答案,如何更好地保护版权,让内容源头的创作者分享人工智能再创作的价值,也仍然充满挑战。”
生态协作也成为当务之急,商汤科技数字文娱总经理栾青指出,当前市场对于大模型的未来发展及应用暂时处在探索阶段,需要各方力量共同努力。中科闻歌创始合伙人兼 CTO 曹家认为,我们需要正视本土大模型与国外以 OpenAI 为首的大模型产品的差距,但本土大模型在中文能力仍具有一定优势。
中国科学院信息工程研究所研究员张潇丹表示,虽然大模型正处在蓬勃发展的时代,但也存在诸多风险因素,比如虚假信息的生成、语言偏见等,这些风险源自于训练数据的偏颇、模型自身逻辑缺陷及缺乏纠错能力等,因此亟需建立大模型的正向价值体系。
众人拾柴火焰高,做大做强AI大模型产业并不是单单依靠某一家企业就能够做到的,生态的力量尤为重要。李奇表示:“凤凰卫视作为一个立足香港、背靠内地、面向全球发展的国际媒体,也将是人工智能时代的积极参与者,期望发挥凤凰的媒体平台优势,为产业界建立一个共建共享的数据平台,共同推进人工智能的快速发展。”
微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍也从媒体生产内容角度阐述了生态的重要性。他表示:“围绕大模型,目前已经形成由基础设施层、模型层、应用层共同构成的AIGC生态体系。对于媒体而言,AIGC将带来内容生产方式的变革,AIGC 时代的内容质量、效率及产量都将迎来高速发展。在未来,AI将创造出一种新型的‘人机共存消费模式’。”
智谱AI副总裁刘佳也从生成式AI行业落地方面分享自己的观点,他表示,随着 2020 年 ChatGPT 的问世,生成式 AI 步入 “第一阶段”。而在当前,市场已进入 “第二阶段”,生成式 AI 开始在千行百业落地。刘佳形容说,之前我们找到了锤子,现在我们要发现更多的钉子,让大模型的能力落地。
华为云EI产品部部长尤鹏表示,华为希望和凤凰卫视一起共建数据黑土地,共同探索产业界自下而上的数据合作路径和商业模式,共同构建大模型的“数据-算力-商业”飞轮,推动数据产业发展。
写在最后
如今,大模型发展势如破竹,然而真正实现行业化、场景化落地并非易事,这需要从算力、算法、数据等方面进行努力,同时也需要从行业场景需求出发,将大模型进行落地。无论哪种模式与方法,都需要产业上下游进行通力协作,避免闭门造句,以更为开放的数据、算法推动大模型产业的发展。
最新资讯
热门视频
新品评测