凤凰卫视发布AI数据业务，丰富大模型华语语料资源

【天极网企业频道】作为人工智能领域的一个重要分支，AI大模型正在带领我们进入一个充满无限可能和惊喜的新时代，大模型通过模拟人类的学习方式，理解和处理自然语言，展现出极高的泛化能力。据不完全统计，截止10月份国内已经发布了238个大模型。大模型产业已然进入“百模大战”模式，行业赛道热度不断高涨，越来越多的企业开始尝试使用大模型来升级改造自身业务。

凤凰卫视便是奔赴AI大模型领域的代表之一。在11月13日召开的“数聚未来——凤凰大模型数据研讨沙龙”上，凤凰卫视正式发布“凤凰智媒AI数据业务”，并发布首批“中文访谈对话数据集”和“正向价值对齐数据集”。未来也将陆续发布面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集。

凤凰卫视奔赴AI星辰大海

在人工智能领域，算力、算法和数据三者密不可分：算力提供了强有力的支持，算法决定了机器的智能水平，数据则是让机器学习不断进化的源泉。作为人工智能领域最珍贵、最重要的资源之一，数据包含了人工智能系统所需要的文字、图像、声音信息，数据的质量和数量决定了算法的效果和性能。

凤凰卫视执行副总裁兼运营总裁李奇

在笔者看来，数据在人工智能发展中发挥着至关重要的效能，其短板与不足也需要得到重视。凤凰卫视执行副总裁兼运营总裁李奇表示：“数据仍是目前人工智能发展的短板之一，数据就像是人工智能时代的石油资源，它的开发和应用都将是一个系统工程，需要产业界无数企业共同参与。”

凤凰卫视如何做？具体来看，凤凰卫视即将推出以数据为中心的一站式AI训练平台，计划2024年5月上线。据悉，平台将与高质量数据集市实现互联互通，确保数据在平台的安全使用，还将提供一系列以数据为中心的服务，包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。

除了一站式AI训练平台，凤凰卫视发布首批“中文访谈对话数据集” 和 “正向价值对齐数据集”。其中，“中文访谈对话数据集” 基于凤凰卫视访谈类节目生成，规模达百万轮次，连续对话的平均轮次超 30 轮次。“正向价值对齐数据集” 的构建则以权威学术团队的研究成果为指导，由凤凰卫视专业内容团队人工撰写而成，规模达十万个问答对。

凤凰卫视融媒体研发副总经理冯伟

凤凰卫视融媒体研发副总经理冯伟表示，高质量的数据语料库是AI时代承载中华文化的新载体，凤凰数据的核心目标是为AI时代的中华文化传播奠定坚实基础，让AI与中华文化认知对齐更简单。据悉，凤凰卫视还将于明年3月、7月、11月发布第2至4批数据集。

应对挑战，大模型产业蓄力未来

大模型发展初期尚需要面对诸多挑战：首先，计算资源和时间成本高，大模型的训练和推理需要大量的计算资源和时间，这不仅增加了成本也限制了模型的可用性和可推广性;其次，数据多样性和质量，如果数据存在问题，相应的会影响模型的训练效果;再次，泛化能力和鲁棒性，大模型虽然具有强大的学习能力和特征提取能力，但往往存在过拟合和泛化能力不足的问题。

此外，可解释性和透明度也是大模型发展的挑战之一。通常，大模型往往非常复杂，难以解释其决策和行为，这会影响人们对模型的信任和使用。因此，如何提高大模型的可解释性和透明度，是未来研究的重要方向之一。

香港科技大学 (广州) 协理副校长熊辉

香港科技大学 (广州) 协理副校长熊辉认为，虽然算力是行业公认的中国大模型面临的挑战之一，但真正的挑战是数据。他表示：“虽然国内大模型在中文数据上占有优势，但整体的中文数据在整个人类知识的数据体系中仅占很小一部分，中国大模型如何能够真正做到跨语言体系、跨文化体系，构建起高价值、高质量、全方位的数据集，仍然面临较大挑战。”

视觉中国创始人、总裁柴继军从版权角度对大模型带来的挑战进行阐述，他表示：“AIGC 将会对传统的版权生态形成极大挑战。在他看来，人类创作与机器创作能否真正做到人机协同尚无明确答案，如何更好地保护版权，让内容源头的创作者分享人工智能再创作的价值，也仍然充满挑战。”

生态协作也成为当务之急，商汤科技数字文娱总经理栾青指出，当前市场对于大模型的未来发展及应用暂时处在探索阶段，需要各方力量共同努力。中科闻歌创始合伙人兼 CTO 曹家认为，我们需要正视本土大模型与国外以 OpenAI 为首的大模型产品的差距，但本土大模型在中文能力仍具有一定优势。

中国科学院信息工程研究所研究员张潇丹表示，虽然大模型正处在蓬勃发展的时代，但也存在诸多风险因素，比如虚假信息的生成、语言偏见等，这些风险源自于训练数据的偏颇、模型自身逻辑缺陷及缺乏纠错能力等，因此亟需建立大模型的正向价值体系。

众人拾柴火焰高，做大做强AI大模型产业并不是单单依靠某一家企业就能够做到的，生态的力量尤为重要。李奇表示：“凤凰卫视作为一个立足香港、背靠内地、面向全球发展的国际媒体，也将是人工智能时代的积极参与者，期望发挥凤凰的媒体平台优势，为产业界建立一个共建共享的数据平台，共同推进人工智能的快速发展。”

微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍

微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍也从媒体生产内容角度阐述了生态的重要性。他表示：“围绕大模型，目前已经形成由基础设施层、模型层、应用层共同构成的AIGC生态体系。对于媒体而言，AIGC将带来内容生产方式的变革，AIGC 时代的内容质量、效率及产量都将迎来高速发展。在未来，AI将创造出一种新型的‘人机共存消费模式’。”

智谱AI副总裁刘佳也从生成式AI行业落地方面分享自己的观点，他表示，随着 2020 年 ChatGPT 的问世，生成式 AI 步入 “第一阶段”。而在当前，市场已进入 “第二阶段”，生成式 AI 开始在千行百业落地。刘佳形容说，之前我们找到了锤子，现在我们要发现更多的钉子，让大模型的能力落地。

华为云EI产品部部长尤鹏表示，华为希望和凤凰卫视一起共建数据黑土地，共同探索产业界自下而上的数据合作路径和商业模式，共同构建大模型的“数据-算力-商业”飞轮，推动数据产业发展。

写在最后

如今，大模型发展势如破竹，然而真正实现行业化、场景化落地并非易事，这需要从算力、算法、数据等方面进行努力，同时也需要从行业场景需求出发，将大模型进行落地。无论哪种模式与方法，都需要产业上下游进行通力协作，避免闭门造句，以更为开放的数据、算法推动大模型产业的发展。