7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海世博中心举行。上海数据交易所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,分享关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设性建议。
汤奇峰认为,大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
(资料图片仅供参考)
“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力,加强数据要素建设,提升语料库建设效率。”
当天,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。
关于语料库建设的挑战,汤奇峰认为,主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出,可以根据开放程度强弱和数据质量高低,将语料数据生态机构分为四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议,可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向,建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题”。
此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通,以提高该类供方开放数据的积极性。
针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道,提高数据质量。汤奇峰介绍,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。
对于这四个阶段,汤奇峰解释说,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入第二阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。
汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素,推动语料库建设。”
上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
- 上海数交所总经理汤奇峰:构建大模型时代语料库数据生态,推动数据要素市场创新
- 气候变化之痛:厄尔尼诺再现
- 惊呆了,550多家机构关注,人形机器人最牛股爆热!这些优质高成长股被盯上
- 《中国矿业金融发展报告2023》发布
- 玉手镯怎么辨别真假(怎样辨别玉的真假)
- 辽宁省大连市2023-06-25 18:08发布大雾橙色预警
- 大爆冷!马龙决胜局惜败无缘8强,奥运季军2比3不敌非洲冠军
- 怎么样开烧烤店才能赚钱?烤焰所加盟优势多多不怕没钱赚!
- 2023世界人工智能大会闭幕 32个重大产业签约总额达288亿元
- 光影传韵丹青留香 内蒙古草原文化节系列展精品汇集精彩纷呈
- 法拍成“捡漏”法宝?深圳知名豪宅成交,价格降了3000万
- 吉林长春市3000个新能源充电桩预计7月末陆续投运
- 中国移动发布两款人工智能行业大模型
- Make you feel my love歌词(make you feel my love歌词)
- 5天3地多人接连确诊!如何做好防护
- 【暑期这样玩】记者探访河南省科技馆 万张门票 等你来约!
- 王牌竞速肖老板借钱会还吗
- 2023年黔南州中考一分一段表
- 净流入大减速!7月首周吸金15亿
- 会计的主要作用是什么 什么是会计会计的作用是什么
- 知识普及是什么意思_普及是什么意思
- 消息称苹果正开发可折叠MacBook笔记本电脑项目,利好三星
- 《魔道祖师》最好的结局,温氏姐弟仍旧在,云梦双杰未别离
- 这回就看刘诗雯的了!伊藤美诚输国乒仍不服,小枣能再赢她一回吗
- 上海航交所:运输需求增长乏力 本周多数航线运价下行
- 路博迈基金董事长、总经理变动
- 2023太原论坛宣传标语公开征集中
- 正式任命,篮协官宣新职务,李梦亮相新岗位,薪酬曝光
- 运输需求增长乏力,本周多数航线运价下行
- 精神疾病女子地铁内发表不当言论,男子为吸粉拍视频上网引发冲突,殴打残疾人被行政处罚