叶雅珍1,2, 朱扬勇1,2
1.复旦大学打算机科学技能学院
2.上海市数据科学重点实验室

择要:与常日的商品市场一样,数据市场中流利的数据商品也分为标准产品和非标准产品两大类。目前,市场中有效流利的数据产品是音乐、图片、电影等标准数据产品,而一样平常意义上的、大规模的大数据流利则碰着了诸多障碍,个中一个障碍便是数据产品的计量计价问题,须要设计一个可计量的标准数据产品形态。基于数据盒模型,设计了一种数据产品的根本标准形态,称之为盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分,个中,盒内数据是指“韶光+空间+内容”三维度的数据立方体组织,一样平常包括图像、图形、***、音频、文本、构造化数据等多种数据类型;盒外包装包括产品登记证书,以及产品解释书、质量证书、合规证书等内容。盒装数据旨在为数据要素市场供应一个可计量计价的标准数据产品形态。
关键词:数据产品 ; 盒装数据 ; 产品形态 ; 数据市场
论文引用格式:
叶雅珍, 朱扬勇. 盒装数据: 一种基于数据盒的数据产品形态[J]. 大数据, 2022, 8(3):15-25.
YE Y Z, ZHU Y Y, et al. BoxedData: a data product form based on databox[J]. Big Data Research, 2022, 8(3):15-25.
0 弁言
数据是数字经济的关键要素,数据要素市场培植是发展数字经济的根本性事情,数据产品在数据市场上的有效流利是数字经济持续康健发展的主要标志。当前,音乐、图片、电影等标准化的数据产品已在数据市场上有效流利,但一样平常意义上的、更大规模的大数据流利却面临困境。造成这个局势的紧张缘故原由是这类产品紧张是非标准化的、产品形态难以界定,不能准确地计量,因而也难以计价。近年来,海内数据交易机构探索通过数据交易办法实现大数据流利的机制和可行路径,但在未能明确数据产品形态的情形下,数据的计量计价机制难以形成,数据交易面临难以开展数据交易业务的困境,这也是数据交易机构面临的困境之一。
数据产品的界定尚在研究阶段,还未形成统一的标准定义。Loukides M将利用数据生产更多新数据并由此实现数据代价的运用程序视为数据产品,他认为数据科学的研究为数据产品的创建创造了条件。Hazen B T等人认为数据产品与制造业生产产品类似,是数据生产的产出品 。Huang G Y等人把从原始数据中通过移除噪声与无用信息而得到的关键信息所形成的一种新的数据格式,称为特定领域的数据产品。Bengfort B等人认为数据产品是数据与用于推理或预测的统打算法的组合。Cao L B将数据产品定义为来自数据或由数据支持、驱动的可交付产品,其可以是某种创造、预测、做事、决策、模型、范式、系统等形式,数据产品的终极代价将表示在知识、智能及决策等方面。Pei J给出的数据产品定义是从数据集派生出的用于产品和信息做事的数据集。作为一个须要在市场上流利的产品,数据产品该当知足一定的标准规范哀求,是可以独立利用、交易流利的数据集。
数据产品形态是数据产品得以计量、计价的根本,如果能够设计出一个数据产品形态,那么数据产品的生产、流利、监管都将变得更有效率。数据产品到底该当具备若何的形态才可以被可靠地计量、计价,并得以在数据市场上有效流利呢?Storch T等人对某领域的科学数据产品标准进行了研究,Bing C等人对某运用领域的数据产品类型进行了划分。在数据产品干系实践方面,上海数据交易所积极探索数据产品交易环节和步骤,开展数据产品登记凭据、数据产品解释书等实践事情;山东数据交易有限公司联合中国信息通信研究院制订《数据(产品)登记管理办法》,探索数据产品的登记流程。上述事情仅涉及数据产品的一些原则性规范哀求,尚未考虑数据产品的形态。朱扬勇等人设计了一个数据盒模型,将构造化和非构造化的电子数据汇聚在一起,形成外部可见可用的数据容器,该模型具有数据产品形态雏形;叶雅珍等人提炼了音乐、图片、电影等单一类型数据产品的形态。值得把稳的是,图书将笔墨、图片、图形等非电子数据汇聚在一起形成标准化产品,这种做法对付非标准数据产品的标准化有很好的借鉴浸染。基于图书的根本页码数量为49页,以及形状哀求、版权规则等标准规范,将笔墨、图片、图形等非电子数据汇聚在一起就形成了一种标准化的非电子数据产品——图书。本文针对数据产品形态问题,参考图书形态设计,基于数据盒模型设计了一种数据产品标准形态——盒装数据。盒装数据紧张由“韶光+空间+内容”三维度的数据立方体组织——盒内数据,以及包括产品登记证书、产品解释书、质量证书、合规证书等内容的盒外包装组成。
1 数据产品问题描述作为一类新型产品,数据产品与其他产品一样,要想实现在数据市场中有效交易和流利,就须要能对其开展可靠的计量,而数据产品计量要有可用可见的数据产品形态。
1.1 数据产品的计量问题数据的多样性和繁芜性加大了数据产品计量的难度。数据产品由数据组成,是电子化的非实物产品。网络空间中的数据通过键盘、摄影机、手机、对地不雅观测卫星、正负电子对撞机、DNA测序仪等电子仪器设备一直地产生,随着韶光的推移,所积累的数据种别、形式越来越多样,繁芜度越来越高。因而,对不同行业、不同格式、不同种别、在互联网中/不在互联网中、公开/非公开的数据进行统一计量存在困难,对由多种数据组成、类型多样、规模弘大的大数据集进行可靠计量也存在巨大寻衅。其余,数据的信息属性使得数据产品的代价因人而异、存在相对性,这给数据产品计价带来很大的技能寻衅。
数据产品计量方面已经有一些探索和实践,有些大略的数据产品计量方法是相对可行的,使得相应数据产品能在数据市场上有效流利。例如,当前在市场上流利的音乐数据产品是一首曲子、一首歌等,以一个完全的音乐作品为计量单位进行计量;类似地,图片数据产品因此一幅图为计量单位,影视数据产品因此一部电影、一集电视剧等为计量单位。这类数据产品的计量单位是早期非电子化情形下就已经设计了标准产品形态的结果,是这些数据产品能在市场上有效流利的根本和条件。
1.2 数据产品的形态问题数据产品具有可用可见的形态是其能被可靠计量和计价的条件。
数据产品的生产办法紧张有两种:一种是通过数字化实物产品形成数据产品,另一种是直接加工有关数据形成数据产品。组成数据产品的数据的形式、类型是多种多样的,可以是整数、小数等数值型数据,可以是符号、字符、日期等数据,也可以是文本、音频、图像、照片和***等类别的数据。这些数据难以有统一的标准,这对设计统一的数据产品形态造成了极大困难,包括形式统一困难和规模统一困难。
● 数据产品形式统一困难。数据产品形式可以是由单一种别数据组成的形式,亦可是由多种不同类别的数据构成的形式。例如,一个音乐数据产品可以由统一的数据形式组成;再如,一个电子病历的数据产品包含多种种别形式的检疫考验数据和医嘱、治疗方案数据;等等。如何将这些不同类型的数据统一管理是一个难题,这个难题在数据库领域已经存在多年。
● 数据产品规模统一困难。数据产品的数据种别形式多样且繁芜,使得数据产品规模难以有固定大小的基本量。例如,一个音乐数据产品的规模常日在MB级;而一个用于某类疾病大数据研究的电子病历数据产品,一样平常要有数万份该类疾病的电子病历才能达到研究的哀求,其数据规模常日会在GB级乃至以上;等等。那么,利用多大规模作为数据产品的衡量标准呢?这也是一个极具寻衅的难题。
由于上述两个难题,数据产品的形式和规模至今未能有一个统一的计量方法,从而导致组成数据产品的形式、类型以及规模都是非标准的。
2 图书的形态与数据盒图书汇聚了笔墨、图表等多种类型的数据,图书以“本/册”为计量单位,图书的计价不以图书的内容为基准,而以图书编撰、印刷、流利过程的本钱为基准。对付多类型数据汇聚这种做法,图书与数据产品非常相似,乃至可以说是同等的。因此,可以借鉴图书的形态,设计数据产品的形态。那么,如何将多种类型的数据包装成“一本书”呢?数据盒是一个很好的选择,用数据盒包装多种类型的数据,形成一个数据产品的标准形态——盒装数据。
2.1 图书的形态笔墨、图片、图形等数据汇聚通过图书的形态,从原来的非标准化产品变为标准化产品。图书的形态紧张包括正文主体内容和干系配套内容两大部分。笔墨产品按一定的排版格式分章节形成图书的正文主体内容,从而知足一定的可阅读性,这部分内容是图书的内容主体,具有独立完全性,是一个有机整体。为了让笔墨、图片、图形等数据汇聚能合规出版发行,并成为标准产品得以在市场上流利交易,图书形态配有封面、扉页、版权页、序言(或序)、后记(或跋)、目录、插图及其笔墨解释等内容。个中, 版权页又称版权记录页,由版权解释、图书在版编目数据和版本记录等内容构成,将纸质图书的书名、作者、国际标准书号(international standard book number,ISBN)、出版任务人、出版发行者、规模大小(开本、字数、印张等)、印刷发行记录等信息都席卷在内 。图书形态的干系配套内容对付保护版权人的干系权柄和读者利用勾引等方面具有非常主要的浸染。
作为一类记录和传播数据的载体产品,图书经由永劫光的发展和实践,已形成非常成熟和固定的产品形态。图书的形态能很好地办理笔墨、图片、图形等数据汇聚在数据类型、数据规模等方面分歧一的问题,使笔墨、图片、图形等数据汇聚产品成为标准化产品,并在市场上有效流利。
2.2 数据盒内部的数据组织数据盒的基本形态如图1所示。数据盒自带自主程序单元,封装在数据盒中的数据集只能通过该单元接口进行受控访问,以实现在数据流利过程中,数据盒中的数据集在担保方便利用的条件下能很好地掩护数据拥有方的权柄,即数据盒外部可见、可理解、可编程,内部可控、可跟踪、可撤销。每个数据盒设有唯一 的字符串类型的标识——数据盒标牌。
图1 数据盒的基本形态
数据盒是数据集标准化的一个框架模型。如何设计组织数据盒内部的数据呢?先看一个大略的数据产品的例子。
例1:“某证券交易所2020年挂牌股票的行情数据集”数据产品。该数据产品的数据集如图2所示。可以看出,单一类型数据产品(如表格、点集、照片集等)很随意马虎用内容维度、韶光维度和空间维度来表达。
● 内容维度:是数据集中每个数据工具的内容,即数据工具有哪些属性,这些属性描述了数据工具的完全内容,使得数据工具作为实体独立存在,属性可以是一个或多个。从图2可以看到,内容维度有开盘价、收盘价、最高价、最低价。
● 韶光维度:指每个数据工具的韶光覆盖范围,即数据工具在不同韶光上的值。很多数据产品描述了一段韶光的事物或行为的变革,因此数据产品会用一个韶光维度来描述每个数据工具在不同韶光上的详细值。数据产品须要描述其数据工具详细的韶光段和韶光粒度。从图2可以看到,韶光维度为每个交易日。
● 空间维度:指符合数据产品描述的数据工具的空间覆盖范围,即知够数据产品描述的数据工具全体。须要可区分、可甄别、可考验地描述出数据产品所含数据工具的范围。对付一个数据集,应该明确指明其工具空间应覆盖的范围。从图2可以看到,空间维度为在某证券交易所挂牌的所有股票。
图2 “某证券交易所2020年挂牌股票的行情数据集”数据集
一些数据产品可能没有韶光维度(如一个照片数据集就没有韶光维度),但内容维度和空间维度是必须要有的。内容维度是对数据工具的描述,空间维度涉及数据工具全体。
针对数据集的三维特色,设计数据盒内部的数据组织为一个包含内容维度、韶光维度、空间维度的三维立方体构造的数据形态,简称盒内数据。将图2的数据集装入数据盒后的盒装数据产品如图3所示。没有韶光维度的图片盒装数据产品如图4所示。
图3 “某证券交易所2020年挂牌股票的行情数据集”盒装数据产品
图4 没有韶光维度的图片盒装数据产品
对付多类型的数据产品,可以用数据盒的组合形式来表示,即将多个数据盒装入一个大的数据盒中,形成复合型盒装数据产品,如图5所示。这很类似于用零部件组装成一个大的部件,然后还可以用大部件连续组装,直到形成须要的产品。
图5 复合型盒装数据产品
2.3 盒装数据的计量像图书容纳笔墨那样,数据盒可被看作一种能够容纳数据的容器。规定了49页的图书根本规模后,形成了图书的计量单位,并且设计了ISBN等。这样,图书就能方便地在市场上流利。参照图书的做法,可以设计一个标准化的盒装数据产品的根本规模和内容。在规定盒装数据的根本规模后,盒装数据就可以作为标准化的计量单位。
盒装数据的根本规模和内容的设定要表示市场需求和监管需求。
首先是市场需求。显然,数据流利的基本单位不是一条条数据,也不是一个大略的数据集。数据资源是有含义的数据集结到一定规模后形成的。“一定规模”是数据资源的哀求,没有“一定规模”不能被称为数据资源。以个人数据为例,一个人的身份数据不能被称为数据资源,但是一个城市所有居民的身份数据是很主要的数据资源。在第三届数据科学家大会上向110位参会的数据科学家和数据从业职员发起的大数据问卷调查显示,有96.3%的受访者认为一个大数据产品至少该当达到GB级别以上的数据规模,其内容应至少包括图像、图形、音频、***、构造化数据、文本等两种以上数据类型。
其次是监管需求。盒装数据作为标准产品在市场上流利,就须要政府监管。对付数据市场,政府监管有两个目的:一个是掩护市场的公正、公开、公道;另一个是保护国家数据安全和公民个人信息。前者是所有商品市场都须要的,紧张是市场法规的培植;而后者则是数据市场特有的。那么,多大的数据规模有利于监管的履行呢?以公民个人信息保护为例,我国法律中针对陵犯公民个人信息有专门的量刑标准,造孽获取、***或者供应公民个人信息5 000条以上的,应该被认定为《中华公民共和国刑法》所规定的“情节严重”,已构成犯罪事实,要接管法律的惩办。我国《最高公民法院、最高公民审查院关于办理陵犯公民个人信息刑事案件适用法律多少问题的阐明》指出,公民个人信息紧张包括姓名、***件号码、联系办法、住址、账号密码、财产状况、行踪轨迹等内容。一条公民个人数据涉及十几个数据项(1 KB),加上公民的一张证件照片(200 KB)、一个指纹(10 KB)等内容,其数据规模约211 KB,5 000条公民个人数据大概为1 GB。
鉴于上述两类需求,将盒装数据的最小规模设定为1 GB,这作为其根本规模的数据量是得当的。盒装数据采取1 GB的根本规模作为计量单位,这基本参照了调查结果,也基本符合5 000条个人数据的规模,兼顾了市场需求和监管需求。与“达到49页的规模才能构成一本图书”类似,“达到1 GB的数据规模才能构成一个盒装数据”也是一个认定的规模数值,不是一个科学的界定,详细的标准规模还有待未来实践总结和完善。
对付小于1 GB数据规模的数据集是否须要作为数据产品的问题,从生产、登记、管理和流利本钱多个方面来看,目前暂时不予考虑,以免使情形过于繁芜,本钱过高且难以被监管。例如,人们在朋友圈中传播的照片等,如果将这些都作为数据产品进行登记的话,行政本钱就会过高。就像不能把几页的笔墨材料以图书的办法进行出版一样,在数据产品登记初期,先不考虑将较小数据规模的数据集作为数据产品。其余,单一照片、图书、音乐等在传统电子音像出版领域已经有一套完全的产品体系,因此并不须要考虑新的产品形态。
3 盒装数据外部形态盒装数据外部形态(又称盒外包装)包括产品登记证书、产品解释书、质量证书、合规证书等。
3.1 产品登记证书盒装数据产品登记证书是拥有者对干系数据产品权属的声明,是对盒内数据的概述性先容,由专门的数据产品登记主管部门审核发放。只有登记后的盒装数据产品才具有合法性,才被许可在数据市场上进行流利和交易,并受法律保护。
盒装数据产品登记证书紧张包含产品名称、产品登记号(编号、条码或二维码)、数据盒标牌、生产商/著作权人、数据量、访问编程接口、权利等方面的内容,还包括产品解释书、质量证书、合规证书等附件,详细见表1。
个中,产品登记号(编号、条码或二维码)是保护知识产权和确认数据权属的一种工具,便于盒装数据发行、流利过程中的维权和授权。这类版权标识需经由专门的管理机构登记给出,具有唯一性,可为盒装数据后续的维权、授权等方面的追踪供应便利。数据盒标牌是一种数据牌号,由生产商根据一定的标码规则融入品牌元素给出。此外,在互联网上盒装数据还须要给定专门的访问标识,以便人们利用干系系统在互联网上快速查询和访问盒装数据。
3.2 产品解释书盒装数据产品可以让购买者在购买前看到数据是什么、怎么用,所谓“可见可用、先看后买”。做法是供应详细的产品解释书,包括数据产品内容解释、生产办法/著作办法解释(被加工数据来源的合法性证明)和利用解释等。个中利用解释详细先容了利用环境、利用接口、利用举例、接口代码等内容。
● 利用环境:包括对硬件(打算机集群、内外存、CPU、集群总线等)和打算机软件(Windows、macOS和Linux等操作系统,Hadoop、Spark等软件)的哀求。
● 利用接口:紧张为外部软件受控访问、利用开拓盒内数据供应接口,包括数据访问接口和数据利用软件运用编程接口等。个中,数据访问接口紧张用于用户访问盒内数据,紧张分为元数据查询接口、原始数据查询接口、数据统计接口;数据利用软件运用编程接口紧张用于用户开拓数据访问程序,紧张包括开拓态数据访问接口和运行态数据访问接口。
● 利用举例:开展用户利用盒装数据的勾引事情,紧张以图文形式、通过案例来辅导用户利用盒装数据的方法步骤。
● 接口代码:紧张供应访问、利用、开拓盒内数据的接口代码。
3.3 质量证书盒装数据只有达到一定的数据质量哀求才许可被登记,才能进入数据市场流利。盒装数据的质量证书便是盒装数据中的数据集达到相应质量标准和哀求的证明性文件,是其开展交易流利的主要凭据。质量证书的干系内容可以作为判断盒装数据代价高低的依据。
盒装数据的质量证书内容紧张涵盖数据集3个维度的质量保障,用完全性来表达,即韶光完全性、空间完全性、内容完全性。质量证书由数据质量检测机构出具。
3.4 合规证书盒内数据必须合法合规,即符合国家干系法律规定,这须要状师事务所出具合规证书。
盒装数据的合规证书紧张用于承诺盒内数据符合《中华公民共和国数据安全法》《中华公民共和国网络安全法》《中华公民共和国个人信息保护法》等国家有关法律哀求,是由状师事务所供应的干系证书。
4 结束语数据流利须要一个可计量的产品形态,但如何定义数据产品形态仍面临诸多困难和寻衅。参照图书,基于数据盒模型设计了一种数据产品标准形态——盒装数据,一个标准盒装数据的数据规模为1 GB。本文设计的盒装数据是针对公开数据市场数据流利的一种探索,鉴于数据要素市场培植的急迫性,先行将阶段性研究成果公开。后续将基于标准盒装数据产品形态,进行数据产品定价和估值等干系研究事情,并开拓相应的技能平台,开展数据产品的交易流利实践事情。
作者简介
叶雅珍(1985-),女,博士,复旦大学打算机科学技能学院西席,上海市数据科学重点实验室数据资产研究室主任,复旦大学数据家当研究中央主任助理。专著《数据资产》作者,在数据资产研究与实践方面提出“数据资产框架”“数据产品运营的两阶段授权模式”等创新不雅观点。紧张研究方向为数据确权、数据资产和数据流利。
朱扬勇(1963-),男,博士,复旦大学打算机科学技能学院教授、上海市数据科学重点实验室主任,复旦大学数据家当研究中央副主任。《大数据》期刊编委会副主任,农业大数据家当技能计策同盟副理事长兼首席科学家,大数据协同安全国家工程实验室副理事长,中国自动化学会国防大数据分会副主任。国际数据科学倡导者,提出数据界、数据学、数据身、数据自治、数据财政等观点和体系。揭橥学术论文200多篇,出版《数据学》《旖旎数据》《特异群组挖掘》《数据自治》等专著,并任《大数据技能与运用丛书》(22册)主编、《大数据资源》主编。紧张研究方向为数据科学和数字经济,近期研究重点为数字化转型、数据财政、数据资产、数据自治与数据跨境等。
联系我们:
Tel:010-81055448
010-81055490
010-81055534
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、互助:010-81055307
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华公民共和国工业和信息化部主管,公民邮电出版社主理,中国打算机学会大数据专家委员会学术辅导,北京信通传媒有限任务公司出版的期刊,已成功入选中国科技核心期刊、中国打算机学会会刊、中国打算机学会推举中文科技期刊,以及信息通信领域高质量科技期刊分级目录、打算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中央学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容