小程序
传感搜
传感圈

一文读懂:数据的五个特征、三道难题

2023-06-09
关注

本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:闫德利(腾讯研究院资深专家),原文标题:《数据的五个特征、三道难题、一种自大》,头图来自:unsplash


“数据是新石油”(Clive Humby,2006)。如果一定要找出一样,数据最像的还真是石油。两者都是重要的战略资源,都是驱动世界的动力。但数据只是数据,它不是其它任何东西。


五个特征


数据是一种客观存在,是关于事物的事实描述,可通过测量、记录、发现等方式去获得。数据具有无限性、易复制性、非均质性、易腐性和原始性五个特征。


(1)无限性。与实物不同,数据不会因使用而耗尽,反而是因使用而产生,会不断被创造,会越来越多。“数据将成为最基本的客观产物,无论做什么,我们都在产生数据”(Paul Sonderegger,2017)。根据DASA R&T《2016-2045年新兴科技趋势》,全球新产生的数据量大约每两年翻一番。这堪称大数据摩尔定律,数据大爆炸是必然。


(2)易复制性。数据可以快速地以近乎零成本的方式进行复制,可供多人同时使用,可多次循环使用,一个人的使用可以不排斥和妨碍别人对其使用,不同人之间在使用上不存在直接的利益冲突。易复制性使得数据具有一定程度的非竞争性和非排他性,但数据不是公共品,有公共数据、企业数据和个人数据之分。 


(3)非均质性。《潜伏》中谢若林有句话:“现在两根金条放在这儿,你告诉我哪一根是高尚的,哪一根是龌龊的?”这说明了一个道理——金条是均质的,两根金条有着同等的价值表现。均质性普遍存在,例如出厂的商品、油电气等能源。而数据是非均质的,一比特数据跟另一比特数据所包含的价值完全不同,同一份数据对不同人的价值也不一样。正如王钦敏(2023)所说:“数据价值因使用对象而异,因应用场景而异,因专业化数据质量标准而异。”


(4)易腐性。数据是一种易腐品,会随着时间的流逝而迅速贬值。根据IBM(2015)数据,60%的非结构化数据在几毫秒内就失去真正价值。这意味着,数据的价值很大程度体现在时效性上,超过一半的数据在产生的那一刻就不再有价值,我们可称之为“一秒钟定律”。能得到分析处理并产生实际效用的数据则更少。全球90%的数据从未得到分析使用(IBM,2015;DASA R&T,2016)。2020年被创建或复制的数据中,只有不到2%被保存并保留到2021年(来源:IDC)。


(5)原始性。数据是原始的,本身并没有意义,只有对它进行处理分析,才能转变成对人们有用的信息。如果说数据是新石油,那么分析就是内燃机。信息是数据提炼后的产物;信息经人脑加工后形成知识,知识具有主观性;数据、信息和知识是历史的,而智慧是关于未来的,是人们运用知识做出决策和判断的能力。


对数据、信息、知识和智慧之间的关系,福特汉姆大学Zeleny教授(1987)提出了DIKW金字塔模型(如下图所示),从底层到顶层依次是:


  • 数据(Data):Know nothing,一无所知;

  • 信息(Information):Know what,知道是什么;

  • 知识(Knowledge):Know how,知道怎么做;

  • 智慧(Wisdom):Know why,知道为什么。


图 DIKW金字塔模型


三道难题


一个人和周围人的差距主要在于掌握信息、理解信息和运用信息的能力不同。数据和信息至关重要。但当下有三道难题困扰着数据健康有序发展,即数据确权、数据交易和数据要素。我们要迎难而上、敢于作为,以极大的勇气和智慧破解一切困难。


(1)数据确权。关云长身在曹营心在汉。对物理存在的身体之归属,我们比较容易判断;而内心和灵魂是缥缈不定的,具有不确定性、隐秘性和多元性,不乏同时属于多个主体的情况。数据与之类似,人们很难清晰判定它属于谁,很难对其进行有效的物理切割和合理的权利分配。确权的复杂性与数据本身的特征有关,也与权利主体的多样性有关。数据链条涉及多个参与者,他们缺一不可且无法单独发挥作用,具有不同的诉求。加之,数据的价值密度低,所产生的效益难以清晰衡量,这使得数据确权的成本极高。


(2)数据交易。交易是一种互利互惠的行为,是人类社会中最具自发性和最具积极性的活动。唯有双方都从中获益,交易才会发生。对数据而言,交易则是一个难题。联合国贸发会议(2019)指出:“数据具有重要的使用(或滥用)价值,但不像大多数经济商品那样具有交换价值。”现实中的交易一般具有明确的价格,是可重复、可预期的。例如,商店把明码标价的奶茶重复售卖给不同的消费者,消费者获得的效用是可预期的——止渴、美味、社交。数据非均质、价值不易衡量、定价困难、预期效用难以管理、有“搭便车”风险……这都是数据交易中要面对的问题。


图片来自:unsplash


(3)数据要素。生产要素是人们用来生产商品和劳务所必备的基本资源。它促进生产,但不会成为产品和劳务的一部分,也不会因生产过程而发生显著变化。新古典学派创始人马歇尔在其名著《经济学原理》(1890)中提出了生产要素四元论,即土地、劳动、资本和企业家才能。梅宏院士指出(2023):“把数据确立为重要的生产要素是中国的首创。”然而,在经济学上定义数据生产要素是一件困难的事情,尚未看到有影响力和说服力的成果,迫切需要经济学家们加紧研究。


避免大数据自大


提起数据挖掘的经典案例,很多人会想到“啤酒加尿布”和谷歌流感趋势。实际上前者是一个故事,早在1992年就已出现,并没有真正发生过;后者曾提前预测出流感到来,不过因后来的准确性太低而早已被关闭。


数据的重要性毋庸置疑。人们喜欢在“数据”之前加一个“大”字,以彰显非同寻常。人们也时常陷入“大数据自大(big data hubris)”的误区。数据能解决很多问题,但有局限性,通过数据难以预测突变。一只岁月静好的猪,无法通过既往数据预测出春节的黑天鹅;马车的出行数据,可以使人们获得“一匹更快的马”,但不能使人们发明出汽车。数据是企业的竞争优势,但不是万能的。一个好的APP不会因有历史数据就能高枕无忧,它时刻受到创新者的挑战,只能“各领风骚仅几年”;创业者哪怕没有数据、没有积累,也可以推出创新产品,获得用户,取得成功。从这个角度上说,没有数据也不是不行。 


图片来自:unsplash


大数据时代,“要相关,不要因果”被奉为圭臬。“关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值”(李国杰,2015)。只信“数”不如无“数”。我们要综合运用实验观察、逻辑演绎、归纳提炼等科学方法,探究事物之间的关系和规律,才能挖掘出有价值的信息和结论。


我们重视数据,根本上不是因为数据本身重要,而是尊重客观世界和客观规律的实事求是精神重要,数据即事实。正如李国杰院士(2015)所言:“重视数据就是强调用事实说话、按理性思维的科学精神。”


本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:闫德利

  • 大数据
您觉得本篇内容如何
评分

相关产品

安科瑞 智慧消防管理云平台 大数据分析实时监控 云平台

它是通过互联网、物联网、大数据等先进技术对传统的消防信息管理系统进行升级改造,将传统的管理模式转化为网络化、数字化管理模式的系统。

OMEGA Engineering, Inc. 欧米茄 HH506A and HH506RA 数字测温仪

该装置具有实时数据保存模式下128个样本的数据记录能力,16组数据记录模式下的数据记录能力,最大数据容量为1024条记录。

TelephoneStuff.com 61-320 数字万用表

\功能:\ n-最小/最大-数据保持-自动/手动测距-大数字显示-数据保持-电容-频率-隔离电池室-自动断电-电池电量低指示-探头支架-带倾斜支架的橡胶防尘套-所有范围的过载保护 CAT IV-600V

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

鼎信智慧科技 DX-FDS100-GF 安全监控系统

光伏电站设备故障智能诊断预警系统采用离散率、偏差率和神经网络算法,通过大数据全面覆盖在线监测光伏电站所有设备,能够多级部署,分级管控,通过对光伏电站各项数据的实时监测和分析,能够及时发现设备故障和异常,

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东微感 煤矿顶板离层围岩变形应力光纤监测预警系统 顶板离层围岩变形应力光纤监测预警系统

山东微感煤矿顶板离层、围岩变形应力光纤监测预警系统实现煤矿顶板离层、锚杆/锚索应力状态、围岩应力、工作面煤体超前应力等静态参数实时在线监测;与光纤微震动态监测系统有机融合,提升了大数据分析能力,为矿山深部开采动力灾害监测预警提供核心技术支撑

温霖科技 F6 “数字哨兵”健康核验一体机

这款“数字哨兵”又叫“F6系列热成像人脸识别设备”,通行人员只需站在指定位置进行人脸测温,同时将随申码靠近扫码处,或将身份证、社保卡放置于机器上进行识别,基于上海大数据中心和健康云平台大数据支持,可快速核验健康码

深圳圣凯安 SKA17-18118745715 水质检测仪器

华谊环保水质分析仪以水质传感器为核心,结合现代传感技术、自动测量技术、自动控制技术、网络传输技术与大数据分析处理技术,构建了一个综合性的小型在线自动监测系统。

云传物联 小型水质自动监测系统 多参数监测系统

方案背景 随着生态环境监测网络的发展和水质网格化监测的推广,水环境自动监测站需要进行更密集的布点,以满足污染溯源、水质预警、河长考核等大数据应用需求

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘