数字化转型首先要提升数据学习能力
张靖笙
2020年5月13日,国家发展改革委联合17个部门以及互联网平台、行业龙头企业、金融机构等145家单位,共同启动“数字化转型伙伴行动”,以加快各行业各领域数字化转型,帮扶中小微企业渡过难关和转型发展。
图1 数据管理能力与信息化发展水平的规律性
数字化转型必须依托于数据。根据笔者多年来跟踪业界相关研究的成果,数据的管理与应用水平直接决定了企业信息化发展水平(如图1),这么多年来,很多单位在信息化上的投入也不少,每一次采购的也是当时最先进的信息技术,可是这么多年来积累下来的信息家产却往往是家丑不可外扬,软硬件投资常常是快速折旧的,现在问题最大的还是大量的数据需求没满足,而大量的存量数据却因低质量而满足不了,这是当前数字化转型“业务数据化”阶段每一个单位都在面对的结构性矛盾,技术可以是别人的,数据不管怎么说都是自己造成的,自己的数据质量不好无论如何外人也无法帮你治理和解决,所以我们说,这个数字化转型升级的阶梯,前面的坑、上面的坎都是我们每个组织走向“数据资产化、业务化、货币化”所绕不过去的门槛,还是只能自己一步一步往上爬。
所以不管我们要用数据做什么文章,对数据的学习能力都是基本功,就像当年随着私家汽车的普及,让驾驶汽车从司机专业变成日常技能,对数据的学习能力也会随着数字化的普及而成为全民通识,组织数字化转型是全员的工作,而作为通识,员工能从数据中能学习到什么有价值的东西是最为基本的数字化能力。
最近我接了研究生导师数据科学方面的学术任务,我在消化导师所给讲义课件的同时,对自己过往二十多年数据领域的学习和工作经验做了一次系统性的梳理和反思,我的工作经历在产业界有一定的代表性,看着导师讲义中我已有些生疏的大量数学符号和公式,我自己感觉业界普遍的数据学习能力都还远远够不上这么高大上的数据科学水平。
数据科学是一个早已存在,最近几年才越来越热门的概念,它曾经被称为应用统计学,数据科学家已经整合了数学、统计学、计算机科学、信号处理(感知和数据采集)、概率建模、模式识别、机器学习、不确定性建模和数据可视化等方法,以获得基于大数据集的预测能力和洞察力,看着上面这样长长的知识清单,让我感觉自己和数据科学家仍存在很大的距离。
于是问题来了,在数字化无所不在的今天,莫非数字化转型背后就没有数据科学问题?这绝不可能,只能说明我们很多单位的数据工作水平,还是处于直接查询和简单加工的初级阶段,对很多存量数据的二次加工比例和层次都很低,笔者近年来一直参与大量的各类型单位的信息化项目评审工作,我发现绝大多数比例的信息化项目,对数据需求动不动就是采用采集和录入的手段来满足,设计者一直到项目验收了,都没有说清楚或者愿意去说明白有什么数据可以从什么存量数据资源之中去找,而我们说对于大多数企业很多数据科学的应用场景,都是对存量历史数据的二次加工再利用,没有历史积累的海量数据,搞什么数据科学都是巧妇难为无米之炊。
这种局面不能不说是当前国内大多数单位搞数字化转型都在面对的问题或者障碍,我分析,造成这种障碍的原因有两方面:
第一方面是存量数据质量本身存在的问题。受限于信息化发展水平历史原因的制约,现在国内单位所积累的历史数据质量普遍都不高,数据质量问题作为一种现象或者结果,其形成原因是冰冻三尺非一日之寒,矛盾是日积月累下来和结构性的,决定这些矛盾有在数字化转型背后发挥作用的客观规律,就是我们常说的数字化各个坑、各道坎或者阶梯门槛,数据毕竟是每一个组织行为活动中形成的,本质上都是组织自己的行为造成的,所以这些坑、坎和门槛是任何一个组织过去的业造成的障,自己造的业自己承受报应是宇宙法则,这是因果铁律决定的,妄图单纯通过采购外部技术装备和专业服务的方式不可能获得根本的解决,最后还是要落到自己的修炼,自己做好日常每项数据治理上的脏活累活。
第二方面还是认知层面,很多人可能还没意识到,只要经过艰苦的努力,我们可以从历史数据中学到很多有用的东西,而如果真的想学到有用的东西,那么对于数据科学中充满大量的数学符号和公式的数学模型和数据算法就不能当成技术黑箱,必须了解其原理,掌握其用法,这对于大多数应用数学基础不强的人来说也是不低的知识门槛,无论是要翻阅这些领域的文章,还是要参与相关任务,你马上就会遇到一些拦路虎,例如:“应用概率论中的贝叶斯思维过滤垃圾邮件,理解随机过程中的隐马尔科夫模型进行语音识别,运用估计理论和大数定理的思想通过样本推断出某类对象的总体特征,应用概率图模型从文本中提取出想要的名称实体”等等,在看到这些充满专业术语的数据应用场景后,估计很多人就开始打退堂鼓,然后马上选择放弃。虽然我自认数据老兵,可真遇到应用数学领域的问题,想要搞清楚也还是很吃力的,我们可以把这种知识门槛也看成是数据科学的使用成本,这些极容易成为数字化应用上的卡脖子技术问题,让大量的单位和人士敬而远之。
这让我想起两年前我由于业务机会而接触CPDA数据分析师的课程体系内容,虽然相关知识点的选取都很“科学”,可内容组织在我看来就明显感觉堆砌,对于很多没有实战经验的小白来说其实是非常难以消化和掌握的,我也问过好几位花了不少学费参加了培训和考证的小伙伴,他们给我的反馈是太理论、不实用,很难用到实战上面。于是两年前我就想自己为小伙伴度身打做一套可以用于实战技能提升的课程,我也一直在想,有没有一些相对简单,让非专业的数学小白们在日常工作生活中能用上的一招半式? 这个问题可以换成另外一种说法,就是有没有一些套路,让大家都不怎么用动脑子,套用在一些数据资源上面,就能挖掘出一些有价值的信息或者知识出来。平心而论,我个人是不认同这种一招鲜吃遍天的招式或者套路,不过探讨一下也是有市场价值的。
我这里先解释我提出的一个概念,就是所谓数据学习的概念。我为什么要提出这个概念呢?我是希望对机器学习做一定的扩展和区分的。机器学习是一个比较成熟的概念了,我们可以先回顾一下。
根据百度百科,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。根据这个概念,机器学习和数据科学重合度非常高,只是更加强调的是让“机器”具备数据学习能力,但明显机器学习只是数据科学的一个细分领域,现在的问题是,对于很多单位来说,机器学习还是比较遥远的高科技。
与机器学习这个比较高大上的概念相对应,我提出数据学习的概念。根据张靖笙定义,数据学习是一门综合运用数据管理和数据科学的知识和方法,专门研究怎样实现对数据资源的学习行为,帮助人类和计算机从现有的数据资源中获取新的知识或技能,重新组织已有的知识结构使之不断改善自身表现及技能。
我提出数据学习这个概念,和我两年前关于人和机器都要对数据进行深度学习的观点是一脉相承的,如果说两年前我的观点还是比较偏口号的倡议,今天我希望通过数据学习开拓的是一条新的道路,最后还是要落到解决各类型组织单位在数字化转型过程遇到的各种数据能力的卡脖子问题。
先抛开技术上的纠结,不管是机器还是人,如果需要通过学习掌握更加高阶的能力,还是要重过头来搞清楚什么是学习。根据百度百科,狭义的学习指通过阅读、听讲、研究、观察、理解、探索、实验、实践等手段获得知识或技能的过程,是一种使个体可以得到持续变化(知识和技能,方法与过程,情感与价值的改善和升华)的行为方式。广义的学习是人在生活过程中,通过获得经验而产生的行为或行为潜能的相对持久的行为方式。从目前的定义,学习都是针对人的行为来定义的,套用到机器学习,我们也是希望让机器模拟人的学习行为,所以有必要先探讨人类学习行为和方法,我们先来看看教育家对学习的观点。
孔子云:“学而时习之,不亦说乎?”,可见“学”与“习”是两类不同的活动,前者主要接收知识信息,后者关乎知识转化与应用实践。根据祝智庭教授《智慧教育新发展:从翻转课堂到智慧课堂及智慧学习空间》的论述,著名科学家钱学森早在1997年就开始倡导“大成智慧学”(英译名Science of wisdom in cyberspace)。钱老眼中的“大成智慧学”是引导人们如何尽快地获得聪明才智与创新能力的学问,目的在于使人们面对浩瀚的宇宙和神秘的微观世界,面对新世纪各种飞速发展、变幻莫测而又错综复杂的事物时,能够迅速做出科学、准确而又灵活、明智的判断与决策,并能不断地有所发现、有所预见、有所创新。
钱老强调“大成智慧”的特点是沉浸在广阔的信息空间里所形成的网络智慧,是在知识爆炸、信息如潮的时代里所需要的新型思维方式和思维体系。同时,他还强调,“智慧”由“量智”和“性智”组成,前者倾向于逻辑思维,后者倾向于形象思维。随着技术逐步迈向智能化、泛在化、感知化,智能终端和泛在网络的计算速度与精度远胜于人脑,因而比较善于分担“量智”工作,但对于“只可意会,难以言传”的默会知识,或者需要运用形象思维、求异思维、直觉、灵感进行创造性工作时,它们却显得“疲软乏力”,难以表现出“性智”能力,因而要充分利用计算机、信息网络,发挥人-机结合优势互补的长处,使人能够不断及时获得和集成广泛而新鲜的知识、信息与智慧,从而迅速提高人的智能,培养创新的能力。
知识管理领域通常将“智慧”界定为一种面向未来的创新能力,有一个DIKW(Data-Information-Knowledge-Wisdom)模型。从DIKW模型可以看出,从数据、信息、知识到智慧的演变,对情境性(context)和理解力(understanding)的要求随之增强。也就是说,要完成从数据、知识、信息到智慧的转换,一方面需要以相关的背景知识、情境知识和缄默知识作为支撑,另一方面需要人类主动理解才能完成。有人将这种理解分为三个层次:关系理解、模式理解和原理理解。此外,知识、信息、数据都是面向过去的经验,只有智慧才是面向未来的创新(见图2)。
图2 智慧:面向未来创新能力
布鲁姆教育目标分类修订版将认知领域学习者对知识的领悟程度由低到高分为“记忆、理解、应用、分析、评价、创造”六个层次,并将这六个层次的目标分类划分为浅表学习与深度学习两个层级。浅表学习指向“记忆”“理解”“应用”,深度学习指向“分析”“评价”“创造”。
我们把DIKW模型和布鲁姆教育目标分类对比一下,DI(数据-信息)对应的是浅表学习,KW(知识-智慧)代表的是深度学习,于是我们可以这样来理解学习的认知层次目标,数据对应的是记忆,信息对应的是理解和应用,知识对应的是分析和评价,智慧对应的是创造。
可能有朋友会问,你这个说法和数据学习有什么关系?关系不容忽视,我们可以很清晰地从这些教育界关于学习观点里面看到人类学习的内在规律与数字化发展规律的一致性,大家注意看一下图2,DIKW模型的前三个部分与机器智能的定义是一样的,而关于智慧的观点教育界强调的是创新,人工智能能否自主创新而具有与人类相同的智慧能力,这个目前还没有定论。
对标教育界的学习层次,我觉得可以对数据学习能力做一个清晰的界定,具体就是对标“记忆、理解、应用、分析、评价、创造”六个层次划分的浅表学习与深度学习两个层级。
我们说目前组织普遍在用的数据查询、搜索与分析是对数据的浅表学习。
数据查询和搜索可以看成最初级的数据“记忆”学习,就是直接查询或者搜索记忆在数据里面的一些过去的“事实”陈述,就有点像小孩子问“十万个为什么”,对于认知结构还不成熟的小孩子,我们回答诸如此类的问题一般只会给出直接的教条答案,不会深入到所以然的分析说理。
而数据分析是在查询或者搜索的基础上向“理解”更进了一步,可以通过排名、对比、占比等等数据可视化操作,让数据所描述的事实以更立体的方式呈现出来,以表达更多的信息或含义,让用户能从中更“理解”这些信息。
接下来在“记忆”和“理解”的基础上,帮助组织的各级决策者从数据中“求是”就是“应用”了。当然,能从数据中“求是”的前提是数据资源的确是反映客观事实的符号,这样才能真正做到实事求是,笔者这一两年一直鼓吹现在我们要“实事成数,然后求是”,就是为了让组织决策者可以通过数字化手段来更好地实事求是做决策,这才是数据“应用”的本来之要义。
说了这么多,以上仅仅是对数据的浅表学习,实事求是地说,组织在“业务数据化”阶段,能让每个员工都具备如上所述的数据浅表学习能力就不错了,当前要求深度学习是拔苗助长的。
然后接下来谈谈我们更希望实现的对数据的深度学习各层级。
布鲁姆教育目标中的“分析”不是我们过去闭着眼说的 “数据分析”中的分析,我这里要论述的是前者。什么是分析?如果我们说对数据的浅表学习只是知己,是观自己,那么这里说的“分析”是观天地,是王阳明所说的“知之真切笃实处”和“行之明觉精察处”的境界,换个大白话也是马云十多年前说过的“因为相信而看见”的立场。
在数据科学之中,许多数据科学都专注于建立预测模型做预测性分析,虽然大量做预测性分析的人并非就是数据科学家。预测性分析(Predictive Analytics)以数理统计学为基础,属于监督机器学习的子领域,使用一种概率模型,该模型基于与预测对象可能事件相关的历史数据及其他变量进行分析预测。很明显,市面上讲滥了的数据分析的水平,都明显达不到预测性分析的功力,于是闹出很多对大数据和数据科学不实的迷而信之,本人常常面对这样对大数据的迷信,只能哑言失笑和一时语塞。
而对标布鲁姆教育深度学习目标中的“数据分析”,这种学习行为就自然触发了“评价”行为,就是说穿了我们每个组织在面对大量形形色色的预测性分析结果的时候,到底我们听信什么、不听什么的问题,我们到底依据还是不依据这些预测结果采取相应的组织行动呢?这背后已经涉及到智能制造定义中自感知、自学习、自决策、自执行、自适应等功能的新型生产范式了,这个话题在这里展开就很啰嗦了,大家可以看看我前两个月写过的一篇几万字的投稿文章《疫情启示呼吁新智造文化》。
最后一个绕不开的话题是“创造”,目前人类学家、哲学家、教育家、脑科学家、人工智能顶级专家都还没说清楚到底人工智能能不能通过对数据的深度学习开展“创造”活动这个问题,我也不想趟这个浑水,还是只说人的“创造”行为吧。
看看今天全世界很热门的西方创客概念,根据长尾理论发明人克理斯·安德森的观点,“创客行动有三大特征---使用多种数字桌面工具;遵循共享设计和在线协作的文化规范;使用共同的设计标准以促进分享和产品的快速迭代。”很明显,在线和数字化是今天所有人类创造行为的必选项,今天如果不具备通过数据进行深度学习的人,能不能有效完成其创造是个大大的问号。
在数据科学领域,规范性分析(Prescriptive Analytics)比预测性分析在定义影响结果的行为上更进一步,不仅仅预测已经发生行为的后果,规范性分析预测将会发生什么、何时会发生,并揭示发生的原因。规范性分析可以不间断接收新数据,以重新进行预测和分析,从而不断自主进化,而形成更好的预测方式和行为表现。这不也恰恰是我们人类在各种创造活动中需要具备的心态和能力吗?这样说吧,如果我们的创造不具备先见之明的价值沟通和意义建构能力,只是在各种技术装备和方法手段中绕圈圈和做试验,搞来搞去不是瞎折腾吗?
从上面对标布鲁姆教育学习层次目标中,我们可以清晰地看到,今天我们所讲的数字化转型,在对数据学习的认知结构和认知能力层面,正在一步步从传统商业智能的亡羊补牢、后见之失的观自己,走到今天要明察秋毫、见微知著的观天地,接着走向明天先见之明、洞察先机的观众生的能力发展路径上来。
在走向大成智慧的道路上,观自己、观天地、观众生是我们每个人从平庸走向智慧的修炼之道,也是数据学习能力成长的必然之路,人类如此,人工智能也必然如此,唯有这样的法理,这样的本愿,这样的情怀,不管是人类还是人工智能,其对数据的学习才会产生让我们用得上、信得过、靠得住的知识和技能。
最后关于本人的小感悟,这几年我在产业界和文化教育界两边游走,走来走去我始终觉得自己还是教育的门外汉,数据技术才是我的本职,可我不后悔这几年充满挫折和失望的教育探索之路,本质上我还是一个学生,同时也是一个家长,一直都是教育的需求侧,在教育需求的角度来感悟学习才让我对技术的无奈和局限看得更清楚,因此,我很高兴自己这几年的教育实践能让自己成为一名建构主义者。
在建构主义的角度,我的所有观点都有我个人的建构,局限是必然存在的,而认识到这种局限的必然性,不正是我们人类智慧可以一直不断增广扩大的前提吗?
(本稿完成于2020年5月21日,如需转载请注明出处)