逃离人间耳语和骚动
这里只有你我和星空

0%

【摘星集】066《数据的本质:无人不是分析师》

商业基础正因众多终端带来的全域大数据而发生着改变。

第一部分 数据主义,未来一切都将数据化

  • 与大数据的4V(量大、多样、速度、价值)相比,移动大数据的核心重在实时(realtime)、适时或最佳时机(righttime)以及全时(allthetime)。任何一个完整的高效服务都离不开这3T。
  • 未来,没有谁会比你的智能手机更了解你,它甚至会了解你的情绪,而无须自然语言。智能手机将成为你的数据收集者,也会成为你的数据守门员。
  • 是否知道用户是谁,决定了企业数据收集行为的意义大小。
  • 零售商和消费者开始从应用中感知到当人(消费者)、货(商品)、场(渠道)这三种数据的高度连接所产生的“完美信息”及洞察力,而这意味着更贴心的服务和更多商机。最近有人就把这场革新叫作“新零售”。
  • 互联网虚拟世界的线上数据正在反哺线下场景,线下场景也在不断弥补线上的不足。这个循环正是用数据去取得更多数据的典型。
  • 数据的价值,必须来自场景。
  • 一切数据收集活动的出发点都来自业务需要或者可以应对未来的业务发展。接下来,就是以短期问题作为出发点,并以中长期的发展趋势为准来决定资源的优先分配顺序。
  • 从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动型公司的必要条件。
  • 仅仅服务于当前,为短期目的所收集的数据肯定会偏于狭溢,大数据更需要为未来业务方向做好储备。换句话说,数据战略的目的就尤如“养兵千日,用兵一时”。
  • 作为战略部署,我们还需用系统思维去发现周边生态的数据与主体业务之间的关联。
  • 数据开发的速度是营运大数据的必然瓶颈。
  • 什么是系统?系统是一组相互关联的主题,一定时间内,以特定的行为模式相互影响,而且具有自适应、自我组织及自我演进的能力。当系统受外力触发时,不同的系统可能会产生不同的结果。一个完整的系统必定由三个点组成:要素(主体)、连接点和目标。当主体与连接点及其功能产生了相对固定的关系时,我们便认为这个系统形成了。
  • 过去,我们习惯在简单的线性关系中寻找规律,因为我们假设没有数据以及数据稀缺是常态,只能局限于逻辑推敲。这就像蚂蚁拼命在二维空间中苦思为什么无路可走时,却不知道我们其实身处的是三维世界。大数据的存在,就是让我们把复杂系统变得可描述、可量化、可溯源。
  • 一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的。量化是对被量化的事物的一种映射,就像照X光片。关键是,我们要明白量化后的数据是为了解决什么问题,以及在量化的过程中如何降低噪声,增加稳定性。
  • 过去,我们假设数据很难获取,所以喜欢用经验预设简单维度,这种局面随着大数据时代而被快速打开。一些看似毫无关联的事情,却是过去分析时的盲点所在。要改变传统观念,将思维方式从经验驱动转变为数据驱动。
  • 当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。记住,要学会无中生有的量化,要有足够的观察、足够的理解及数据收集。
  • 大数据产业目前面临的挑战,并不是没有好的算法,也不是没有好的数据工程师,而是数据来源比较单一。
  • 我认为,大家都忽略了大数据能力的根源来自连接,而连接的基础是数据的流通和标准化。
  • 所有的数据流通必须建立在一个永恒不变的道理上:互惠互利,否则你无法做到对数据进行适时的修正。
  • 机构越大,人事越复杂,数据打通的开展就越困难,这也就解释了为什么政府部门的大数据进步得这么慢。政府机构对构建大数据系统具有集中性这一得天独厚的优势,但却没有积极性,更谈不上什么互惠互利了。作为企业,要实现数据打通,需要有一个非常清晰的、自上而下的数据资源战略方向,也需要具备良好的、自下而上的协同能力,这两者相辅相成。
  • 任何大数据的形成必须经历两个过程,即开放与规范,两者为递进关系,前者是深度连接的前提,而后者则涉及数据的可用性。实现从0到1的过程中,首先必须找到个体与机构之间的平衡点。
  • 找出几方共同的痛点,当利益高于双方之间的竞争时,数据共享会变得理所当然。
  • 我们辛苦收集到的数据,该以什么方法加工,进而成为解决问题的原材料?数据界大致分为两派,一派坚持原始数据,即尽可能保持数据的原貌(裸数据);另一派则喜欢把收集到的数据规范化和格式化,根据使用的场景进行预处理。其实,数据是虚的,解决方案才是实在的,没有场景做目标的大数据如同一盘散沙,但太实相的大数据又不够灵活。所以,无论金融大数据还是医疗大数据,都会经历从无到有、从有到高度连接、从高度连接到实时流通,最后经过工程化把数据提炼成随时可用的“业务石油”。到那时,毋庸置疑,它会产生无限商机以及无与伦比的回报率。
  • 第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据。
  • 数据分析也要讲究用户体验。数据产品设计的切入点必须要问“目标问题是什么”“什么样的数据才能解决这个问题”。只有得到用户的信任,我们才能够做出更多的好产品。产品需要不断迭代,而非一劳永逸。这就是我们做产品的理念。
  • 数据使用权必然会是未来企业之间最大的竞争空间,当然也可能是最大的合作空间。
  • 隐性偏差风险,对统计学家来说并不陌生,数据分析就是从庞大体量的数据中提炼真相,因此结果往往是“差之毫厘,谬以千里”。过去,我们担心的问题是小样本导致的统计误差;而在大数据时代,这个问题并不会消失,反而会更加复杂、更难发现和解释。
  • 任何安全原则要想得到业务方面的支持,就必须契合企业的商业目标、风险承受能力和部署能力。而今天,大部分企业的管理层对数据安全还没有达成共识,要做到这些相当困难。
  • 要让数据安全真正起作用,安全原则必须把人、过程和技术都纳入考虑范围。
  • 历史告诉我们,人类的进步来自贪婪,而每次毁灭来自愚昧,这正合《易经》“水火既济”和“火水未济”的道理。

    第二部分 数字经济引擎,智能商业的核心

  • 回到数据落地上来,当企业面对这个时代的变革机遇时,该如何应对?如果用简单的两句话来描述就是,找出知识产生的速度和业务发展的增长关系,同时关注产生知识所倚赖的“原材料”大数据如何才能有效地在企业内/外积累。这也是大部分企业在想到做之间不知道自己不知道的地方。
  • 我在与很多CEO交流时,也表达过“数据化转型中的生死线就在于切入点”的观点。企业要找到能足够积累数据的场景,再匹配合适的人工智能,快速产生知识点,利用自动化的知识点嵌入其中实现业务价值,然后让生生不息的数据反馈作为优化的闭环系统。最后需要关注的,便是人们的惯性思维所造成的障碍永远多于技术本身。
  • 数字经济引擎包括4种形态,分别是数据驱动决策、数据驱动流程、数据驱动产品以及数据驱动数据。
  • 在智能时代,聪明人单打独斗的优势变得越来越不明显。你想赢别人,就得学会一套数据化组合拳,善于草船借箭(数据)。
  • 扩大数据量并不代表一定能够说明数据间隙的弥平,因为数据间隙的产生来自我们对要解决问题的理解,以及在解决问题的过程中我们所面临的数据落差。
  • 很多人把数据比喻为石油。但不同的是,数据来自应用,不管是否自觉,个人、企业甚至每一台机器时时刻刻都在贡献并使用着数据。在不远的将来,数据的应用会如同电力一样,成为企业运营的必需品,渗透到企业的每一个业务环节。
  • 数据的盘点与实物不一样,数据可以无限衍生,而且多并不代表有用。
  • 数据作为一种企业资产,需要与其他资产,如人力资源、硬件等相互组合才能发挥出最大的价值。大数据是来自多源异构的资料,所以“乱”是其特性。为避免出现“garbagein,garbageout”(无用输入,无用输出)的问题,使用数据前需要对数据资产进行加工,从而带来数据治理这一重要课题。
  • 人工智能因大数据而重生,但制约人工智能在各领域实现更广泛利用的,并不是算法不够先进,而是缺乏高质量的数据。
  • 数据的收集、处理、运用,短期来说肯定是越贴近业务越有效率,然而从长远看并不利于数据的标准化及重复使用,导致开发周期变得漫长。我的经验是,起点可以从最小化应用做闭环,基于众多应用做长线规划。
  • 大数据安全是一个命门,数据越多,责任越大,而且有时候会超出你的想象。原以为很安全的数据拼合其他数据之后,可能成为机密级别。
  • 数据的存在是为了能够有效地解决问题,而解决问题的核心与关键还是在于预测。
  • 大数据要成为企业核心资产的前提是,数据必须具有足够的流通性,而在这之前,要确保数据拥有方一直到数据最终使用方的中间过程有一个非常好的利益关系,这样,数据流通或是共享的价值链才会成立。
  • 该如何通过数据去解决企业的核心问题。答案其实很简单,就是从工作流程中去寻找,因为如果工作流程缺乏效率或是存在资源过度耗损的问题,往往也是组织的问题所在。
  • 客户的行为数据不一定能产生交易,但可以让我们更了解他,让我们知道他为什么会买或者为什么不会买。通过行为数据去发现客户如何做决策是个重要课题,即使是负面数据也可能有正面作用。

    第三部分 数据变现的四大场景

  • 通过建立特殊领域知识分类技术,认知系统能够充分理解问题,并可给出能被人类理解的答案,这个把思维过程模拟为计算模型的突破,非同小可。与其说这是建立一套模拟人类思考的科学,不如说它可以加强我们对这个世界的认知,从而增强人类的智力和决策能力。特别是在那些牵涉复杂情感和推理能力的问题上,认知计算将发挥不凡威力,虽然不能代替人类决策,但可以为人类提供决策建议及背后的理由。
  • 华盛顿大学教授佩德罗·多明戈斯(PedroDomingos)在其著作《终极算法》中如此描述认知计算的终点:终极算法就是通过机器学习的方式,自动发现和创造其他所有算法的主算法。换句话说,如果“上帝”有一个算法,那么终极算法就是其他所有算法的“上帝”。
  • 文本分析已不再有趣,下一步的关键是知识图谱,即如何从数据中提取知识。
  • 知识图谱的认知过程大致分为三个步骤:Read(读取),读入所有的数据文件,如邮件、文档、社交文本等,并将其结构化;Resolve(解决),从中提取重要的信息,并和其他信息相连接;Reason(推理),通过这些相连的知识图谱,利用机器学习的方法找出最后的图谱。
  • 金融科技是一个非常庞大、无所不包的行业,它才刚刚起步,有着巨大的增长潜力。但它的先决基础是要有大量敏感数据的互联互通,这对传统金融行业是巨大的冲击和考验。
  • 大数据的趋势是运用集体智慧去优化个体的意愿,这种互动是一种全新的生活方式。
  • 基于机器收到的数据之多,内容之丰富,机器将变得越来越聪明。它们无疑将重新定义传统的生产方法、管理架构、服务形式,甚至重塑政府与民众之间的关系。
  • 企业想要获得更多利润,就必须懂得如何挖掘更多数据,并使用数据去驱动决策、流程、产品,甚至乎更多数据,让数据成为商业闭环系统中实现自我优化的原材料。
  • 大数据落地的三部曲是:意愿、能力、工具。

    第四部分 数据之王的数据化思考

  • 在清洗数据时,定义一个数据口径的地方,往往便是成败的分水岭。若对数据口径和商业之间的理解不够,便会影响到我们最初的认知,事倍功半。
  • 想“弯道超车”,唯一的办法便是打破惯性的旋涡。如果连这点胆识都没有,那你粮草越多,反而会让你死得越快。
  • 三种惯性旋涡:增加人力才有业绩增长,营销费用与销量挂钩,投机的心态越重越容易做成短线吐利的目标。
  • 企业保持旺盛战斗力的过程,就是一次次打破惯性旋涡的过程。
  • 逆取颠覆市场操作,顺守是扩大优势。
  • 专业的风险管理者不会浪费一点机会,但前提是减少风险。最后即使赢了还要考虑回报率以及何时离场。
  • 为团队注入共同的使命,是心力的精髓。
  • 心力是什么?首先,使命的树立,让团队在完成目标后产生成就感。其次,让团队成员有参与感,加强对使命的共同认知。建立共同的认知,最快捷的方法是借事修人,以战养战。
  • 终局判断依靠的是想象力,除了经验所赋予的灵感之外,汇集数据去描绘由外而内的产业地图或者由内而外的业务地图也必不可少。其中的难度如人饮水,冷暖自知。
  • 学校里讲的往往都是战略科学,但在企业里,战略是一门手艺。曾鸣总结说,技术可以学习,经验则靠累积,但直觉是要靠感悟的。
  • 任何你以为数据不能告诉你的东西,数据却都能告诉你。
  • 以击剑为例,教练让你跟着他的方法出剑,那是临摹阶段,教练告诉你如何观察对手,那是动态学习。你要学会在实践中不断地肯定及否定自己的习惯。众人皆可为师,这才是深度学习。
  • 我在练习击剑时,曾经很幼稚地问教练,击剑有没有必杀技?教练思考了很久,告诉我:“有。”其实我心里认为是没有的,而他的回答让我有些意外。教练说必杀技就是“抓住一切变化前的先机”。这句话太经典了,它与李小龙的武术精髓如出一辙。李小龙的截拳道精髓就在于从思考上拦截对方,你的决策已经在我的决策中,所以截拳道的英文名字叫“thefistofintercept”(拦截之拳)。
  • 放下自己耀眼的长处,而将时间花在钻研自己的短处上,这种转变、对这种心理落差的承受能力,正是每一个有上进心的年轻人最缺乏的,也是最难做到的。
  • 进攻太好的人,往往会忽略防守,优点往往就是缺点。
  • 共时面就是在同一个时间点上用多种不同的角度去看某件事,看有没有其他信息可以收集,让我们对这事件的理解更接近全景。不同的共时面可以通过无数的时间链串连起来,形成立体的信息堡垒。共时面就像纬度,时间链就像经度,在经纬度交叉的点,我们会发现很多关键词,从而组成一张充满信息的庞大地图。
  • 舍与得,从来都是一个神奇的循环,进入“舍与得”的循环之后,你会发现,像滚雪球一样,你的福德会增加,你的智慧会增长。