昆仑大数据的大数据专业委员会

昆仑大数据的大数据专业委员会,第1张

昆仑数据:工业大数据7大误区

天山数据:关于大数据在工业生产中的7大误区


文|顶级数据科学家田春华,博士研究生

七个误区,分三批,包括整体规划,关键技术方面,以及实施中很可能遇到的难题。


含义:摆脱领域模型的数据分析是在消耗

例:我们和合作伙伴一起探索空气体压缩机的大数据分析。在涉及机械设备的大数据分析应用中,有很多PHM(机械设备身心健康维护管理方法)的例子。

但是在跳到智能运维之前,最好先讨论一下估计的域模型。大家的总体目标是做第三方运维管理业务流程(大数据用于提高维护效率),或者是支持一种新的运营模式,比如产业链金融、工作流程优化、能耗水平优化等。,显示空气体压缩机的数据。

先来分析一下。让我们假设技术是100%成功的,不考虑现实的标准。这项技术完成后我们能做什么?

这种制冷压缩机一年的运维管理费用是多少?如果我是这台机器设备的生产商,我会帮谁做智能运维?我的收入或成本来自哪里?

如果智能运维的收入包含极低的毛利率,全产业链、全领域都没有用上,为什么不改变领域模式,而不是在其他行业急切地效仿一些别人看似已经完善的例子,先问问灵魂自己的商业本质是否有效。


指鹅为汤:摆脱束缚的“Ubuntu”难以成功

例:这类问题一般出现在生产调度优化和运筹帷幄优化的某些方面。说到生产管理或者运筹帷幄的优化,大家都很容易做到全局优化,这是大家的理想。只有全局优化才能提高室内空房间。但在现实中,要想深入分析现实问题,就无法摆脱物理世界的约束标准。

比如海港的港口码头,最重要的问题之一就是港口排土场的优化。由于垃圾场的决策量,中国香港港口比较拥堵,对比优化的室内房间空很大,经济效益也很大。我们需要分析船到后如何快速申请装卸货物。

但是货场优化的业务范围有多大呢?客户期待堆垛场的端到端优化。当一个集装箱来的时候,他们需要决定最好的位置。这里被忽略了。为了更好地优化转储,

首先需要有一个比较既定的海运集装箱到达预报,预报必须比较准确;

其次,我认为所有武器装备的大修周期时间数据应该从进度数据、航程数据等相关数据中获取;

第三,防止内场货车拥堵,如果同一艘船的所有海运集装箱放在一起,很可能会在装船的情况下造成一定的拥堵。

现实中,你很难得到这么完整的数据。中间有很多约束。首先,很难准确预测总流量。第二,船到是有固定周期时间的,但是有些温度因素,比如现在的肺炎疫情,并不是完全可控的。在这样的情况下,如果进行优化,是基于很多假设的,实际效果很可能会打折扣。

不仅在港口,其实在加工厂的生产调度优化也是一样的。虽然大家都追求完美的整体优化,但还是要考虑现实的标准。哪些数据是不能获取的,包括他获取后会节省多少成本,这些都是必须要仔细考虑的。从自然和技术上来说,他们无疑会尽自己最大的努力勤奋地去做。


空中放样:很难分析与地板上的机构形状不匹配的数据

但是,结果落地的时候,其实大家都很郁闷,问题就看我找问题了。在某些情况下,说明在目前的评估管理体系下,很可能是现在的运维管理精英团队做的不及时,之前的维护做的不好。目前,通常很难期望精英团队在现场提供真实或即时的反馈。


避实就虚:追随“时尚潮流”,谈论“技巧”,忘记曾经奏效的方法

比如影院的累计票房预测,公映前的预测,会决定届时排多少部,排哪个时间段,采取什么应对措施?

当时谷歌发毕业论文,说可以根据谷歌搜索指数准确预测一部电影的累计票房。那是一篇导论程度很高的毕业论文。当时国内很多人都很兴奋,但是当那个方法应用到国内,发现精度并不理想。其实我们都是持怀疑态度的。一部电影的累计票房是由股票基本面决定的?

比如电影分类与地区的匹配度如何,是恐怖片还是哪些电影?电影院有不同的电影院,比如有的宿舍区有CBD比如成都喜欢看关于千年古墓的电影,广州喜欢看粤语电影,上海喜欢看关于小资的电影。比如哈尔滨的抗战剧和功夫电影大多比较好。不同地区的人的爱好在搜索索引中有体现吗?除了题材,还有知名演员的人气。电影导演最近因为社交网络的火爆获得了哪些奖项?主题包含哪些电影?之后大家补充了很多信息,比如空,包括过去不同影院之间的一些营销发展趋势,包括知名演员在哪个社交网络上人气越来越高的发展趋势,以及和哪些电影导演、知名演员、知名演员的匹配度比较好。

有时候,预测并不难,但是需要考虑一些外在的人为因素和不可控的危害,包括宏观经济政策的变化。

其实数据分析最重要的是这些现实是间隔出现的,但是人的工作体验不是很好,特别期待数据能帮到自己。

这就要求我们根据目前的物理模型和数据,即使有些情况是不可承受的,也要预料到这种情况,至少要知道这种技术的应用领域是什么,而不是在特殊条件下做一个特别好的项目,然后再去推广。

所有的物理模型都是物理设计方案的简化,不太可能摆脱整体物理。现在说数字双胞胎,也要看物理模型是用于产品研发还是运维管理。毕竟不太可能出现100%等同于全球物理的物理模型。

说到现实中对股票基本面的把握,股票的基本面有哪些?比如预测商品供应的需求,就要对商品供应的供需进行梳理。它的驱动因素是什么?特别是不需要定量分析。首先,梳理关系要素。比如优化机器设备运行,检测常见故障,不用一上来就用各种复杂的公式。其实你应该掌握基本量之间的危害相关和鼓励相关。


不顾:以“科学”的名义,用“不科学”的心态做“科学”的事情

在分析工业生产数据时,每个人都必须知道一个实体模型的应用极限。没有一个坚实的模型可以处理所有问题或适用于所有情况,除非它是伪科学。

做数据分析的六个环节。真正的时间是什么?要了解的是最初的业务流程问题,这也是最重要的环节。自然,CRISP-DM的默认设置在商品经济中做得很好。假设数据分析师只做数据挖掘和数据分析,在现实中间不太可能这么理想化。有可能别人让你整理的问题不一定合适。从某种意义上说,你应该彻底改变问题,而不仅仅是理解问题。

自然也有一些职业需要了解。未知行业的专业知识很关键。在化工厂工作连化工原理都不清楚,在电力工程工作连电力工程的基本动态模型都不清楚。失明时非常容易挖出一些基本常识,这是对社会资源的一种消耗。

第二件费时的事就是提前准备资料。数据挖掘在正常情况下很容易做到,但很多时候,数据挖掘是为了解决一些看起来不正常但现实当中经常出现的情况。作为一个细心的数据分析师,我们不得不从数据中间看到一些很多业务流程权威专家一开始没有想到的数据信号,甚至是他觉得不太可能出现在数据中的信号,或者是他习惯了空而没有意识到他没有对一些情况进行详细的介绍,这有时会极大地影响危害分析方法的准确性。在全自动实现的情况下,易用性非常关键。

数据只是一种现象。作为数据分析师,大家的心态都是坚信数据,但并不迷信数据。因为数据收集方法本身很可能会出现错误,比如之前提到的“幸存者偏差”,只有没造出来的机场才会飞回来,所以大家用造出来的薄弱点破坏了很多信息内容。

包括传感器的安装位置,传感器本身精确测量的基本原理,很可能对数据本身造成一定的伤害。此时此刻,必须以更加谨慎开朗的态度去探索,必须像其他理工科学科一样去推敲。这是一个充满焦虑和艰辛的过程。

从某种意义上来说,数据分析的整个过程和传统的理工科产品化是一样的。一切都是根据一定的假设做出的,投入现实,或者在相对性和客观性的现实中得到认证。认证之后,就可以不断地观察和检查,让这种物理现实从某种规律性上得以体现。

什么是科学心态就是不断追问,一切都可以证伪或证实,没有什么是绝对的对或错。


从最后放弃这本书:把一个简单的问题复杂化

数据分析师有时候会在不经意间把一个难题复杂化,有时候有些处理原理相对简单,没必要把这个问题扯进深度神经网络或者某种深奥的方式去做。

这个简单的问题,不需要花太多时间在重点领域,就可以轻松解决。很多数据分析师更准确,就像我早期一样。不搞清楚细节,就会觉得不舒服。

数据分析作为产品化的一种方式,应该以大为主,尽量减少小。在一定的时间、房间空、时间、成本的控制下,最好能保证。

之前学过 *** 纵。大四的时候,我接到了一个新项目,是针对某特定通信卫星的姿态控制。我上去的时候,列了状态方程的传递函数。因为通信卫星的实体模型也比较完善,所以我先确认了可靠性,然后根据根轨迹或者波特图的设计方案做出了自动控制系统的设计方案。那时候我很红火。因为学了十几年,第一次看到这些年学的东西,终于用在现实当中了。

我们去和航天方面的权威专家沟通空,对方评价很高。当时我就问,你们在设计通信卫星的时候是怎么做的?他说,其实没你想的那么复杂,忽略所有不重要的。通信卫星的三个轴都是耦合的。为什么不假设三个轴是耦合的,剩下的可以想象成刚体。你错过了多少次?你想要多少分钟回家?能加多少力?多下点功夫,电流马上就转换成主要参数了。箭体分离后,喷射射流是如何喷射的?你想增加多少冲动?一个脉冲连续喷几秒?有多少冲动是随后产生的?有多少瞬间的速度是由冲动造成的?我认为需要多少秒来纠正它?股票的基本面那么多,就这么简单。

当时有一点印象很深刻,不用一上去就把所有不重要的繁杂元素都考虑进去。这种意识危及到了我后面一路的科学研究和分析。所有的自然简化都有前提条件。在通信卫星的仿真中,这种简化应用于小视角或稳定的情况。如果大部件分离或者太阳能发电襟翼挂钩刚打开,简化风险很大。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/zz/762316.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-01
下一篇2022-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存