客户的故事

弥合差距:用数据科学测量和增强完整性乐鱼平台进入

衡量行动和意图之间的差异

由安永法证及安全服务部高级经理Jeremy Osinski主持,Todd Marlin,安永全球技术与创新负责人,Mark Beluk,安永取证数据分析助理

你如何量化一个人的正直?企业如何弥合员工和利益相关者的意图、行动和数据之间的差距?

在本视频中,您将学习如何使用数据科学使组织的合规和风险管理流程更加有效和高效。乐鱼平台进入通过集成多个不同的数据源来开发易于理解的前端可视化和案例管理工具,并结合机器学习,您可以改善组织文化并创建一个功能更好的业务环境。

这个问题?企业80%的数据是非结构化的。合规专业人士对使用机器学习的好处持怀疑态度。安永希望利用RapidMiner来融合结构化和非结构化数据,并证明这些程序的实用性。

解决方案?通过将Microsoft Azure与RapidMiner集成,安永能够创建一个集成的自动化合规程序,准确评估风险,并为客户提供前进所需的见解。

观看下面的完整视频。

准备幻灯片

[音乐]谢谢大家。感谢您今天的到来。所以我们会讨论如何弥合差距,对吧?真正衡量的是一个组织的行为,或者说组织的意图,和个人行为之间的差异。然后,正如Scott提到的,我们希望在条件允许的情况下,给你们简要演示一下我们的EY机器学习模型。从整体角度来看,我是安永法医和诚信服务业务的高级经理杰里米·奥辛斯基(Jeremy Osinski),我们的主要合伙人之一马克·贝鲁克(Mark Beluk),以及安永法医业务的全球技术和创新领导者托德·马林(Todd Marlin)。本质上,我们所做的工作,安永是一个组织。我们在全球拥有29万名员工。其中4500人是法医专家。因此,简而言之,我们确实在风险管理、合规、协助法律需求方面为客户提供帮助,包括调查和主动的合规。 Proud to say we’re utilizing machine learning, advanced analytics on most, if not all, of the investigations we’re doing around the world today for organizations large and small, sectors ranging from financial services to life sciences, energy, the government, manufacturing, and so on and so forth. So really, in terms of how we think about the role of data science in the compliance context, right, we really think of something– we really ground ourselves in what we call at EY the integrity agenda. And it’s about helping an organization measure their culture, the governance around that culture, associated controls, and then the reason we’re all here in this room is really around drawing data insights and using data to help monitor and manage integrity within an organization.

所以我们在这个房间里的所有人,对吧,不管我们代表的是大组织还是小组织,学术机构还是创业公司,或者以上都不是,对吧,我们所有的组织都有关于行为、道德、诚信运作的政策和程序。希望我们的领导人能够通过一系列正式和非正式的信息来实现这一点。但是,由于某种原因,我们仍然看到大量的调查,对吧,大量的制裁被征收,高管被关进监狱,巨额罚款,市值减少。所以这些问题,这些事件,不断发生。所以我们现在真的利用了数据科学。乐鱼平台进入我们正在利用数据科学来帮助真正的乐鱼平台进入监控、管理、测量,并希望弥合这一差距。托德,我不知道你想不想?

是的。我的意思是,我只是想说,EY,我们如何适应这个方程?是的,我们正在做所有这些事情,但我们实际上是一个知识提供者。我们对所有这些可怕的事情是如何发生的以及如何预防它们有独特的知识。我们正在尝试使用所有的技术,包括RapidMiner作为其中的一个关键部分,来管理和防止这种情况。并带来我们独特的见解。今天你们将听到的是我们创建的一个交付系统,它的设计目的是让我们的客户不必把所有不同的技术碎片拼在一起,不必把所有的数据挑战拼在一起,真正开始并加速到真正专注于他们关心的问题,也就是问题,预防问题,找出事实。

太好了。谢谢你,托德。所以,当我们思考相关的数据和涉及到的数据时,我相信你们都看过这个统计数据。外面有很多这样的人。事实上,我最近看到一个人说这个数字现在已经接近90%了。但从本质上讲,目前全球数据领域中至少80%的数据本质上是非结构化的。因此,当你真正想要挖掘和建模一个组织或个人的活动时,这些数据不仅来自ERP系统、发票和电子表格,对吧?它还包括引入电子邮件、电话和网络安全日志,并以一种能够获取所有数据的方式进行操作,将它们放在一个单一的平台上,然后能够挖掘、冒险、排名和建模行为。因此,我们能够做的是,大约四年前,我们在安永开始了我们在法医领域的旅程,就像我提到的,我们今天在大多数调查和主动事务中使用它。我们使用它的一个关键方式是在这种etl类型的能力中融合非结构化和结构化数据。 We also partner very closely with Microsoft. We’re one of the largest consumers globally, actually, of Azure, and one of the largest consumers of RapidMiner within the Azure Cloud. What’s interesting here as well is the space in which we play, right, is so diverse. The phone rings were oftentimes deployed on-site the next day or the day after, right? And so that ability to auto model, the ability to very quickly make sense of unfamiliar data, is really key to us. We have data scientists, and Mark’s just one of many around the world, that are actively creating, building, curating new models on unfamiliar data sources all day long.

是的。我的意思是,我认为,只是补充杰里米所说的,你们可能都意识到,它不仅是结构化和非结构化的,对吧?你是半结构化的,对吧?在结构化数据中,通常会有非结构化数据。能够有效地利用它也是——至少在这个领域,但在其他领域也是。另一部分是关于数据点的。这是个挑战,对吧?每个人都在努力理解你拥有的数据。那么如何将其转换成有用的格式呢?那么如何用比例来做呢? So not only are we modeling it, but we’ve come up with reusable data models for different problems that make it easier to take the data from the format that it’s in, from all of the formats it’s in, and to extract what’s useful and make it part of business as usual to look at these different issues.

好的。谢谢你,托德。实际上,当我们考虑我们利用机器学习的方式以及它是如何工作的,对吧,它真的是整个生态系统的一部分。我们构建的生态系统是我们的旗舰分析平台,我们称之为EY Virtual。我们充分利用并实践了微服务的概念。我们相信机器学习可能是我们堆栈中最强大的微服务之一。我们一会儿会向你们展示这是怎么回事,对吧?所以我们如何能够在数据上运行模型,获得用户输入,本质上,由我们的客户或我们在世界各地的调查团队进行测试或验证或签字,并将输入反馈到模型中。有趣的是,我们的客户通常是律师或合规专业人士,高管。我们已经能够利用,特别是从机器学习的角度来看,RapidMiner的高度可视化特性,在某些情况下,第一次向世界各地的监管机构解释和介绍机器学习模型。 And that’s not to say they’re in the nitty-gritty and we aren’t getting into the level of detail of every operator and so on and so forth, but at least that ability to demonstrate that we’re running a model and here’s what it does and here’s what it doesn’t do and here are the pitfalls and challenges and opportunities around it has really been, in some cases, transformational.

我认为这是一个需要强调的关键点,至少我在当今世界观察到的是,数据科学和机器学习驱动的创新和变革是真正的重点,人工智能是它的核心,对吗?乐鱼平台进入现在有两个阵营,对吧?也不代表一个人是对是错。但实际上有两种大致的方法来处理这个问题。一个是用Python、OR等开源库编写的上千行代码,另一个是像RapidMiner这样的东西,它让加速创建模型变得更容易。坦率地说,这两者可以合作。正如杰里米所强调的,我所看到的挑战是,在我们的世界中,与监管机构和非常专业的怀疑论者打交道。在下载了6到7个开源库的情况下,获取一个原生形式的Python程序并真正解释它是如何工作的,这并不容易或直观。是的,当然,你可以在那里发表评论,但你能想象坐在一个会议室里,有一个这样的屏幕,调出一个Python程序,试图向会计师或律师解释它吗?是行不通的。 But at the end of the day, the visual nature of RapidMiner allows you to take it to a certain level. Are we getting into the level of what this function does or how this data element– no. But we can communicate the general essence of the flow of events, which you cannot easily do in a 10,000-line program.

太好了。因此,今天我们将向你们展示我们在现实生活中使用的GBT模型之一,或者说是一个场景,我们是根据我们非常活跃的现实生活中的客户情况模拟出来的。下面让马克来给大家演示一下。

绝对的。我觉得托德很好地引导了我们。如今,企业在监控和衡量员工的诚信方面面临着挑战,特别是第三方供应商、承包商或销售人员,他们对公司的忠诚度可能没有相同的水平。他们一直没有在那里工作过。但正如托德提到的,我们专门向法律专业人士、会计师或监管机构展示,他们不需要逐字逐句地看到细节。我们所做的就是把这个拿给客户因为我们想展示这个过程。我们喜欢展示我们实际运行的内容。但从这个运算符可以看出,这是数据预处理。如果你用过RapidMiner,如果你用过数据科学,你就知道这个运算符非常复杂。乐鱼平台进入我们使用内部和外部资源。 It probably took the longest time for us as data scientists to make that operator function. But they don’t really need to know all that. They need to know where the data comes from and they need to know that it’s accurate. From there, we can point to, “Okay. This is where we optimize and train your model. We got model, we got tag data. This operator does some interesting things.” We can obviously open it up if they have data scientists in the room, but they don’t necessarily need that. And then lastly, we say, “Okay. We format it and ingest it in a way that you can easily digest that information.” And that’s what I’ll pull up now is our EY Virtual solution. And so this is a role-based application that we can deploy for clients, their specific needs, their specific resourcing specifications.

假设我成为了一个管理第三方风险的团队的合规经理或执行人员。再说一遍,我不需要知道所有的细节但我想每周,每个月,给特定的人分配一些案例来回顾,深入研究。我希望这些受试者只花时间在风险最高的地方。中间的这个,这个风险评分,就是我们刚才给你们看的,对吧?这是数据科学流程的输出。乐鱼平台进入我们有一个风险排名。但是这些人,正如托德提到的,杰里米提到的,他们对这些信息持专业怀疑态度。他们需要能够向监管机构和员工解释这些模型,说:“我为什么要研究这个人?”所以如果你看到,“好的。我只是过滤了风险最高的三种。” You don’t see a lot of information here but it filters the other visualizations.

所以我可以看到有两名员工来自美国,一名来自英国,但娱乐和客户娱乐的分散类型非常高。这与高风险员工有关。所以从主题专家的角度来看,我可以理解这一点。我不需要知道为什么这个人的风险评级是94.4或99.4。这看起来很冒险,但你可以看到,“好吧。关于它有很多信息,尤其是关于交易的信息。”现在,如果我只想分配这个案子,伦敦办公室的人,我脑子里就知道,“好吧。这是高风险的。我有个很棒的员工,专门在伦敦工作。他们有自己的规定。 I want to be able to tag it specifically to them.” You can then filter it down, get the underlying data, the transaction by transaction data, select it all, create the cases, and assign it directly to that individual within the tool. And you don’t need to see on the front-end the data science and the algorithms and our complicated gradient boosted tree that went into it. But you can go in, “All right. I’ll assign it to Mark. He’s our expert. This was very high risk. We want the SLA to be very short. This is a high priority.” Obviously, they can fill in additional information, maybe some explanation. Countries being affected, it’s the US and UK. And you can pass that along directly within the site to that individual.

这就是案例管理的用武之地。员工可以进入他们的案例管理模块,直接看到分配给他们的案例。你可以看到我有三个不同的案例。低、中、高优先级。最有可能的是,我进去看看,“好吧。我有个新的高优先级案件。我想深入研究一下。”现在,有很多不同的特性,工作流程。他们可以把它传递给-他们实际上可以把它委派下去。他们可以委托审批。 They can add files, attachments, a number of different features. But in terms of RapidMiner and how, really, the bread and butter of this is that model underneath and what really drives the efficiencies, this is where the value really starts to kick in and allows us to start with the firm that is afraid of analytics – you say the word analytics, people will walk out of the room – to getting a little bit more comfort with them. Is where the individuals can go in, they reviewed the case, they’ve added copious documents, their own expertise. They say, “This is dismissed. It’s an exception.” It could be for a number of reasons. They can tag those reasons in. But once they change that, that automatically updates our underlying tables and brings us into where we can actually apply this model. And it goes into the training data itself.

这样训练数据就和这些人的选择堆积在一起了,这些专家的选择。正如斯科特所说,这是一项团队运动。我们不一定有所需要的详细的基本信息。这就是我们可以向最终用户提供信息的地方他们可以访问这些信息。现在,我们注意到很多客户面临的一个挑战是他们有这些特定的规则,他们必须遵守的全球行为准则。例如,如果有人在国际旅行,花费超过10,000美元,就需要自动审查。这就是我们可以开始构建简单规则并开始使用分析的地方。所以我们要做的是从规则基础开始。他们可能有一个非结构化的先例文档,一个巨大的Word文档,上面写着:“哦。我们标记这个是因为成本太高。 We flagged this one because of some other outlying circumstances.” But those precedent are typically siloed. It’s by data source, by different data source. So we never start with training data. And this is why it’s very important for us to get a holistic view, get the buy-in from different teams, and allow us to start to build the models, start to train the model on the information that comes in. And then over time, it’s when the benefits of the machine learning really, really pays off. And so–

我认为这是一个关键点,对吧?这与你要解决的问题空间无关,对吧?总有一些人因为训练曲线而不愿意从事机器学习,对吧?从训练数据开始的情况并不常见,对吧?你在创造它,对吧?但如果你做到了,你就会做得更好。马克所说的是我们如何将两者结合起来。你如何从一个目标丰富的环境开始为你所关心的事情策划,以加速训练,对吧?因为问题是你如何压缩训练曲线,让你感觉不到学习的痛苦?我们发现,让人们参与到机器学习的旅程中是非常有效的,而不是一开始就把他们吓到,说:“嘿,你必须这样做。” Right? Because it could be scary if you don’t really understand it. And frankly, there is some merit to it because, in the beginning, there is a lot of learning, right?

正确的。现实也是如此,Todd和Mark提到过,合规,法律,内部审计,现实是,通常是组织内部的成本中心,对吧?使用这种方法可以让这些组织用更少的钱做更多的事,更有针对性,远离历史上基于角色的测试或样本选择和随机样本之类的方法,说实话,在我看来,对他们的风险管理合规流程采取更有说服力的方法,即使不是我们房间里的所有人都必须代表我们组织中的风险管理,合规或法律职能,通常,正如我们谈到的,不同数据的融合已经能够真正帮助组织将多方聚集在一起。所以我们有销售团队、运营团队、合规团队、法律团队和风险管理团队围绕这些数据、围绕这些模型进行协作。我们已经能够,在很多情况下,帮助组织,帮助客户,实现利益远远超出简单的合规,合法,诚信,对吧?运营效益,性能改进效益,等等。

这里还有另一件事,它与用例没有直接关系,但更多的是我们如何处理这种情况,并导致了Jeremy所说的,作为一个知识提供者,我们的目标是让我们的客户以他们想要的方式和地点操作他们的数据。所以我们不会在这种情况下说,“给我们你所有的数据,然后我们会给你答案。”也许这就是10年前的情况。我们在说:“让我们一起踏上这段旅程。我们已经把拼图拼在一起,使您的团队能够更有效地与我们合作,因为我们拥有独特的知识,可以补充您的知识,从而帮助您做出更好的决策。”我们发现这是一个非常有效的模型。RapidMiner是其中重要的一部分。但安永虚拟的这种数字化方法是我们为客户提供的一种基本方法,它可以通过法律合规和内部审计为客户提供数据服务,这样我们就可以作为一个集成团队,围绕数据科学的业务问题进行合作。乐鱼平台进入

谢谢大家(音乐)。

相关资源乐鱼体育安装