您正在查看9.6 -版本的RapidMiner Studio文档点击这里查看最新版本
执行Python(Python脚本)
剧情简介
执行Python脚本。描述
在使用此操作符之前,您可能需要在Settings -> Preferences菜单下指定Python安装的路径(在Mac OS上选择RapidMiner Studio -> Preferences)。在出现的设置面板中选择Python Scripting选项卡。您的Python安装必须包含pandas模块,因为示例集被转换为pandas. dataframes。取消选中使用默认的python复选框,您可以为该操作符配置单独的Python二进制文件,而不是使用全局设置。
方法提供的脚本执行该操作符脚本文件中指定的端口或参数或脚本脚本参数。脚本的参数对应于输入端口,其中示例集被转换为pandas.DataFrames。类似地,脚本返回的值在操作符的输出端口传递,其中pandas。数据框被转换为示例集。
该操作符支持conda (anaconda)虚拟环境,virtualenvwrapper虚拟环境,您可以通过指定其完整的文件系统路径来选择Python二进制文件。有关如何选择所需Python的更多信息,请参阅本帮助页面的Parameters部分。注意,您可能需要配置扩展。为此,进入设置->首选项菜单(在Mac操作系统上选择RapidMiner Studio ->首选项)。在出现的设置面板中选择Python Scripting选项卡。如果需要,在这里编辑设置。
使用conda:如果您将conda Python发行版安装到非默认位置,则可能需要在Python脚本扩展的全局设置中添加安装目录和一些子目录。为此,进入设置->首选项菜单(在Mac操作系统上选择RapidMiner Studio ->首选项)。在出现的设置面板中选择Python Scripting选项卡。将conda安装的安装目录添加到搜索路径.在Windows上,您需要添加conda_install_dir\Scripts子目录,在Linux和Mac OS上也需要添加conda_install_dir/bin子目录。
访问宏:你可以从Python代码中访问和修改RapidMiner中定义的宏。可以通过将宏的名称包含在%{}标记中来调用宏。在解释Python代码之前,这些值将被替换为实际的宏值。要对宏进行更细粒度的控制,请设置使用宏参数。有关更多信息,请参阅下面的参数说明。
Python的控制台输出显示在日志视图(View -> Show View -> Log)中。
输入
脚本文件(文件)
包含要执行的python脚本的文件。该文件必须符合脚本参数规则。这个端口是可选的,也可以通过脚本文件参数提供文件。
输入
Script操作符可以有多个输入。输入必须是一个示例集、一个文件对象或一个由'Execute Python'操作符生成的Python对象。
输出
输出
Script操作符可以有多个输出。输出可以是该操作符生成的示例集、文件对象或Python对象。
参数
- 脚本
要执行的Python脚本。定义一个名为'rm_main'的方法,使用与连接的输入端口相同数量的参数,或者使用*args参数来使用动态数量的属性。方法'rm_main'的返回值被传送到连接的输出端口。如果该方法返回一个元组,则元组的单个条目被传递到输出端口。数据类型“pandas”中的项。数据框架被转换为示例集;文件被转换为文件对象,其他Python对象被序列化,可以被其他'Execute Python'操作符使用或存储在存储库中。序列化的Python对象必须小于2 GB。
如果通过输入端口将示例集传递给脚本,则示例集的元数据(类型和角色)在脚本中可用。您可以通过读取相关熊猫的rm_metadata属性来访问它。DataFrame,在我们的示例data中。数据。Rm_metadata是一个从属性名称到属性类型和属性角色元组的字典。
您可以影响作为pandas返回的示例集的元数据。通过设置属性rm_metadata。如果您没有在此字典中指定属性类型,则将使用Python中的数据类型确定它们。你可以指定你自己的角色或使用RapidMiner的标准角色,如'label'。
有关Python操作符中元数据处理的更多信息,请查看下面的教程过程'元数据处理'。
提供脚本文件脚本文件端口或参数(端口优先),脚本将被使用,而不是该参数的值。
范围:文本 - script_file包含要执行的python脚本的文件。文件必须符合脚本参数的规则。可选参数。范围:文件名
- use_default_python
使用RapidMiner Studio全局设置中定义的Python二进制文件或环境。全局设置可以从设置->首选项菜单中访问(在Mac操作系统上选择RapidMiner Studio ->首选项)。在出现的设置面板中选择Python Scripting选项卡。在这里,您可以定义默认值。
范围:布尔 - package_manager
此参数仅在以下情况下可用使用默认的python设置为false。此参数指定操作符使用的包管理器。目前支持Conda/Anaconda/Miniconda和Virtualenvwrapper,或者您也可以定义首选python二进制文件的完整路径。
选择范围: - conda_environment
此参数仅在以下情况下可用使用默认的python设为false和包管理器设为conda(蟒蛇).此参数指定此操作符使用的conda虚拟环境。
选择范围: - venvw_environment
此参数仅在以下情况下可用使用默认的python设为false和包管理器设为virtualenvwrapper.此参数指定此操作符使用的virtualenvwrapper虚拟环境。
选择范围: - python_binary
此参数仅在以下情况下可用使用默认的python设为false和包管理器设为特定的python二进制文件此参数指定此操作符使用的python二进制文件的路径。
范围:字符串 - use_macros
使用一个额外的命名参数宏rm_main方法(注意,您需要手动修改脚本并添加参数)。这样,所有的宏值将作为rm_main方法的附加参数传递,您可以通过宏字典访问宏值。每个字典值都是一个Python字符串。您还可以修改字典的值或添加新元素。这些变化将在执行操作符后反映在RapidMiner中。
范围:布尔
教程的过程
使用Python进行集群
生成随机数据,然后将其提供给Python脚本。该脚本使用宏中指定的尽可能多的集群在Python中聚集数据。生成的ExampleSet在“cluster”属性中包含集群。
使用Python构建模型并应用它
本教程过程使用'Execute Python'操作符首先使用'Deals'数据构建决策树模型,然后将其应用于'Deals Testset'数据。在使用数据之前,将标称值转换为唯一的整数。第一个Python脚本操作符'build model'构建模型并将其交付到其输出端口。第二个Python脚本操作符“apply model”将此模型应用于测试集,并添加一个名为prediction的列。在使用Set Role指定“label”和“prediction”列后,可以查看结果。
使用Python创建一个情节并将其存储在存储库中
本教程过程使用'Execute Python'操作符首先获取示例数据,然后创建一个图并将两者返回到输出端口。请将进程存储在您的存储库中。数据以示例集的形式显示,图形以图像的形式存储在存储库中。
使用Python从文件中读取示例集
本教程过程使用'Execute Python'操作符将示例数据保存在csv文件中。第二个'Execute Python'操作符接收该文件,读取数据并将部分数据返回到输出端口。结果是一个示例集。
元数据处理
本教程展示了如何在'Execute Python'操作符中访问传入示例集的元数据。它还解释了如何为输出的示例集设置元数据。