识别R函数和脚本的依赖关系

我正在筛选一个使用该包的包和脚本,并希望识别外部依赖关系。目标是修改脚本以指定库(pkgName)并修改程序包中的函数以使用require(pkgName),以便以后这些依赖关系将更加明显。

我正在修改代码解决每个外部依赖的包。例如,尽管这绝对不是确定性的,但我现在发现难以识别依赖于data.table的代码。我可以用Matrix,ggplot2,bigmemory,plyr或许多其他软件包替换data.table,所以随便回答一下基于其他软件包的示例。

这个搜索并不是特别容易。迄今为止我所尝试的方法包括

>搜索库的代码和需要的语句
>搜索data.table(例如library(data.table))
>尝试运行codetools :: checkUsage来确定哪里可能有一些问题。对于脚本,我的程序将脚本插入到本地函数中,并将checkUsage应用于该函数。否则,我使用checkUsagePackage的包。
>查找对data.table有些独特的语句,例如:=。
>寻找通过匈牙利符号识别对象的类,如DT

我的搜索的本质是找到:

>加载data.table,
>具有表示它们是data.table对象的名称的对象,
>似乎是data.table特定的方法

其中唯一容易的部分似乎是找到包装在哪里。不幸的是,并不是所有的功能都可能显式地加载或需要外部包 – 这些可能会假定它已经被加载。这是一个不好的做法,我正在努力解决它。然而,搜索对象和方法似乎是具有挑战性的。

这个(data.table)只是一个包,一个包含似乎有限的和有些独特的用法。假设我想查找ggplot函数用法,其中选项更广泛,语法的文本不是特殊的(即,频繁使用不是特殊的,而=似乎是)。

我不认为静态分析会给出一个完美的答案,例如可以将参数传递给一个函数,该函数指定要加载的包。尽管如此,是否有任何核心工具或软件包可以通过静态或动态分析来改善这种强力方法

对于什么是值得的,tools :: pkgDepends仅在包级别处理依赖关系,而不是功能或脚本级别,这是我正在工作的级别。

更新1:应该工作的动态分析工具的示例是报告在代码执行期间加载哪些包的报告。我不知道R中是否存在这样的能力,但是Rprof会报告search()的输出而不是代码堆栈。

首先,感谢@ mathem.coffee将我放在使用Mark Bravington的mvbutils包的路上。食物的功能是令人满意的。

要概述,我想知道关于检查一个包,说myPackage与另一个包,说externalPackage,以及关于根据externalPackage检查脚本。我将演示如何做到这一点。在这种情况下,外部包是data.table。

1:对于myPackage与data.table,以下命令足够:

library(mvbutils)
library(myPackage)
library(data.table)
ixWhere <- match(c("myPackage","data.table"),search())
foodweb(where = ixWhere,prune = ls("package:data.table"),descendents = FALSE)

这产生了一个很好的图表,显示哪些功能取决于data.table中的函数。虽然图表包含了data.table中的依赖关系,但它并不过分繁重:我可以很容易地看出我的函数依赖于data.table,以及它们使用的函数,比如as.data.table,data.table,关键等等。在这一点上,可以说包依赖问题解决了,但是foodweb提供了更多的东西,所以让我们来看看。酷的部分是依赖矩阵。

depMat  <- foodweb(where = ixWhere,descendents = FALSE,plotting = FALSE)
ix_sel  <- grep("^myPackage.",rownames(depMat))
depMat  <- depMat[ix_sel,]
depMat  <- depMat[,-ix_sel]
ix_drop <- which(colSums(depMat) == 0)
depMat  <- depMat[,-ix_drop]
ix_drop <- which(rowSums(depMat) == 0)
depMat  <- depMat[-ix_drop,]

这很酷:它现在显示了我的包中的函数的依赖关系,其中我使用了详细的名称,例如myPackage.cleanData,对函数没有
在我的包中,即data.table中的函数,它消除了没有依赖关系的行和列。这很简洁,让我快速调查依赖关系,我也可以通过处理rownames(depMat)轻松找到我的功能的补充集。

注意:plotting = FALSE似乎不能阻止绘图设备的创建,至少在第一次在一系列调用调用foodweb。这很麻烦,但不是很可怕。也许我在做错事。

2:对于脚本与data.table,这有点更有趣。对于每个脚本,我需要创建一个临时函数,然后检查依赖关系。我下面有一点功能

listFiles <- dir(pattern = "myScript*.r")
checkScriptDependencies <- function(fname){
    require(mvbutils)
    rawCode  <- readLines(fname)
    toParse  <- paste("localFunc <- function(){",paste(rawCode,sep = "\n",collapse = "\n"),"}",collapse = "")
    newFunc  <- eval(parse(text = toParse))
    ix       <- match("data.table",search())
    vecPrune <- c("localFunc",ls("package:data.table"))
    tmpRes   <- foodweb(where = c(environment(),ix),prune = vecPrune,plotting = FALSE)
    tmpMat   <- tmpRes$funmat
    tmpVec   <- tmpMat["localFunc",]
    return(tmpVec)
}

listDeps <- list()
for(selFile in listFiles){
    listDeps[[selFile]] <- checkScriptDependencies(selFile)
}

现在,我只需要看看listDeps,并且我从上面的depMat中获得了同样的奇妙的小知识。我修改了从我写的其他代码的checkScriptDependencies发送脚本,以通过codetools :: checkUsage进行分析;有一个像这样的功能分析独立代码是很好的。使用环境(),将@Spacedman@Tommy用于改善对foodweb的呼叫的洞察。

(真正的hungaRians会注意到我与名称和类型的顺序不一致 – tooBad :)有一个更长的原因,但这不是正是我使用的代码,反正)

虽然我没有发布由foodweb为我的代码生成的图形的图片,你可以看到一些很好的例子在http://web.archive.org/web/20120413190726/http://www.sigmafield.org/2010/09/21/r-function-of-the-day-foodweb.在我的情况下,它的输出绝对捕获data.table的用法:=和J,以及标准的命名函数,如key和as.data.table。它似乎可以消除我的文本搜索,并且是几种方式的改进(例如查找我忽略的功能)。

总而言之,foodweb是一个很好的工具,我鼓励别人探索mvbutils包和Mark Bravington的其他一些不错的包,比如调试。如果你安装mvbutils,只需检查一下?changed.funs,如果你认为只有你在管理不断发展的R代码的时候才能努力。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


迭代器模式(Iterator)迭代器模式(Iterator)[Cursor]意图:提供一种方法顺序访问一个聚合对象中的每个元素,而又不想暴露该对象的内部表示。应用:STL标准库迭代器实现、Java集合类型迭代器等模式结构:心得:迭代器模式的目的是在不获知集合对象内部细节的同时能对集合元素进行遍历操作
高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种:(1)同步阻塞IO(BlockingIO):即传统的IO模型。(2)同步非阻塞IO(Non-blockingIO):默认创建的socket都是阻塞的,非阻塞IO要求socket被设置为NONBLOCK。注意这里所说的N
策略模式(Strategy)策略模式(Strategy)[Policy]意图:定义一系列算法,把他们封装起来,并且使他们可以相互替换,使算法可以独立于使用它的客户而变化。应用:排序的比较方法、封装针对类的不同的算法、消除条件判断、寄存器分配算法等。模式结构:心得:对对象(Context)的处理操作可
访问者模式(Visitor)访问者模式(Visitor)意图:表示一个作用于某对象结构中的各元素的操作,它使你在不改变各元素的类的前提下定义作用于这些元素的新操作。应用:作用于编译器语法树的语义分析算法。模式结构:心得:访问者模式是要解决对对象添加新的操作和功能时候,如何尽可能不修改对象的类的一种方
命令模式(Command)命令模式(Command)[Action/Transaction]意图:将一个请求封装为一个对象,从而可用不同的请求对客户参数化。对请求排队或记录请求日志,以及支持可撤消的操作。应用:用户操作日志、撤销恢复操作。模式结构:心得:命令对象的抽象接口(Command)提供的两个
生成器模式(Builder)生成器模式(Builder)意图:将一个对象的构建和它的表示分离,使得同样的构建过程可以创建不同的表示。 应用:编译器词法分析器指导生成抽象语法树、构造迷宫等。模式结构:心得:和工厂模式不同的是,Builder模式需要详细的指导产品的生产。指导者(Director)使用C
设计模式学习心得《设计模式:可复用面向对象软件的基础》一书以更贴近读者思维的角度描述了GOF的23个设计模式。按照书中介绍的每个设计模式的内容,结合网上搜集的资料,我将对设计模式的学习心得总结出来。网络上关于设计模式的资料和文章汗牛充栋,有些文章对设计模式介绍生动形象。但是我相信“一千个读者,一千个
工厂方法模式(Factory Method)工厂方法模式(Factory Method)[Virtual Constructor]意图:定义一个用于创建对象的接口,让子类决定实例化哪一个类,使一个类的实力化延迟到子类。应用:多文档应用管理不同类型的文档。模式结构:心得:面对同一继承体系(Produc
单例模式(Singleton)单例模式(Singleton)意图:保证一个类只有一个实例,并提供一个访问它的全局访问点。应用:Session或者控件的唯一示例等。模式结构:心得:单例模式应该是设计模式中最简单的结构了,它的目的很简单,就是保证自身的实例只有一份。实现这种目的的方式有很多,在Java中
装饰者模式(Decorator)装饰者模式(Decorator)[Wrapper]意图:动态的给一个对象添加一些额外的职责,就增加功能来说,比生成子类更为灵活。应用:给GUI组件添加功能等。模式结构:心得:装饰器(Decorator)和被装饰的对象(ConcreteComponent)拥有统一的接口
抽象工厂模式(Abstract Factory)抽象工厂模式(Abstract Factory)[Kit]意图:提供一个创建一系列相关或相互依赖对象的接口,而无须指定他们具体的类。应用:用户界面工具包。模式结构:心得:工厂方法把生产产品的方式封装起来了,但是一个工厂只能生产一类对象,当一个工厂需要生
桥接模式(Bridge)桥接模式(Bridge)[Handle/Body]意图:将抽象部分与它的实现部分分离,使他们都可以独立的变化。应用:不同系统平台的Windows界面。模式结构:心得:用户所见类体系结构(Window派生)提供了一系列用户的高层操作的接口,但是这些接口的实现是基于具体的底层实现
适配器模式(Adapter)适配器模式(Adapter)[Wrapper]意图:将类的一个接口转换成用户希望的另一个接口,使得原本由于接口不兼容而不能一起工作的类可以一起工作。应用:将图形类接口适配到用户界面组件类中。模式结构:心得:适配器模式一般应用在具有相似接口可复用的条件下。目标接口(Targ
组合模式(Composition)组合模式(Composition)意图:将对象组合成树形结构以表示“部分-整体”的层次结构,使得用户对单个对象和组合对象的使用具有一致性。应用:组合图形、文件目录、GUI容器等。模式结构:心得: 用户(Client)通过抽象类(Component)提供的公用接口统一
原型模式(Prototype)原型模式(Prototype)意图:用原型实例制定创建对象的种类,并且通过拷贝这些原型创建新的对象。应用:Java/C#中的Clonable和IClonable接口等。模式结构:心得:原型模式本质上就是对象的拷贝,使用对象拷贝代替对象创建的原因有很多。比如对象的初始化构
什么是设计模式一套被反复使用、多数人知晓的、经过分类编目的、代码 设计经验 的总结;使用设计模式是为了 可重用 代码、让代码 更容易 被他人理解、保证代码 可靠性;设计模式使代码编制  真正工程化;设计模式使软件工程的 基石脉络, 如同大厦的结构一样;并不直接用来完成代码的编写,而是 描述 在各种不同情况下,要怎么解决问题的一种方案;能使不稳定依赖于相对稳定、具体依赖于相对抽象,避免引
单一职责原则定义(Single Responsibility Principle,SRP)一个对象应该只包含 单一的职责,并且该职责被完整地封装在一个类中。Every  Object should have  a single responsibility, and that responsibility should be entirely encapsulated by t
动态代理和CGLib代理分不清吗,看看这篇文章,写的非常好,强烈推荐。原文截图*************************************************************************************************************************原文文本************
适配器模式将一个类的接口转换成客户期望的另一个接口,使得原本接口不兼容的类可以相互合作。
策略模式定义了一系列算法族,并封装在类中,它们之间可以互相替换,此模式让算法的变化独立于使用算法的客户。