技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

匹配两个非常大的向量与容差(快速！但工作空间保留)

时间：2020-08-22分类：Java作者：编程之家

考虑我有两个向量.一个是参考向量/列表,其包括所有感兴趣的值和一个可包含任何可能值的样本向量.现在我想在参考列表中找到我的样本的匹配,并且具有一定的容差,该容差不是固定的,并且依赖于向量内的比较值：

matches: abs(((referencelist - sample[i])/sample[i])*10^6)) < 0.5

舍入两个向量是没有选择！

例如考虑：

referencelist <- read.table(header=TRUE,text="value  name
154.00312  A
154.07685  B
154.21452  C
154.49545  D
156.77310  E
156.83991  F
159.02992  G
159.65553  H
159.93843  I")

sample <- c(154.00315,159.02991,154.07688,156.77312)

所以我得到了结果：

name value      reference
1    A   154.00315  154.00312
2    G   159.02991  159.02992
3    B   154.07688  154.07685
4    E   156.77312  156.77310

我能做的就是使用例如外在的功能就像

mydist <- outer(referencelist,sample,FUN=function(x,y) abs(((x - y)/y)*10^6))
matches <- which(mydist < 0.5,arr.ind=TRUE)
data.frame(name = referencelist$name[matches[,1]],value=sample[matches[,2]])

或者我可以使用for()循环.

但我的特殊问题是,参考向量有大约1 * 10 ^ 12个条目,我的样本向量大约是1 * 10 ^ 7.所以通过使用outer()我很容易破坏所有工作空间限制,并通过使用for()或chained for()循环,这将需要数天/周才能完成.

有没有人知道如何在R中快速做到这一点,仍然是精确的,但在最大的计算机上工作. 64 GB内存？

谢谢你的帮助！

最好的祝福

解决方法

你的比赛条件

abs(((referencelist - sample[i])/sample[i])*10^6)) < 0.5

可以重写为

sample[i] * (1 - eps) < referencelist < sample[i] * (1 + eps)

eps = 0.5E-6.

使用这个,我们可以使用非等连接来查找每个样本的参考列表中的所有匹配项(不仅是最近的！)：

library(data.table)
options(digits = 10)
eps <- 0.5E-6 # tol * 1E6
setDT(referencelist)[.(value = sample,lower = sample * (1 - eps),upper = sample * (1 + eps)),on = .(ref > lower,ref < upper),.(name,value,reference = x.ref)]

它再现了预期的结果：

06003

作为对OP’s comment的回应,假设我们有一个修改后的referencelist2,其中F = 154.00320,那么这也将被捕获：

setDT(referencelist2)[.(value = sample,reference = x.ref)]

06005

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：java – Maven：从JAR中排除“META 下一篇：Java 8：将2个字符串列表合并到映射

相关推荐

String真的不可变吗？

Java中的String是不可变对象在面向对象及函数编程语言中，不可变对象（英语：Immutable object）是一种对象，在被创造之后，它的状态就不可以被改变。至于状态可以被改变的对象，则被称为可变对象（英语：mutable object）。-- 来自百度百科 Java8 String源码

作者：seven97_top 时间：2024-10-24

String, StringBuffer 和 StringBuilder之间的区别

String, StringBuffer 和 StringBuilder 可变性 String不可变 StringBuffer 和 StringBuilder 可变线程安全 String 不可变，因此是线程安全的 StringBuilder不是线程安全的 StringBuffer 是线程安全的，内

作者：seven97_top 时间：2024-10-24

讲讲Java的序列化反序列化？

序列化：把对象转换为字节序列的过程称为对象的序列化. 反序列化：把字节序列恢复为对象的过程称为对象的反序列化. 什么时候会用到当只在本地 JVM 里运行下 Java 实例，这个时候是不需要什么序列化和反序列化的，但当出现以下场景时，就需要序列化和反序列化了：当需要将内存中的对象持久化到磁盘，数据

作者：seven97_top 时间：2024-10-24

数组到底是不是对象

先说结论，是对象！可以继续往下看数组是不是对象什么是对象？对象是类的一个实例，有状态和行为 Java对象：软件的对象也有行为和状态软件对象的状态称之为属性方法操作对象内部状态的改变，对象的相互调用也是通过方法来完成而java中的数组具有java中其他对象的一些基本特点。比如封装了一些数据

作者：seven97_top 时间：2024-10-24

金融、支付行业的开发者不得不知道的float、double计算误差问题

为什么浮点数 float 或 double 运算的时候会有精度丢失的风险呢？《阿里巴巴 Java 开发手册》中提到：“浮点数之间的等值判断，基本数据类型不能用 == 来比较，包装数据类型不能用 equals 来判断”。“为了避免精度丢失，可以使用 BigDecimal 来进行浮点数的运算”。浮点

作者：seven97_top 时间：2024-10-24

浅谈Integer缓存机制原理

面试题引入这里引申出一个经典问题，看下面代码 Integer a = 100; Integer b = 100; System.out.println(a == b);//true Integer c = 200; Integer d = 200; System.out.println(c ==

作者：seven97_top 时间：2024-10-24

能否自定义一个String类使用

先说下结论，可以自定义包名不为java.lang的String类，区别包名是可以正常使用的。包名不为java.lang package com.seven.jvm; public final class String { /** The value is used for character st

作者：seven97_top 时间：2024-10-24

一文讲清楚static关键字

static能修饰的地方静态变量静态变量: 又称为类变量，也就是说这个变量属于类的，类所有的实例都共享静态变量，可以直接通过类名来访问它；静态变量在内存中只存在一份。实例变量: 每创建一个实例就会产生一个实例变量，它与该实例同生共死。静态方法静态方法在类加载的时候就存在了，它不依赖于任何实

作者：seven97_top 时间：2024-10-24

String究竟能存储多少字符？

能存储多少字符，通过以下步骤来看首先String的length方法返回是int。所以理论上长度一定不会超过int的最大值。编译器对字符串字面量长度的限制源自Java编译器（如javac）在处理常量池时的实现。编译器源码如下，限制了字符串长度大于等于65535就会编译不通过：// src/jdk.

作者：seven97_top 时间：2024-10-24

解决哈希冲突的三种方法

为什么会哈希冲突我们知道，在使用Map，Set这些集合时，都会重写hashcode方法，但Java中的hashCode方法会将对象映射到一个32位的整数范围（即从-2^31 到 2^31-1）。无论输入数据多么庞大，哈希函数生成的哈希值总是落在这个有限范围内。因此是会存在hash冲突的。无论哈希

作者：seven97_top 时间：2024-10-24

小编推荐

苹果市值2025年有望达4万亿美元