AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python-通过使用现有数据集作为基础数据集生成数据

时间：2022-10-07分类：Scala作者：编程之家原文地址

我有一个包含10万个唯一数据记录的数据集,以对代码进行基准测试,我需要对具有500万个唯一记录的数据进行测试,我不想生成随机数据.我想使用我拥有的10万条数据记录作为基础数据集,并使用某些列的唯一值生成与之相似的剩余数据,如何使用python或Scala做到这一点？

这是示例数据

latitude   longitude  step count
25.696395   -80.297496  1   1
25.699544   -80.297055  1   1
25.698612   -80.292015  1   1
25.939942   -80.341607  1   1
25.939221   -80.349899  1   1
25.944992   -80.346589  1   1
27.938951   -82.492018  1   1
27.944691   -82.48961   1   3
28.355484   -81.55574   1   1

每对经纬度在生成的数据中应该是唯一的,我也应该能够为这些列设置最小值和最大值

解决方法:

您可以使用R轻松生成符合正态分布的数据,可以按照以下步骤进行操作

#Read the data into a dataframe
library(data.table)
data = data = fread("data.csv", sep=",", select = c("latitude", "longitude"))

#Remove duplicate and null values
df = data.frame("Lat"=data$"latitude", "Lon"=data$"longitude")
df1 = unique(df[1:2])
df2  <- na.omit(df1)

#Determine the mean and standard deviation of latitude and longitude values
meanLat = mean(df2$Lat)
meanLon = mean(df2$Lon)
sdLat = sd(df2$Lat)
sdLon = sd(df2$Lon)

#Use Normal distribution to generate new data of 1 million records

newData = list()
newData$Lat = sapply(rep(0, 1000000), function(x) (sum(runif(12))-6) * sdLat + meanLat)
newData$Lon = sapply(rep(0, 1000000), function(x) (sum(runif(12))-6) * sdLon + meanLon)

finalData = rbind(df2,newData)

now final data contains both old records and new records

将finalData数据帧写入CSV文件,您可以从Scala或python中读取它

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

共收录 Twitter 的 14 款开源软件，第 1 页

共收录Twitter的14款开源软件，第1页Twitter的Emoji表情 TwemojiTwemoji是Twitter开源的其完整的Emoji表情图片。开发者可以去GitHub下载完整的表情库，并把这些表情加入到自己的应用或网页中。使用示例：var i = ...

Java和Scala中关于==的区别

Java和Scala中关于==的区别Java：==比较两个变量本身的值，即两个对象在内存中的首地址；equals比较字符串中所包含的内容是否相同。publicstaticvoidmain(String[]args){ Strings1="abc"; Strings2=ne...

Scala怎么使用

本篇内容主要讲解“Scala怎么使用”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala怎么使用”吧!语法scala...

Scala是一种什么语言

这篇文章主要介绍“Scala是一种什么语言”，在日常操作中，相信很多人在Scala是一种什么语言问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

Scala Trait怎么使用

这篇文章主要介绍“Scala Trait怎么使用”，在日常操作中，相信很多人在Scala Trait怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

Scala类型检查与模式匹配怎么使用

这篇文章主要介绍“Scala类型检查与模式匹配怎么使用”，在日常操作中，相信很多人在Scala类型检查与模式匹配怎么使用问题上存在疑惑，小编查阅了各式资料，整理...

scala中常用但不常见的符号有哪些

这篇文章主要介绍“scala中常用但不常见的符号有哪些”，在日常操作中，相信很多人在scala中常用但不常见的符号有哪些问题上存在疑惑，小编查阅了各式资料，整理...

Scala基础知识有哪些

本篇内容主要讲解“Scala基础知识有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala基础知识有哪些”...

scala基础知识点有哪些

本篇内容介绍了“scala基础知识点有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

Scala下划线怎么使用

本篇内容介绍了“Scala下划线怎么使用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

小编推荐

热门标签