微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何将S3中的文件不是.csv文件读入rstudio和AWS

如何解决如何将S3中的文件不是.csv文件读入rstudio和AWS

文件约为45 GB,以“ .gds”(基因组数据结构(GDS)文件)结尾。 如何将其读入rstudio和aws,以便我可以在rstudio云上运行统计分析?

我尝试过:

library(aws.s3)


gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/example.gds",bucket = "bucketname")

它没有按照我想要的方式工作。

我想要:

Object of class "SeqVarGDSClass"
File: D:\Program Files\R\R-4.0.2\library\SAIGEgds\extdata\grm1k_10k_snp.gds (694.2K)

+    [  ] *


|--+ description   [  ] *


|--+ sample.id   { Str8 1000 LZMA_ra(12.6%),625B } *


|--+ variant.id   { Int32 10000 LZMA_ra(9.87%),3.9K } *


|--+ position   { Int32 10000 LZMA_ra(9.87%),3.9K } *


|--+ chromosome   { Str8 10000 LZMA_ra(0.71%),149B } *


|--+ allele   { Str8 10000 LZMA_ra(1.03%),421B } *


|--+ genotype   [  ] *


|  |--+ data   { Bit2 2x1000x10000 LZMA_ra(13.8%),675.5K } *


|  |--+ extra.index   { Int32 3x0 LZMA_ra,18B } *


|  \--+ extra   { Int16 0 LZMA_ra,18B }


|--+ phase   [  ]
|  |--+ data   { Bit1 1000x10000 LZMA_ra(0.03%),333B } *


|  |--+ extra.index   { Int32 3x0 LZMA_ra,18B } *


|  \--+ extra   { Bit1 0 LZMA_ra,18B }


|--+ annotation   [  ]


|  |--+ id   { Str8 10000 LZMA_ra(5.47%),3.7K } *


|  |--+ qual   { Float32 10000 LZMA_ra(0.38%),161B } *


|  |--+ filter   { Int32,factor 10000 LZMA_ra(0.38%),161B } *


|  |--+ info   [  ]


|  \--+ format   [  ]


\--+ sample.annotation   [  ]


   |--+ sex   { Str8 1000 LZMA_ra(9.00%),97B } *


   \--+ phenotype   { Int32 1000 LZMA_ra(2.75%),117B } *

那么我应该怎么做才能从s3中检索文件(任何格式)并将其读入rstudio

我做了一些研究,只发现了.csv文件的一些示例。但是,我的文件显然不是.csv文件

谢谢。

编辑:对于第一个

> gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/grm1k_10k_snp.gds",bucket = "bucketname")

> seqOpen(gdsfile)


Error in seqOpen(gdsfile) : is.character(gds.fn) is not TRUE

> gdsfile


   [1] 43 4f 52 45 41 52 52 41 59 78 30 41 00 01 01 00 00 00


  [19] 0b 02 00 00 00 80 00 00 00 00 00 00 01 00 00 00 f5 01


  [37] 00 00 00 00 f5 01 00 00 00 00 04 00 08 c6 43 75 4e f6


  [55] 01 0a 00 00 00 01 c7 43 75 17 e5 7d 9a 01 00 00 00 00


  [73] 2a 00 00 00 00 00 03 00 09 02 f5 00 02 00 00 00 09 44


  [91] 74 31 12 02 00 00 00 15 44 c6 60 10 0b 64 65 73 63 72


 [109] 69 70 74 69 6f 6e 28 00 00 00 00 00 03 00 09 02 f5 00


 [127] 03 00 00 00 09 44 74 31 12 00 00 00 00 15 44 c6 60 10


 [145] 09 73 61 6d 70 6c 65 2e 69 64 29 00 00 00 00 00 03 00

第二个,

library(SAIGEgds)



fn <- system.file("extdata","grm1k_10k_snp.gds",package="SAIGEgds")


gdsfile <- seqOpen(fn)

然后您会看到我想要的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?