如何在不下载的情况下从 AWS 中的 grib 文件中提取数据?

如何解决如何在不下载的情况下从 AWS 中的 grib 文件中提取数据?

我希望访问一个 grib 文件以从云中提取参数(例如温度等),而无需将文件存储在本地。我听说这可以通过 cfgrib API 完成,但找不到任何示例文档(我检查了源文档 here,但这不包括任何用于在云中访问的内容)。

根据使用 pygrib 的经验,我知道 API 以字节表示形式读取 grib 文件,而 cfgrib 似乎以类似的方式处理它。经过一些研究和反复试验,我想出了这个尝试读取文件的字节字符串表示的代码

导入boto3 进口博托 从 botocore.config 导入配置 从 botocore 进口 UNSIGNED 导入pygrib 导入 cfgrib

if __name__ == '__main__':
    # Define boto config
    my_config = Config(
    signature_version = UNSIGNED,retries = {
        'max_attempts': 10,'mode': 'standard'
        }
    )
    
    session = boto3.Session(profile_name='default')
    s3 = session.resource('s3')
    my_bucket = s3.Bucket('nbmdata')
    
    # Get a unique key for each file in s3
    file_keys = []
    for my_bucket_object in my_bucket.objects.all():
        file_keys.append(my_bucket_object.key)
    
    # Extract each file as a binary string (without downloading)
    grib_files = []
    for key in file_keys:
        s3 = boto.connect_s3()
        bucket = s3.lookup('bucket') # Removed bucket name
        key = bucket.lookup(key)
        your_bytes = key.get_contents_as_string(headers={'Range' : 'bytes=73-1024'})
        grib_files.append(your_bytes)
     
    # Interpret binary string into pygrib
    for grib_file in grib_files:
        grbs = pygrib.open(grib_file)

这似乎几乎有效。我收到此错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xee in position 7: invalid continuation byte

当我尝试用 cfgrib 替换它时,我遇到了同样的错误。我在这里错过了什么?

解决方法

我知道您正在使用 boto 来使用特定的 get_contents_as_string 方法,但是如果您只是想获取字节,这会起作用吗?我认为 bot 方法试图解码为 utf-8,所以也许你需要指定 encoding=None 来获取字节数组???

但在 boto3 中,我使用它而不解码文件流,然后打印每个文件的前 50 个字符。

grib_files = []
for key in file_keys:
    response = boto3.client('s3').get_object(Bucket='nbmdata',Key=key)
    grib_files.append(response['Body'].read())

for grib in grib_files:
    print(grib[0:50])

b'GRIB\x00\x00\x00\x02\x00\x00\x00\x00\x00\x16\xa7\x7f\x00\x00\x00\x15\x01\x00\x07\x00\x0e\x01\x01\x01\x07\xe5\x05\x1b\x03\x00\x00\x00\x01\x00\x00\x00Q\x03\x00\x009$\xc5\x00\x00\x00'
b'GRIB\x00\x00\x00\x02\x00\x00\x00\x00\x00\x16\x8b\xa8\x00\x00\x00\x15\x01\x00\x07\x00\x0e\x01\x01\x01\x07\xe5\x05\x1b\x03\x00\x00\x00\x01\x00\x00\x00Q\x03\x00\x009$\xc5\x00\x00\x00'

如果您尝试使用 utf-8 解码这些文件,则会抛出您收到的相同错误。从这里开始,我不知道如何解码和处理,所以也许这有帮助????

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?