微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Tesserocr UnicodeDecodeError:

如何解决Tesserocr UnicodeDecodeError:

所以我被这个错误困住了:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

这是代码。我知道这很草率,但我只是想弄清楚如何解决问题。

def unzip(resp: ClientResponse):
    """Reading and unpacking archive in memory"""
    img_buff = BytesIO()   #creating in-memory buffer
    with ZipFile(BytesIO(await resp.content.read())) as unziped_pages:  #unzipping the archive in memory
        for page in unziped_pages.namelist():
            with Image.open(BytesIO(unziped_pages.read(page))) as im:  # type: Image.Image   #creating from bytes and extracting pictures one by one
                im.save(img_buff,format='JPEG',quality=100) # saving pictures as bytes to in-memory buffer
                result = img_buff.getvalue() # getting the bytes for each picture
                with PyTessBaseAPI() as api:    # < ---- this is where error starts
                    api.SetimageFile(result)
                    print(api.GetUTF8Text())
                    print(api.AllWordConfidences())

这里是这个函数中发生的事情:

  1. 我收到了 .zip 文件回复
  2. 因为我没有在光盘上保存任何内容,所以我使用 BytesIO 将所有内容保存在内存中(老实说我不太明白为什么我必须使用 BytesIO ,因为 resp.content.read() 是类型 {{1 }} 也一样。)
  3. 我正在使用 bytes 再次创建 Pillow 对象。
  4. 我正在将图像保存到缓冲区,以便稍后使用
  5. 通过宣布 BytesIO,我将枕头 obj 转换为字节。

然后我收到此错误

可能是因为图片上的文字是俄语?那我该怎么办?

先谢谢你!!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?