技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Windows上使用Tesseract-ocr识别藏文、天城体梵文

时间：2022-09-03分类：Windows作者：编程之家原文地址AI导航网

Tesseract-ocr可以OCR识别藏文、梵文，识别为Unicode字符，效果还不错

1、下载Windows安装版

Windows安装版地址：
https://github.com/UB-Mannheim/tesseract/wiki

所有版本下载地址：

https://digi.bib.uni-mannheim.de/tesseract/

推荐使用5.0版本，4.0版本支持API，编程需要4.0版本。

2、下载识别文件包
https://tesseract-ocr.github.io/tessdoc/Data-Files

有普通、best、fast三种模式可选，下载相应traineddata数据。可以下载4.0的数据。

还有很多其他语言，可以去探索。

注：汉语、日语、韩语等语言，Finereader的OCR效果要比Tesseract-ocr强很多，但是Finereader是收费的。西方语言还可以选用OmniPage，但是OmniPage也是收费的。网上有破解版，但是现在越来越不少找了。

3、配置TESSDATA_PREFIX变量
参考网页：https://blog.csdn.net/weixin_41982136/article/details/82747499

如将traineddata拷贝至C:\Program Files\Tesseract-OCR\tessdata，则将TESSDATA_PREFIX设置为C:\Program Files\Tesseract-OCR\tessdata

4、在命令行下使用

参考网页：

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

识别藏文

tesseract 藏文图片保存地址 -l bod

识别梵文

tesseract 梵文图片保存地址 -l san

cmd示例：

进入安装目录
cd C:\Program Files\Tesseract-OCR

测试语言安装是否正确，有哪些训练语言
tesseract --list-langs

识别一张图片
tesseract tib_001.jpg D:\tib_001 -l bod

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：解决：当前标识(DESKTOP-29DL0H4&#下一篇：如何在Windows上使用Git创建一个可

相关推荐

Windows2012R2备用域控搭建

Windows2012R2备用域控搭建前置操作域控主域控的主dns：自己的ip备域控的主dns：自己的ip，备dns：主域控的ip 客户端主dns：主域控的ip，备dns：备域控的ip 一般说主和备，主要是指担任PDC放置的角色的这台DC，所有修改密码的操作必须由这台DC应答除了修改密码、域管

作者：桦仔时间：2024-09-28

主域控角色迁移和夺取（转载）

主域控角色迁移和夺取（转载）转载自：http://yupeizhi.blog.51cto.com/3157367/1427978 操作系统版本：Windows2012R2 数据中心版 FSMO角色迁移主域控没有挂的情况下使用FSMO角色迁移 FSMO角色迁移步骤，下面步骤在备用域控上执行 0、使

作者：桦仔时间：2024-09-28

Windows2012R2 NTP时间同步

Windows2012R2 NTP时间同步 Windows2012R2里没有了internet时间，需要使用另外的方式去做时间同步下面分两个情况两个情况，两个情况都需要用修改组策略的方式来做情况一没有Windows域环境集群中的每个服务器都要能上网，每个服务器都要执行下面的操作开启 NT

作者：桦仔时间：2024-09-28

Windows注册表操作基础代码

Windows注册表操作基础代码 Windows下对注册表进行操作使用的一段基础代码Reg.h:#pragmaonce#include<assert.h>#include<windows.h>classReg{HKEYhkey;public:voidopen(HKEYroot

作者：Florian 时间：2024-07-31

黑客常用WinAPI函数整理

黑客常用WinAPI函数整理之前的博客写了很多关于Windows编程的内容，在Windows环境下的黑客必须熟练掌握底层API编程。为了使读者对黑客常用的Windows API有个更全面的了解以及方便日后使用API方法的查询，特将这些常用的API按照7大分类进行整理如下，希望对大家的学习有所帮助。一

作者：Florian 时间：2024-07-31

一个简单的Windows Socket可复用框架

一个简单的Windows Socket可复用框架说起网络编程，无非是建立连接，发送数据，接收数据，关闭连接。曾经学习网络编程的时候用Java写了一些小的聊天程序，Java对网络接口函数的封装还是很简单实用的，但是在Windows下网络编程使用的Socket就显得稍微有点繁琐。这里介绍一个自己封装的一

作者：Florian 时间：2024-07-31

Windows文件操作基础代码

Windows文件操作基础代码 Windows下对文件进行操作使用的一段基础代码File.h，首先是File类定义：#pragmaonce#include<Windows.h>#include<assert.h>classFile{HANDLEhFile;//文件句柄publ

作者：Florian 时间：2024-07-31

Winpcap基础代码

Winpcap基础代码使用Winpcap进行网络数据的截获和发送都需要的一段代码：#include<PCAP.H>#pragmacomment(lib,"wpcap.lib")//#pragmacomment(lib,"ws2_32.lib")#

作者：Florian 时间：2024-07-31

使用vbs脚本进行批量编码转换

使用vbs脚本进行批量编码转换最近需要使用SourceInsight查看分析在Linux系统下开发的项目代码，我们知道Linux系统中文本文件默认编码格式是UTF-8，而Windows中文系统中的默认编码格式是Gb2312。系统内的编码格式有所区别倒无伤大雅，关键的是SourceInsigh...

作者：Florian 时间：2024-07-31

缓冲区溢出攻击

缓冲区溢出攻击缓冲区溢出（Buffer Overflow）是计算机安全领域内既经典而又古老的话题。随着计算机系统安全性的加强，传统的缓冲区溢出攻击方式可能变得不再奏效，相应的介绍缓冲区溢出原理的资料也变得“大众化”起来。其中看雪的《0day安全：软件漏洞分析技术》一书将缓冲区溢出攻击的原理阐述得简洁

作者：Florian 时间：2024-07-31

小编推荐

苹果市值2025年有望达4万亿美元