微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Tika 服务器返回状态:404

如何解决Tika 服务器返回状态:404

我正在尝试使用 python 设置 Tika 以进行文本提取。我已经安装了 Java runtime jre 1.8.0,使用 pip install tika==1.23 安装了 tika,从 this link 下载了 tika 服务器 jar 文件,并且如 this page 中所述,我添加了变量 {{1 }} 到系统环境变量。我用命令 TIKA_SERVER_JAR="..tika-server-1.9.jar" 启动了 tika 服务器,我得到了类似下面的内容

java -jar "..tika-server-1.9.jar"

当我在浏览器中打开 C:\Users\Administrator>java -jar "C:\Program Files\Java\tika-server-1.9.jar" Mar 02,2021 4:29:07 PM org.apache.tika.server.TikaServerCli main INFO: Starting Apache Tika 1.9 server Mar 02,2021 4:29:08 PM org.apache.cxf.endpoint.ServerImpl initDestination INFO: Setting the server's publish address to be http://localhost:9998/ Mar 02,2021 4:29:08 PM org.slf4j.impl.JCLLoggerAdapter info INFO: jetty-8.y.z-SNAPSHOT Mar 02,2021 4:29:08 PM org.slf4j.impl.JCLLoggerAdapter info INFO: Started SelectChannelConnector@localhost:9998 Mar 02,2021 4:29:08 PM org.apache.tika.server.TikaServerCli main INFO: Started 时,它会向我显示 Tika API 文档。

但是当我尝试使用 python 提取文本时,如下所示。

http://localhost:9998/

tika 无法按预期工作。它引发了如下异常。这是我在控制台上看到的,没有别的。

import tika
from tika import parser
tika.initVM()

text = parser.from_file(r"..somefile.doc")
print(text)

几个月前我曾经成功地将 tika 与 python 一起使用,但我对我现在缺少的东西一无所知。

编辑: 当我运行上面的 python 代码段时,我可以在控制台中看到如下所示的详细信息。

2021-03-02 16:31:03,037 [MainThread  ] [WARNI]  Tika server returned status: 404

这是我每次运行python脚本提取文本时在控制台上看到的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。