微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

导入富文档时是否有SOLR的最佳实践schema.xml?

我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.

在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用?

我一直在对认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的输出足够时这些文件应该如何.

如果没有最佳实践schema.xml和/或solrconfig.xml这样的东西,我也会对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.

欢迎任何指示!

解决方法

在书籍驯服文本(http://www.manning.com/ingersoll/)中你有一些参考
ExtractingRequestHandler.本书是关于使用solr,tika或lucene等开源工具处理文本的.

我读到第5章,到现在为止,本书解释了如何通过修改文件schema.xml来创建不同类型的字段以及在查询或索引中处理来扩展solr功能.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。