微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用LUIS Azure语言服务分析整个文档文本

如何解决使用LUIS Azure语言服务分析整个文档文本

我已经训练了一个Azure LUIS服务模型,该模型将句子作为输入,提取关键信息,并返回JSON响应。

它适用于短句子,现在,我希望它获取一个文档(PDF,DOCX)并分析所有页面,然后提取所需的信息(例如,StartingDate,EndingDate,CompanyName等)。可以添加任何内容吗?

或有关如何分析整个文档并提取关键信息的任何指导。

任何种类的信息将不胜感激! 谢谢

解决方法

@Farhan Mubasher LUIS如果您传递的句子或话语能够提取诸如日期和名称之类的信息作为实体,则效果很好。实际上,其中大多数都可以作为预建实体来训练模型并从话语中提取出来。

如果您打算像整个PDF文档一样使用多个页面的整个文档,则使用form recognizer之类的服务或使用Azure计算机视觉的READ API之类的服务来提取文本会更容易。使用一些预处理技术,您可以将句子传递给经过LUIS训练的模型并处理响应。

如果您的最终目标是从某种格式的文档中提取日期和公司信息之类的信息,表单识别器将非常有用。您只需要使用一些格式相似的文档训练模型,然后使用Analyze API将此信息提取为JSON响应中可用的标签。请检出表单识别器labeling tool,它非常容易设置和使用。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?