AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Java-Dbpedia提取框架-如何剥离MediaWiki格式标记

时间：2022-10-07分类：Scala作者：编程之家原文地址

我在玩dbpedia提取框架.看起来非常好,我很高兴为维基百科页面构建AST,并提取链接(使用WikiParser).但是,尽管我从解析中得到了一棵漂亮的结构树,但我注意到文本节点仍然包含许多格式标记(例如用于斜体化,粗体显示的撇号).出于我的目的,这些没有帮助-我只需要纯文本.

我可以花一些时间编写自己的代码以消除这种情况,但是我想这样的事情对dbpedia很有用-并且它存在于库中的某个位置.我对吗？如果是这样-剥离成裸文本的额外功能在哪里？

否则-是否有人知道其他任何软件包(最好是Scala)来剥离MediaWiki标记？

编辑

响应更详细的要求.以下标记：

''An italicised '''bit''' of text'', <b>Some markup</b>

通过dbpedia作为TextNode的内容出现,但未更改.我希望能够将其简化为：

 An italicised bit of text, Some markup

或者可能是具有更多结构化的AST,其带有代表原始文本各部分的附加节点,也许在每个节点上都标注了要应用的格式类型(例如,斜体,粗体等).

照原样,dbpedia解析的最终结果仍然充满了标记.

希望能有所帮助.

解决方法:

因此,快速浏览sourceforge上的SimpleWikiParser source code可以发现,从2011年1月29日开始,解析器将处理以下实体：

>评论
>参考
>代码块
>内部链接和外部链接
>属性
>表格.

大概所有Wiki其他内容都以TextNode对象结尾.看看wiki markup feature set,将需要大量的工作来剥离Wiki语法元素,更不用说将它们进一步转换为结构化元素了.

对于替代或您可以利用的代码,请查看下面的Alternate Parsers页面.

对于一个自包含但不完善的解决方案,您可以在node.text上执行一堆正则表达式替换.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

共收录 Twitter 的 14 款开源软件，第 1 页

共收录Twitter的14款开源软件，第1页Twitter的Emoji表情 TwemojiTwemoji是Twitter开源的其完整的Emoji表情图片。开发者可以去GitHub下载完整的表情库，并把这些表情加入到自己的应用或网页中。使用示例：var i = ...

Java和Scala中关于==的区别

Java和Scala中关于==的区别Java：==比较两个变量本身的值，即两个对象在内存中的首地址；equals比较字符串中所包含的内容是否相同。publicstaticvoidmain(String[]args){ Strings1="abc"; Strings2=ne...

Scala怎么使用

本篇内容主要讲解“Scala怎么使用”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala怎么使用”吧!语法scala...

Scala是一种什么语言

这篇文章主要介绍“Scala是一种什么语言”，在日常操作中，相信很多人在Scala是一种什么语言问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

Scala Trait怎么使用

这篇文章主要介绍“Scala Trait怎么使用”，在日常操作中，相信很多人在Scala Trait怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

Scala类型检查与模式匹配怎么使用

这篇文章主要介绍“Scala类型检查与模式匹配怎么使用”，在日常操作中，相信很多人在Scala类型检查与模式匹配怎么使用问题上存在疑惑，小编查阅了各式资料，整理...

scala中常用但不常见的符号有哪些

这篇文章主要介绍“scala中常用但不常见的符号有哪些”，在日常操作中，相信很多人在scala中常用但不常见的符号有哪些问题上存在疑惑，小编查阅了各式资料，整理...

Scala基础知识有哪些

本篇内容主要讲解“Scala基础知识有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala基础知识有哪些”...

scala基础知识点有哪些

本篇内容介绍了“scala基础知识点有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

Scala下划线怎么使用

本篇内容介绍了“Scala下划线怎么使用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

小编推荐

热门标签