微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

解析 XML-TEI 并在 R 中转换为语料库

如何解决解析 XML-TEI 并在 R 中转换为语料库

我有三个 XML-TEI-P5 文件要转换为语料库(最好使用 styloquantedatm 语料库)。由于我从未使用过 XML,因此在提取文本和删除所有注释时遇到了麻烦……(并保留了所有特殊字母,如 ä、ü 等) 这是我迄今为止最远的一次:

library(xml2)
library(XML)
A1 <- read_xml("http://www.deutschestextarchiv.de/book/download_xml/schlegel_athenaeum_1798")
doc1 <- xmlParse(A1)
root1 <- xmlRoot(doc1)
print(root1)

另一种使用 stylo方法(相同的文档,但保存在本地):

Corpus_alle <- load.corpus.and.parse(files = "all",corpus.dir = "TexteXML",markup.type= "XML",corpus.lang = "German",splitting.rule = NULL,sample.size = 10000,sampling = "no.sampling",sample.overlap = 0,number.of.samples = 1,sampling.with.replacement = FALSE,features = "w",ngram.size = 1,preserve.case = FALSE,encoding = "UTF-8")

解决方法

我建议查看包 tei2r (https://rdrr.io/github/michaelgavin/tei2r/man/)。

我创建了这个函数来将文本语料库加载到 R 中:

read_tei <- function(folder) {
  list.files(folder,pattern = '\\.xml$',full.names = TRUE) %>%
    map_dfr(~.x %>% parseTEI(.,node = "THE_NODE_TO_FIND") %>%tibble())
}

texts <- read_tei("PATH/TO/FILES")

要使此功能起作用,您必须输入要查找的节点。 (可能是文本)并且您必须指定文件所在的位置。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。