解析 XML-TEI 并在 R 中转换为语料库

如何解决解析 XML-TEI 并在 R 中转换为语料库

我有三个 XML-TEI-P5 文件要转换为语料库（最好使用 stylo、quanteda 或 tm 语料库）。由于我从未使用过 XML，因此在提取文本和删除所有注释时遇到了麻烦……（并保留了所有特殊字母，如 ä、ü 等）这是我迄今为止最远的一次：

library(xml2)
library(XML)
A1 <- read_xml("http://www.deutschestextarchiv.de/book/download_xml/schlegel_athenaeum_1798")
doc1 <- xmlParse(A1)
root1 <- xmlRoot(doc1)
print(root1)

另一种使用 stylo 的方法（相同的文档，但保存在本地）：

Corpus_alle <- load.corpus.and.parse(files = "all",corpus.dir = "TexteXML",markup.type= "XML",corpus.lang = "German",splitting.rule = NULL,sample.size = 10000,sampling = "no.sampling",sample.overlap = 0,number.of.samples = 1,sampling.with.replacement = FALSE,features = "w",ngram.size = 1,preserve.case = FALSE,encoding = "UTF-8")

解决方法

我建议查看包 tei2r (https://rdrr.io/github/michaelgavin/tei2r/man/)。

我创建了这个函数来将文本语料库加载到 R 中：

read_tei <- function(folder) {
  list.files(folder,pattern = '\\.xml$',full.names = TRUE) %>%
    map_dfr(~.x %>% parseTEI(.,node = "THE_NODE_TO_FIND") %>%tibble())
}

texts <- read_tei("PATH/TO/FILES")

要使此功能起作用，您必须输入要查找的节点。（可能是文本）并且您必须指定文件所在的位置。