如何解决使用 readtext 和 quanteda 制作语料库的正确方法是什么?
我需要一些帮助。我正在尝试使用 quanteda 包制作一些语料库样本,但没有按预期工作。
library(quanteda)
library(readtext)
news <- corpus(readtext('./final/en_US/en_US.news.txt',dvsep = ' '))
#Yeah,it's from Coursera
然后我尝试从整个语料库中抽取样本:
set.seed(362)
newsSample <- corpus_sample(news,size = 5000)
R-studio 告诉我,它不能采用大于总体的样本,但我确信总体比大小要大得多,文件大约有 77k 行。还有一件事,在 readtext 之后,我得到了 1 个 obs 的矩阵。 2 个变量。第二个变量是文件中的整个文本。
我做错了什么?
解决方法
使用 readtext
读取单个文档时,语料库中只有 1 个文档。文档中可能有 77k 行,但它仅来自 1 个文档,而不是 77k 个文档。如果您检查 readtext
的结果,您将在 doc_id 列中只看到 1 个值,并且所有文本都将位于文本列的单个单元格中。请参阅下面示例中的差异。
library(readtext)
library(quanteda)
DATA_DIR <- system.file("extdata/",package = "readtext")
rt2 <- readtext(paste0(DATA_DIR,"/txt/EU_manifestos/EU_euro_2004_de_PSE.txt"),docvarsfrom = "filenames",docvarnames = c("unit","context","year","language","party"),encoding = "LATIN1")
rt2
readtext object consisting of 1 document and 5 docvars.
# Description: df[,7] [1 x 7]
doc_id text unit context year language party
<chr> <chr> <chr> <chr> <int> <chr> <chr>
1 EU_euro_2004_de_PSE.txt "\"PES · PSE \"..." EU euro 2004 de PSE
my_corp <- corpus(rt2)
Corpus consisting of 1 document and 5 docvars.
EU_euro_2004_de_PSE.txt :
"PES · PSE · SPE European Parliament rue Wiertz B 1047 Brusse..."
和
rl1 <- readLines(paste0(DATA_DIR,"/txt/EU_manifestos/EU_euro_2004_de_PSE.txt"))
my_corp_rl1 <- corpus(rl1)
my_corp_rl1
Corpus consisting of 100 documents.
text1 :
"PES · PSE · SPE European Parliament rue Wiertz B 1047 Brusse..."
text2 :
""
text3 :
"GEMEINSAM WERDEN WIR STÄRKER Fünf Verpflichtungen für die nä..."
text4 :
"Manifest der Sozialdemokratischen Partei Europas für die Wah..."
text5 :
"PARTY OF EUROPEAN SOCIALISTS · Tel +32 2 284 29 76 · Fax +32..."
text6 :
""
[ reached max_ndoc ... 94 more documents ]
使用 readLines
然后使用语料库,将创建一个包含 100 个文档的语料库,但这些只是刚刚读入的行,并不是语料库的正确定义。
corpus_sample
对语料库中的文档进行采样。因此,如果您有 100 个文档,corpus_sample(my_corpus,50)
将采样 50 个不同的文档。
你需要检查你需要做什么样的抽样,文件或特征。如果是特征,则需要将 dfm_sample
与 margin = "features"
一起使用。有关更多信息,请参阅 quanteda 中的帮助。如果您需要在文本清理、去除停用词等之后进行采样。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。