微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

R:将长的单列数据帧扩展为两列,按字母和数字拆分,忽略标点符号

如何解决R:将长的单列数据帧扩展为两列,按字母和数字拆分,忽略标点符号

我有一个很大的数据集,其中包含关键字,最后是一个值。我设法以pdf格式读取数据,并且剩下的数据如下:

  myData <- c("adjuster","7","hours","rate","oct 2 - 16,","19","_NA_NA_NA_NA_","total","gross","pay","6500","_NA_NA_NA_table","NA_copy","of","9.16.19 to 9.30.19.xlsx_NA")

myDataDF <- as.data.frame(myData)

我的目标是将单列字符数据“扩展”为两列,一列用于alpha值,第二列用于下面的数字值。我想介绍标点符号,但由于某些数字值带有标点符号,因此忽略了它作为将关键字与值分开的一种方式。我想用空格折叠关键字,直到找到一个数值,然后将其放在“值”列中。

我已经尝试过使用不同格式(长字符串和字符串拆分)的这种数据做很多事情,但是这种格式似乎最有利于达到最终目标(具有实际分析和执行计算的数据) 。我只是不知道如何合格才能继续崩溃,直到您在R中击中一个数字。

最终,如果看起来像这样,那就太好了

+==========================================+============================+
|                 keyword                  |           value            |
+==========================================+============================+
| adjuster                                 | 7                          |
+------------------------------------------+----------------------------+
| hours rate oct 2 - 16                    | 19                         |
+------------------------------------------+----------------------------+
| hours rate _NA_NA_NA_NA_ total gross pay | 6500                       |
+------------------------------------------+----------------------------+
| _NA_NA_NA_table NA_copy of               | 9.16.19 to 9.30.19.xlsx_NA |
+------------------------------------------+----------------------------+

解决方法

最后一行模式不是很清楚。根据数据,我们可以通过仅检测数值或“ myData”列中的“ xlsx”来创建分组列,然后subject通过https://stackoverflow.com/questions/64515601/problem-with-web-scraping-of-required-content-from-a-url-link-in-rsummarise以外的值来创建分组列第二列为paste

last

-输出

last

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。