技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

在Windows上用R中的SUB(1a)(Control-Z)字符读取文本文件

时间：2020-07-16分类：Windows作者：编程之家

继上周 reading badly formed csv in R – mismatched quotes的查询之后,这些相同的CSV文件也有嵌入的控制字符,例如ASCII Substitute Character,即十进制26或0x1A.不幸的是readLines()似乎截断了这个字符的行,所以我很难匹配引号 – 除了丢失这些行中的后面的字段！

我试过readBin()但是我无法读取这个文件.我担心我不能干净地把它读成R给你一个例子,我很难在R中创建这些.抱歉不能用一个干净的例子来证明.思考？

更新

现在我很困惑 – 当我使用代码时

h3 <- paste('1,34,44.4,"',rawtochar(as.raw(c(as.integer(k1),26,65))),'",99')
 identical(readLines(textConnection(h3)),h3)

我得到TRUE,我觉得很惊讶！

更新2

h3
[1] "1,\" HIJK\032A \",99"
> writeLines(h3,'h3.txt')
> h3a <- readLines('h3.txt')
Warning message:
In readLines("h3.txt") : incomplete final line found on 'h3.txt'
> h3a
[1] "1,\" HIJK"

所以当来自textConnection()时,readLines()的反应会有所不同,并且它会在SUB字符处静默截断.

如果它有所作为我会感到惊讶,但我在Windows-64上的2.15.2.

更新3

在解决这个问题上有些模糊的成功……

zb <- file('h3.txt',"rb")
tmp <- readBin(zb,raw(),size=1,n=400) # raw is always of size =1
nchar(tmp)
# [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
close(zb)
tmp
# [1] 31 2c 33 34 2c 34 34 2e 34 2c 22 20 48 49 4a 4b 1a 41 20 22 2c 39 39 0d 0a
rawtochar(tmp)
# [1] "1,99\r\n"

即如果我在文件中读取二进制文件并转换为字符()后,它似乎工作…这对于大型CSV文件来说将是乏味的…

R中是否有错误将Control-Z错误地检测为Windows上的文件结尾？

我想我已经找到了解决方案 – 因为在Windows上的文件中间读取Control-Z似乎存在问题,我们需要以二进制/原始模式读取文件.

fnam <- 'h3.txt'
tmp.bin <- readBin(fnam,n=max(2*file.info(dfnam)$size,100))=1
tmp.char <- rawtochar(tmp.bin)
txt <- unlist(strsplit(tmp.char,'\r\n',fixed=TRUE))
txt

[1] "1,99"

更新
Duncan Murdoch向R-Devel refer发布了以下更好的答案.将其转换为我得到的函数：

sReadLines <- function(fnam) {
    f <- file(fnam,"rb")
    res <- readLines(f)
    close(f)
    res
}

原文地址：https://www.jb51.cc/windows/365571.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：windows-server-2003 – Windows 7 下一篇：windows-server-2008-r2 – Window

相关推荐

Windows2012R2备用域控搭建

Windows2012R2备用域控搭建前置操作域控主域控的主dns：自己的ip备域控的主dns：自己的ip，备dns：主域控的ip 客户端主dns：主域控的ip，备dns：备域控的ip 一般说主和备，主要是指担任PDC放置的角色的这台DC，所有修改密码的操作必须由这台DC应答除了修改密码、域管

作者：桦仔时间：2024-09-28

主域控角色迁移和夺取（转载）

主域控角色迁移和夺取（转载）转载自：http://yupeizhi.blog.51cto.com/3157367/1427978 操作系统版本：Windows2012R2 数据中心版 FSMO角色迁移主域控没有挂的情况下使用FSMO角色迁移 FSMO角色迁移步骤，下面步骤在备用域控上执行 0、使

作者：桦仔时间：2024-09-28

Windows2012R2 NTP时间同步

Windows2012R2 NTP时间同步 Windows2012R2里没有了internet时间，需要使用另外的方式去做时间同步下面分两个情况两个情况，两个情况都需要用修改组策略的方式来做情况一没有Windows域环境集群中的每个服务器都要能上网，每个服务器都要执行下面的操作开启 NT

作者：桦仔时间：2024-09-28

Windows注册表操作基础代码

Windows注册表操作基础代码 Windows下对注册表进行操作使用的一段基础代码Reg.h:#pragmaonce#include<assert.h>#include<windows.h>classReg{HKEYhkey;public:voidopen(HKEYroot

作者：Florian 时间：2024-07-31

黑客常用WinAPI函数整理

黑客常用WinAPI函数整理之前的博客写了很多关于Windows编程的内容，在Windows环境下的黑客必须熟练掌握底层API编程。为了使读者对黑客常用的Windows API有个更全面的了解以及方便日后使用API方法的查询，特将这些常用的API按照7大分类进行整理如下，希望对大家的学习有所帮助。一

作者：Florian 时间：2024-07-31

一个简单的Windows Socket可复用框架

一个简单的Windows Socket可复用框架说起网络编程，无非是建立连接，发送数据，接收数据，关闭连接。曾经学习网络编程的时候用Java写了一些小的聊天程序，Java对网络接口函数的封装还是很简单实用的，但是在Windows下网络编程使用的Socket就显得稍微有点繁琐。这里介绍一个自己封装的一

作者：Florian 时间：2024-07-31

Windows文件操作基础代码

Windows文件操作基础代码 Windows下对文件进行操作使用的一段基础代码File.h，首先是File类定义：#pragmaonce#include<Windows.h>#include<assert.h>classFile{HANDLEhFile;//文件句柄publ

作者：Florian 时间：2024-07-31

Winpcap基础代码

Winpcap基础代码使用Winpcap进行网络数据的截获和发送都需要的一段代码：#include<PCAP.H>#pragmacomment(lib,"wpcap.lib")//#pragmacomment(lib,"ws2_32.lib")#

作者：Florian 时间：2024-07-31

使用vbs脚本进行批量编码转换

使用vbs脚本进行批量编码转换最近需要使用SourceInsight查看分析在Linux系统下开发的项目代码，我们知道Linux系统中文本文件默认编码格式是UTF-8，而Windows中文系统中的默认编码格式是Gb2312。系统内的编码格式有所区别倒无伤大雅，关键的是SourceInsigh...

作者：Florian 时间：2024-07-31

缓冲区溢出攻击

缓冲区溢出攻击缓冲区溢出（Buffer Overflow）是计算机安全领域内既经典而又古老的话题。随着计算机系统安全性的加强，传统的缓冲区溢出攻击方式可能变得不再奏效，相应的介绍缓冲区溢出原理的资料也变得“大众化”起来。其中看雪的《0day安全：软件漏洞分析技术》一书将缓冲区溢出攻击的原理阐述得简洁

作者：Florian 时间：2024-07-31

小编推荐

苹果市值2025年有望达4万亿美元