如何从csv文件中获取特定字符？

如何解决如何从csv文件中获取特定字符？

我是 neo4j 的新手，我需要你的帮助！

我在 neo4j 中创建了一个文章节点，我想读取一个 csv 文件，其中包含有关文章之间引用的信息（文章 ID、--[引用]->、文章 ID）。 csv文件格式如下

"1001   9910248"
"1001   9910268"
"9304045    9204040"
"9308122    9203084"
"9308122    9204035"
"9308122    9205041

1001 是一篇文章的 id，9910248 是另一篇文章的 id。我想阅读这个文件并创建以下关系（文章）-[:CITES]->（文章）。我怎么能这样做？

我尝试了以下方法，但没有奏效。

LOAD CSV FROM "file:///C:/Citations.csv" AS line
FIELDTERMINATOR "\t" 
MERGE (article:Article {id: line[0]})
WITH article,SPLIT(article.id," ") AS art
MERGE (article)-[:CITES]->(toarticle:TArticle {id: art})

解决方法

我已复制您的 CSV 内容并将其放入 data.csv 文件中，并尝试将其视为 tsv 格式，这不起作用，因为分隔字符可能不是制表符。>

在浏览器中将文件加载为 CSV 输出以下行：

LOAD CSV FROM "file:///data.csv" AS row
RETURN row

╒══════════════════════╕
│"row"                 │
╞══════════════════════╡
│["1001   9910248"]    │
├──────────────────────┤
│["1001   9910268"]    │
├──────────────────────┤
│["9304045    9204040"]│
├──────────────────────┤
│["9308122    9203084"]│
├──────────────────────┤
│["9308122    9204035"]│
├──────────────────────┤
│["9308122    9205041"]│
└──────────────────────┘

这意味着只有一列。

然后我们可以在空白字符上拆分单元格元素：

LOAD CSV FROM "file:///data.csv" AS row
RETURN row[0],split(row[0]," ")

Text
Code
╒════════════════════╤══════════════════════════════╕
│"row[0]"            │"split(row[0]," ")"          │
╞════════════════════╪══════════════════════════════╡
│"1001   9910248"    │["1001","","9910248"]      │
├────────────────────┼──────────────────────────────┤
│"1001   9910268"    │["1001","9910268"]      │
├────────────────────┼──────────────────────────────┤
│"9304045    9204040"│["9304045","9204040"]│
├────────────────────┼──────────────────────────────┤
│"9308122    9203084"│["9308122","9203084"]│
├────────────────────┼──────────────────────────────┤
│"9308122    9204035"│["9308122","9204035"]│
├────────────────────┼──────────────────────────────┤
│"9308122    9205041"│["9308122","9205041"]│
└────────────────────┴──────────────────────────────┘

如您所见，每个单元格中的 id 之间有不止一个空格，这导致了不同大小的元素数组。

解决方案是取每个集合的第一个和最后一个元素：

LOAD CSV FROM "file:///data.csv" AS row
WITH split(row[0]," ") AS elements
RETURN head(elements) AS article1,last(elements) AS article2

╒══════════╤══════════╕
│"article1"│"article2"│
╞══════════╪══════════╡
│"1001"    │"9910248" │
├──────────┼──────────┤
│"1001"    │"9910268" │
├──────────┼──────────┤
│"9304045" │"9204040" │
├──────────┼──────────┤
│"9308122" │"9203084" │
├──────────┼──────────┤
│"9308122" │"9204035" │
├──────────┼──────────┤
│"9308122" │"9205041" │
└──────────┴──────────┘

您现在可以使用这些 id 来合并文章和引用关系：

LOAD CSV FROM "file:///data.csv" AS row
WITH split(row[0]," ") AS elements
WITH head(elements) AS article1,last(elements) AS article2
MERGE (a1:Article {id: article1})
MERGE (a2:Article {id: article2})
MERGE (a1)-[:CITES]->(a2)

如果您想将 id 视为数字，则需要将其转换为整数：

LOAD CSV FROM "file:///data.csv" AS row
WITH split(row[0],last(elements) AS article2
MERGE (a1:Article {id: toInteger(article1)})
MERGE (a2:Article {id: toInteger(article2)})
MERGE (a1)-[:CITES]->(a2)

EDIT 基于 Github 上给定的 CSV 文件

这个 CSV 文件可以被解析为 TSV，堆问题可能是因为你在 :Article(id) 上没有索引，所以从那个开始：

CREATE INDEX ON :Article(id)

然后您可以直接从 Github 加载为 TSV 文件（在我的笔记本电脑上在 6 秒内完成）：

LOAD CSV FROM "https://raw.githubusercontent.com/anpetsa/neo4j/main/Citations.csv" AS row
WITH split(row[0],last(elements) AS article2
MERGE (a1:Article {id: toInteger(article1)})
MERGE (a2:Article {id: toInteger(article2)})
MERGE (a1)-[:CITES]->(a2)

如何从csv文件中获取特定字符？

如何解决如何从csv文件中获取特定字符？

解决方法

相关推荐