AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

如何从JavaScript“ onclick window.open”事件中抓取URL？

时间：2022-10-09分类：Ruby作者：编程之家原文地址

我正在尝试从使用JavaScript的页面抓取URL.他们没有在页面上链接,而是为许多表行创建了onClick事件,因此,当您单击该行时,它将带您到链接.

我尝试使用Mechanize抓取网址：

agent = Mechanize.new
page = agent.get(url)

page.links_with(:href => /^http?/).each do |link|
  puts link.href
end

但是,通过HREF引用查找链接在这里行不通,因为它们在页面上是onClick事件的一部分：

<tr onclick="window.open('/someurl');">

是否有使用Mechanize或其他一些gem解析页面上代码并提取onClick事件中嵌入的URL的好方法？

如果没有好的即用型解决方案,那么最好的正则表达式呢？我是regex的新手,所以还不能完全靠自己整理一些东西.

解决方法:

您应该使用解析器.正则表达式和HTML / XML不能很好地融合在一起,因为正则表达式的设计目的不是处理HTML和XML文档中包含的不规则性.非常简单的任务可能适用于某种模式,但是当HTML更改时,您会很快发现它们很脆弱并且很容易损坏.

Mechanize for Ruby在内部使用Nokogiri,这是获取这些参数的绝佳方法.您可以访问Mechanize的内部Nokogiri文档,并从中找到< tr>.标签：

require 'mechanize'

page = Mechanize.new
page = agent.get('http://somesite.foo.com')

page.search('tr[onclick]').map{ |n| n['onclick'][/\(['"]([^)]+)['"]\)/, 1] }

如果我直接使用Nokogiri来解析此片段：

<tr onclick="window.open('/someurl');">

我可以做这个：

require 'nokogiri'

page = Nokogiri::HTML(%[<tr onclick="window.open('/someurl');">])
page.search('tr[onclick]').map{ |n| n['onclick'][/\(['"]([^)]+)['"]\)/, 1] }
=> ["/someurl"]

请注意,我正在使用CSS访问器’tr [onclick]’进行搜索,这使得查找特定节点非常容易.如果您知道JavaScript,CSS或jQuery,您会发现使用其内置的CSS支持可以轻松选择Nokogiri.

也,

n['onclick'][/\(['"]([^)]+)['"]\)/, 1]

可以这样写：

n['onclick'][/\(([^)]+)\)/, 1][1..-2]

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

ruby on rails validates

validates:conclusion,:presence=>true,:inclusion=>{:in=>[0,1]}validates:email,:presence=>true,:length=>{:minimum=>3,:maximum=>254},:uniqueness=>true,:email=>truevalidates:end...

redis 集群搭建

一、redis集群搭建redis3.0以前，提供了Sentinel工具来监控各Master的状态，如果Master异常，则会做主从切换，将Slave作为master，将master做为slave。其配置也较复杂，且表现一般。redis3.0以后已经支持集群容错功能...

如何让ruby中的ri起作用

分享一下我老师大神的人工智能教程。零基础！通俗易懂！风趣幽默！还带黄段子！希望你也加入到我们人工智能的队伍中来！https://blog.csdn.net/jiangjunshow 不知道大家是否注意到...

ruby方法名之命名方式

上一篇博文 ruby传参之引用类型里边定义了一个方法名 modify_my_object!，这个方法名是以!结尾，在ruby的对象里边是用于表达修改本身的意思。比如String#gsub，返回的是一个新的字符串对象；而String#gsub!，返回...

一编程与编程语言什么是编程语言？能够被计算机所识别的表达方式即编程语言,语言是沟通的介质，而编程语言是程序员与计算机沟通的介质。什么是编程？编程即程序员根据需求把自己的思想流程按照某种编程语言的语法...

雷林鹏分享：Ruby 类和对象

Ruby类和对象Ruby是一种完美的面向对象编程语言。面向对象编程语言的特性包括：数据封装数据抽象多态性继承这些特性将在面向对象的Ruby中进行讨论。一个面向对象的程序，涉及到的类和对象。类是个别对象创建的蓝图。...

1.ruby的标签<ruby>漢<rp>(<p><rt>han<t><rp>)<p>字<rp>(<p><rt>zi<t><rp>)<p><uby>

Redis安装及单机集群搭建总结(多节点搭建集群和单机集群大同小异)

1、软件安装1.安装包是个压缩包-->解压到/homeedis_tar下命令如下： tar-zxvf./../-C/homeedis_tar2.安装c++环境yum-yinstallgcc-c++（注：redis底层源码是c++）3.解压后需要源码编译进入到redis-3.0.0后执行make...

sass(scss的安装

1.sass基于Ruby语言开发而成，因此安装sass前需要安装Ruby。（注:mac下自带Ruby无需在安装Ruby!）window下安装SASS首先需要安装Ruby，先从官网下载Ruby并安装。安装过程中请注意勾选AddRubyexecutablestoyourPATH添加...

从0使用Ruby on Rails打造企业级RESTful API项目实战之我的云音乐

本节对我们项目实现的功能和知识点做一个简单的介绍，因为是RESTfulAPI项目，所以对于后端来说基本上没有什么UI界面可展示，那我们就在关键的点，使用客户端（Android）实现的效果图。课程简介这是一门企业级项目实战...

小编推荐

热门标签