技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Python：如何使用BeautifulSoup从HTML页面中提取URL？

时间：2019-05-30分类：Python作者：编程之家

我有一个包含多个div的HTML 页面

aimed to be the representative of one of the six accused in the December 16 gangrape case who has sought shifting of t...
angrape-case-two-lawyers-claim-to-be-engaged-by-accused/article4332680.ece">
distribution companies – the Anil Ambani-owned BRPL and BYPL and the Tatas-owned Tata Powe...
discoms-demand-yet-another-hike-in-charges/article4331482.ece">
discoms-demand-yet-another-hike-in-charges/article4331482.ece#comments">


我需要得到< a href =>具有类article-additional-info的所有div的值
我是BeautifulSoup的新手
所以我需要网址

"http://www.thehindu.com/news/national/gangrape-case-two-lawyers-claim-to-be-engaged-by-accused/article4332680.ece"
"http://www.thehindu.com/news/cities/Delhi/power-discoms-demand-yet-another-hike-in-charges/article4331482.ece"

实现这一目标的最佳方法是什么？


最佳答案
根据您的标准,它返回三个URL(而不是两个) – 您想要过滤掉第三个吗？
基本思想是迭代HTML,只抽取你的类中的那些元素,然后迭代该类中的所有链接,拉出实际的链接：

In [1]: from bs4 import BeautifulSoup

In [2]: html = # your HTML

In [3]: soup = BeautifulSoup(html)

In [4]: for item in soup.find_all(attrs={'class': 'article-additional-info'}):
   ...:     for link in item.find_all('a'):
   ...:         print link.get('href')
   ...:         
http://www.thehindu.com/news/national/gangrape-case-two-lawyers-claim-to-be-engaged-by-accused/article4332680.ece
http://www.thehindu.com/news/cities/Delhi/power-discoms-demand-yet-another-hike-in-charges/article4331482.ece
http://www.thehindu.com/news/cities/Delhi/power-discoms-demand-yet-another-hike-in-charges/article4331482.ece#comments

这会将您的搜索范围限制为仅包含article-additional-info类标记的元素,并在其中查找所有锚点(a)标记并获取其相应的href链接.

                版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容， 请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

beautifulsoupbeautifulsoup


                  上一篇：python  – 如何在解析过程中丢弃p下一篇：从Python中的文本文件导入三维列表


                
                    
                        
                            相关推荐
                            

                                 空气阻力对乒乓球运动轨迹的影响
                                在前一篇博客中我们介绍了加侧旋的乒乓球弧圈技术的模拟，本文我们关注的是高吊弧圈和削球弧线这两种轨迹原理，并且引入了空气阻力对乒乓球运动轨迹的影响。通过对空气阻力和马格努斯力的模拟，我们可以看到不同的弧线曲线。对于乒乓球爱好者而言，可以通过这种模拟的结果，来制定比赛中有可能用到的策略，比如低长弧圈球、
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 解决python报错：ModuleNotFoundError: No module named '_sysconfigdata_x86_64_conda_linux_gnu'
                                在近期conda的版本更新中，有可能会删除路径下的_sysconfigdata_x86_64_conda_linux_gnu模块相关备份文件，而在其他的一些软件的运行过程中有可能依赖于这个备份文件，这就会导致运行过程报错模块无法找到的问题。最终我们通过重新复制备份这个文件解决了该问题。
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 python3之lambda表达式
                                本文主要展示了一些lambda表达式的使用示例，通过这些示例，我们可以了解到lambda表达式的常用语法以及使用的场景。在一般情况下，其最大的意义还是简化了python中函数的定义方式，在可读性上远不如def所定义的函数。
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 使用jax加速Hamming Distance的计算
                                本文通过对比Jax和Numpy计算Normalized Hamming Distance的过程来对比了Jax所实现的Numpy的GPU版本所带来的加速效果。实际上在维度比较小的时候，Numpy还是有非常轻量级的优势，此时GPU的加速效果并没有很好的体现出来。但是在规模较大的输入场景下，GPU的并行加
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 用CUDA写出比Numpy更快的规约求和函数
                                我们知道GPU加速在可并行化程度比较高的算法中，能够发挥出比较大的作用，展示出明显的加速效果，而对于一些线程之间存在依赖这样的场景就不一定能够起到很大的加速作用。CUDA官方针对此类问题，提供了atomic的内置函数解决方案，包含有求和、求最大值等常用函数。而这些函数的特点就在于，线程与线程之间需要
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 超过Numpy的速度有多难？试试Numba的GPU加速
                                Numpy这个库在Python编程中非常的常用，不仅在性能上补足了Python语言的一些固有缺陷，还具有无与伦比的强大生态。但是即使都是使用Python，Numpy也未必就达到了性能的巅峰，对于我们自己日常中使用到的一些计算的场景，针对性的使用CUDA的功能来进行GPU的优化，是可以达到比Numpy
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 使用autopep8自动规范化python3代码
                                本文主要通过介绍两个python中常用的编码规范格式化工具：autopep8和black来讲解python编程中一些快速处理编程规范问题的方法，同时也说明了这些软件的局限性。编程规范也是人为制定的，事实上在实际项目中，也不是所有的编程规范都需要满足，这就需要项目的组织者或者领导者有自己的基本判断。结
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 乒乓球之弧圈理论
                                本文通过对马格努斯力的模拟，来理解乒乓球的弧圈原理。并且在这个理论基础之上对比了几种场景下的乒乓球轨迹，比如乒乓球的运动速度，或者日常所说的撞击对乒乓球轨迹的影响。还有乒乓球的角速度，也就是日常我们所说的摩擦对乒乓球轨迹的影响。还有一个在乒乓球界堪称变革的小球改大球对乒乓球这项运动可能带来的影响。由
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 在pyqt5中展示pyecharts生成的图像
                                本文通过一个实际的散点图案例，展示了如何使用pyqt5嵌套一个pyecharts图层的方法，通过这个技巧，可以在pyqt5的框架中也实现精美的数据可视化的功能模块。
                  作者：DECHIN 时间：2024-09-25
                                
                            

                                 python并行计算之mpi4py的安装与基本使用
                                在这篇文章中，我们并没有介绍非常多的MPI的应用，其实在普通的并行或者分布式任务中，掌握了各个进程的任务处理过程以及进程间的通信方法就足够了。总体来说，MPI是一个非常通用也非常高效的并行计算软件。有了这些专业的并行化任务调度软件，我们就可以专注于专业任务的代码和算法上，而不需要过多的去关注并行任务
                  作者：DECHIN 时间：2024-09-25


            
              
          
            
              



              
            
          
          
           
          
            
              
                小编推荐苹果市值2025年有望达4万亿美元 
• 曝苹果iPhone 16交货时间短于前3代 或暗
• 骁龙8 gen 5芯片参数规格被曝：P核5.0G
• Linux曝出9.9/10分史诗级漏洞：已存在1
• OPPO Find X8支持IP66+IP68+IP69防水 可
• 华为MatePad Pro 13.2价格直降400元：4
• 微信实况照片怎么发朋友圈？怎么拍？声
• 海菲曼推出全新头戴式耳机 售价18888元
              
            
          
          
          
          
            
              
                热门标签更多
                
                pythonJavaScriptjavaHTMLPHPreactjsC#AndroidCSSNode.jssqlrpython-3.xMysqLjQueryc++pandasFlutterangularIOSdjangolinuxswifttypescript路由器JSON路由器设置无线路由器h3c华三华三路由器设置华三路由器电脑软件教程arraysdocker软件图文教程Cvue.jslaravelspring-boot


    
    
        
            
                
                    友情链接:
ai导航
                
                    编程之家
-我要投稿
-广告合作
-联系我们
-免责声明
-网站地图
                
                版权所有 © 2018编程之家闽ICP备13020303号-8
                
            
            
                微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！