您好,欢迎来到伴沃教育。
搜索
您的当前位置:首页Python库之Web信息提取

Python库之Web信息提取

来源:伴沃教育

Beautiful Soup: HTML和XML的解析库
-提供了解析HTML和XML等Web信息的功能
-又名beautifulsoup4或bs4,可以加载多种解析引擎
-常与网络爬虫库搭配使用,如Scrapy, requests等

RE
-提供了定义和解析正则表达式的一批通用功能
-可用于各类场景,包括定点的Web信息提取
-Python最主要的标准库之一,无需安装

re.search()
re.split()
re.match()
re.finditer()
re.findall()
re.sub()

Python - Goose: 提取文章类型Web页面的功能库
-提供了对Web页面中文章信息/视频元素数据的提取功能
-针对特定类型Web页面,应用覆盖面广
-Python最主要的Web信息提取库

Copyright © 2019- bangwoyixia.com 版权所有 湘ICP备2023022004号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务