您好,欢迎来到伴沃教育。
搜索
您的当前位置:首页1-3 使用 Requests 爬取豆瓣短评

1-3 使用 Requests 爬取豆瓣短评

来源:伴沃教育

任务

  • 爬取豆瓣上 短评
  • 以csv格式输出

代码

import requests  
r = 

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
    print(item.string)
    
import pandas
comments = []
for item in pattern:
    comments.append(item.string)
df = pandas.DataFrame(comments) 
df.to_csv('comments.csv',encoding = 'utf-8-sig')  #结果encoding参数解决了乱码问题。

思路

用了3个 第三方库

  • requests 库 来获取网页数据
  • BeautifulSoup库 来解析数据
  • pandas库 来储存数据

输出

comments.csv

Copyright © 2019- bangwoyixia.com 版权所有 湘ICP备2023022004号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务