爬取百度搜索信息-猿圈-程序猿的知识社区

**********目的：

搜索‘同盾’‘中标’‘信贷’关键词信息

**********爬虫效果：

**********参看学习爬虫教程：

透彻讲解使用Selenium的网站：
http://www.python3.vip/tut/auto/selenium/01/

Selenium学习网址：
https://www.cnblogs.com/lweiser/p/11045023.html


学习beautifulSoup网址：
https://www.jianshu.com/p/dc8df30ee0c8
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

View Code

**********代码：

一、抓取百度数据

# -*- coding: utf-8 -*-
"""
Created on Tue Mar 16 08:40:08 2021
@author: Administrator
抓取数据，并存为xlsx文件。

"""
import pandas as pd
import time
from bs4 import BeautifulSoup
import requests                #容易被反扒，实验失败。
from selenium import webdriver #模拟认的操作
from selenium.webdriver.chrome.options import Options

heads={}
heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

chrome_options = Options()
# 设置chrome浏览器无界面模式
chrome_options.add_argument('lang=zh_CN.UTF-8')  # 设置中文
# chrome_options.add_argument('window-size=1920x3000')  # 指定浏览器分辨率
chrome_options.add_argument('--disable-gpu')  # 谷歌文档提到需要加上这个属性来规避bug
# chrome_options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
#chrome_options.add_argument('--headless')  # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
# 设置手机请求头 （手机页面反爬虫能力稍弱）
chrome_options.add_argument('Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Mobile Safari/537.36')
wd = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')


#共计76页
page_list=[]
for i in range(1,77):
    page_num=i
    url = "https://www.baidu.com/s?wd=同盾%20信贷%20中标&pn={}".format((i-1)*10)
    page_list.append((page_num,url))


#开始抓取数据
info_list = []
for page_num,url in page_list:
    print(page_num,url)
    if 0:
        html_source = requests.get(url, headers=heads).content
    else:
        wd.get(url)# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
        html_source = wd.page_source 
    soup = BeautifulSoup(html_source,"lxml") 
    text1 = soup.select("div[id='content_left']")[0]
    text2 = text1.select("div[class='result c-container new-pmd']")
    for i in range(len(text2)):
        print(i)
        try:
            re_bianhao = text2[i]['id']
            re_riqi    = text2[i].select("div > span")[0].get_text().strip()
            re_text1   = text2[i].select("h3 > a")[0].get_text()
            re_url1    = text2[i].select("h3 > a")[0]['href']
            re_lanyuan_site = text2[i].select("div > a")[0].get_text()
            re_lanyuan_url  = text2[i].select("div > a")[0]['href']  
            info_dict =  {'页码':page_num
                    ,'编号':re_bianhao
                    ,'网页日期':re_riqi
                    ,'百度搜索内容':re_text1
                    ,'百度搜索内容连接':re_url1
                    ,'来源网站':re_lanyuan_site
                    ,'来源网站连接':re_lanyuan_url
                    } 
            info_list.append(info_dict)
        except Exception as e:
            print('wrong2!')
            print(str(e))
            time.sleep(10)
    time.sleep(1.1) #抓取一个页面后休息1.1秒

#输出为excel
pd.DataFrame(info_list).to_excel('raw_data2.xlsx',index=False)

#print(text2[0].prettify())
# 百度反扒策略： 1.多次请求会被返回网络问题(requests方法中可能是cookie或其他被识别)。返回~~~百度安全验证~~~~~~~~~~~~~~~网络不给力，请稍后重试~返回首页~~~~问题反馈~~~~~

View Code

二、提取关键信息

# -*- coding: utf-8 -*-
"""
Created on Tue Mar 16 11:25:29 2021

@author: Administrator

在文本中提取银行名称
"""

import pandas as pd
import time

df1 = pd.read_excel('raw_data.xlsx')

    
def f1(str1):
    #str1 = '同盾科技中标广发银行 AI助力银行智能化升级_网易新闻'
    try:
        str2 = str1.split('中标')[1]
        
        if '农商行' in str2 or '银行' in str2:
            str2 = str2.split('农商行')[0]  
            str2 = str2+'农商行'
            str2 = str2.split('银行')[0]  
            str2 = str2+'银行'
            return str2
        else:
            return ''
    except:
        return ''

f1(str1='同盾中标长城华西银行互联网贷款业务咨询项目_决策')

df1['银行名称'] = df1['百度搜索内容'].map(f1)

df2 = df1[['银行名称','百度搜索内容','页码', '编号', '网页日期',  '百度搜索内容连接', '来源网站', '来源网站连接']]
df2.to_excel('raw_data2.xlsx',index=False)

View Code

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8678 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览