😽爬取近3个月绵阳市的降水量数据,并存储在 xlsx 文档中。利用 xpath re 爬虫技术获取数据,利用 pandas 把数据存储到 xlsx 文档中。

⚠️ 提示:爬虫不可用作违法活动,爬取时要设定休眠时间,不可过度爬取,造成服务器宕机,需付法律责任!!!

一、基本目标

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.进行分析

😿打开中国天气网的数据,发现只有40天的选项里能更全面的显示降水量,但是只能显示一个月的,我需要找到其他月份的数据

😹发现这边可以选择月份,初步认为当我选择月份的时候,会触发某些函数事件而返回数据。打开开发者工具,准备查看网络数据。

👺点击其他月份,出现了几个html的网络数据,点击Preview查看发现是具体的天气各项数据,包含日期、温度、降水、黄历等等信息。

2.整体代码

import requests
import json
import pandas as pd
# 结果集合
result_list = []
for i in range(2,6):
    # 待爬取的url
    url = "http://d1.weather.com.cn/calendar_new/2022/101270401_20220"+(str)(i)+".html"
    # 反反爬headers
    headers = {
        "Referer": "http://www.weather.com.cn/",
        "Connection": "keep-alive",
        "Content-Encoding": "gzip",
        "Content-Type": "text/html",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
        "Cookie": "f_city=%E5%8D%97%E5%AE%81%7C101300101%7C; Hm_lvt_080dabacb001ad3dc8b9b9049b36d43b=1654830903,1654838893,1654956338; Hm_lpvt_080dabacb001ad3dc8b9b9049b36d43b=1654957148",
        "Accept-Encoding": "gzip, deflate",
        "Accept-Language": "zh-CN,zh;q=0.9"
    resp = requests.get(url=url, headers=headers)
    resp.encoding = 'utf-8'
    # 数据字符串
    data_str = resp.text[11:]
    # 转json,变数据集合
    data_list = json.loads(data_str)
    # 循环数据集合,获取数据
    for data in data_list:
        data['城市'] = '绵阳'
        rain = data['hgl']
        date = data['date']
        result = {}
        result['城市'] = '绵阳'
        result['降水概率'] = rain
        result['日期'] = date
        result_list.append(result)
print(result_list)
# pandas写入excel
data = pd.DataFrame(result_list)
writer = pd.ExcelWriter('降雨.xlsx')		# 写入Excel文件
data.to_excel(writer, 'page_1', float_format='%.5f')
writer.save()
print("结束!")

🐑程序运行结果如下

🐘存储的xlsx文档如下

爬虫的基本步骤:
1.检查有没有反爬,设置常规反反爬,User-Agentreferer都是最常见的反爬手段
2.利用xpathre技术进行定位,定位后获取想到的数据即可
3.pandas写入数据到xlsx文档
4.注意设置time休眠

😽爬取近3个月绵阳市的降水量数据,并存储在文档中。利用和爬虫技术获取数据,利用把数据存储到文档中。⚠️示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。😿打开中国天气网的数据,发现只有40天的选项里能更全面的显示降水量,但是只能显示一个月的,我需要找到其他月份的数据😹发现这边可以选择月份,初步认为当我选择月份的时候,会触发某些函数事件而返回数据。打开开发者工具,准备查看网络数据。👺点击其他月份,出现了几个html的网络数据,点击Preview查看发现是具体的天气...
先看懂这个:使用爬虫获取省份降雨情况,并生成json文件 好了,上面那个链接应该看懂了,接下来来看如何获取四川省各城市的降雨量,一样的,我们先看代码。 import requests import json import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/5
“华为云杯”2020深圳开放数据应用创新大赛 ·粤港澳大湾区强降水临预测赛题整理 目录:“华为云杯”2020深圳开放数据应用创新大赛 ·粤港澳大湾区强降水临预测赛题整理0. 赛题背景1. 赛题说明2. 数据说明2.1 数据规则2.2. 雷达数据存储格式2.3 标准雷达数据集读取程序2.4 注意事项3. 评分标准4. 提交说明 0. 赛题背景 粤港澳大湾区包括深圳、香港、广州、澳门等重要城市和地...
今天我们分享一个小案例,获取天气数据,进行可视化分析,带你直观了解天气情况! 一、核心功能设计 总体来说,我们需要先对天气网中的天气数据进行爬取,保存为csv文件,并将这些数据进行可视化分析展示。 拆解需求,大致可以整理出我们需要分为以下几步完成: 通过爬虫获取中国天气网7.20-7.21的降雨数据,包括城市,风 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver..
大一菜鸟入门实操记录,顺便学习一下怎么在csdn上写markdown 目标的选取 因为相关课程的缘故,需要在1个内速成python,故选取了python最常用的爬虫作为实操训练 同时,还添加了可视化和GUI入门的内容使爬取的内容应用更丰富 在具体数据的选取上,我爬取的是各省份降水量实时数据 话不多说,开始实操 爬取数据 使用python爬虫爬取中国天气网各省份24时整点气象数据 由于降水量为动态数据,以js形式进行存储,故采用selenium方法经xpath爬取数据 ps:在进行数据爬取时,
因实验室需求,需要找一个实况天气API。 百度云、阿里云、腾讯云上边我都去找了,很多平台要么没有,要么要收费(免费的可调用次数太少了)。而我在高德开放平台上找到了一个,但是不符合要求,被老师pass掉了。 百度搜一下,基本上都是用Python自动化测试Selenium写的,那也太没意思了吧。找不到,那我只好自己写一个爬虫爬取了。 如果想在中国天气网上爬取实况天气还是很简单的,但是由于思路一...
=============================== 爬取百度网粤港澳大湾区7个机场的新闻数据并存入MySQL数据库中 =============================== 一、获取网页源代码 1.引入所需库 import requests import re import pymysql import time 2.请求头 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36', def getCityInfo(url:str) ->(float): response = request
### 回答1: Python爬虫中可以使用Selenium库来爬取网页信息。Selenium可以模拟浏览器行为,能够爬取JavaScript渲染后的网页信息。使用Selenium爬取网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而selenium是Python中主要的爬虫库之一,用于爬取动态Web页面,可以模拟用户在浏览器中的行为,从而获取大量数据。 使用selenium爬取信息可以分为以下几个步骤: 1.安装和导入selenium和webdriver: 首先需要安装适合的版本的selenium包,并导入selenium和webdriver模块: ```python from selenium import webdriver 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() 6.解析数据: 使用webdriver的page_source属性可以获取网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要爬取的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来爬取需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获取网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获取网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获取网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获取网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。
报错:java.lang.NullPointerException: Attempt to invoke virtual method ‘void android.widget.ImageView 24000