数据采集第四次作业

代码链接：第四次数据采集实践作业码云链接

作业①

1 作业要求

熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
候选网站：东方财富网：http://quote.eastmoney.com/center/gridlist.html#hs_a_board
输出信息：MYSQL数据库存储和输出格式如下，表头应是英文命名例如：序号id，股票代码：bStockNo……，由同学们自行定义设计表头：
Gitee文件夹链接

1.1 作业1 Gitee文件夹链接

1.2 代码思路和关键代码展示

1.2.1 创建数据库连接和创建数据库表

连接到MySQL数据库。

# 创建数据库连接
cnx = mysql.connector.connect(user='root', password='123456', host='127.0.0.1', database='scrapy')
cursor = cnx.cursor()
table_names = ["hs_a_board", "sh_a_board", "sz_a_board"]

定义了一个SQL模板，用于创建存储股票信息的表结构。

#创建表
table_structure = """
CREATE TABLE IF NOT EXISTS `{table_name}` (
  `stock_code` varchar(10) NOT NULL,
  `stock_name` varchar(50) NOT NULL,
  `latest_price` varchar(10) NOT NULL,
  `price_change_percent` varchar(10) NOT NULL,
  `price_change` varchar(10) NOT NULL,
  `transaction_volume` varchar(20) NOT NULL,
  `transaction_amount` varchar(20) NOT NULL,
  `amplitude` varchar(10) NOT NULL,
  `highest_price` varchar(10) NOT NULL,
  `lowest_price` varchar(10) NOT NULL,
  `opening_price` varchar(10) NOT NULL,
  `previous_close` varchar(10) NOT NULL,
  PRIMARY KEY (`stock_code`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
"""

遍历table_names列表中的表名（为三种不同类别的股票建立数据库），为每个表名创建对应的表。

# 为每个表名创建表
for table_name in table_names:
    create_table_sql = table_structure.format(table_name=table_name)
    try:
        cursor.execute(create_table_sql)
        cnx.commit()
        print(f"表 {table_name} 创建成功。")
    except mysql.connector.Error as err:
        print(f"创建表 {table_name} 失败：{err}")

1.2.2 定义爬取信息的函数fetch_page（）

这个函数负责爬取页面上的股票信息，并将其插入到数据库中。
使用implicitly_wait设置隐式等待时间。
使用find_elements和find_element方法定位页面元素，并提取股票信息。

 table = driver.find_elements(By.XPATH,'//table[@id="table_wrapper-table"]/tbody/tr')
    print("————————————正在爬取新的一页————————————")
    for tr in table:
        stock_code = tr.find_element(By.XPATH,'./td[position()=2]/a').text
        stock_name = tr.find_element(By.XPATH,'./td[position()=3]/a').text
        latest_price = tr.find_element(By.XPATH,'./td[position()=5]/span').text
        price_change_percent = tr.find_element(By.XPATH,'./td[position()=6]/span').text
        price_change = tr.find_element(By.XPATH,'./td[position()=7]/span').text
        transaction_volume = tr.find_element(By.XPATH,'./td[position()=8]').text
        transaction_amount = tr.find_element(By.XPATH,'./td[position()=9]').text
        amplitude = tr.find_element(By.XPATH,'./td[position()=10]').text
        highest_price = tr.find_element(By.XPATH,'./td[position()=11]/span').text
        lowest_price = tr.find_element(By.XPATH,'./td[position()=12]/span').text
        opening_price = tr.find_element(By.XPATH,'./td[position()=13]/span').text
        previous_close = tr.find_element(By.XPATH,'./td[position()=14]').text

将提取的信息插入到数据库中，并提交事务。

# 插入数据到 MySQL
        query = f"INSERT INTO {key} (stock_code, stock_name, latest_price, price_change_percent, price_change, transaction_volume, transaction_amount, amplitude, highest_price, lowest_price, opening_price, previous_close) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"
        data = (stock_code, stock_name, latest_price, price_change_percent, price_change,
                transaction_volume, transaction_amount, amplitude, highest_price, lowest_price,
                opening_price, previous_close)
        cursor.execute(query, data)
        cnx.commit()
        #打印信息
        print(stock_code,stock_name,latest_price,price_change_percent,price_change,transaction_volume,transaction_amount,amplitude,highest_price,lowest_price
              ,opening_price,previous_close)

1.2.3 定义翻页逻辑：

在fetch_page（）函数中，通过点击下一页按钮来翻页，并重新调用fetch_page（）函数爬取新页面的数据。

   # 翻页逻辑
    for i in range(page_num - 1):  # 假设我们要翻页的次数
        try:
            next_page_button =driver.find_element(By.XPATH, '//*[@id="main-table_paginate"]/a[2]')
            next_page_button.click()
            driver.implicitly_wait(5)
            # simulate_scroll()  # 模拟鼠标慢慢滚动以加载图片
            time.sleep(random.randint(3, 5))
            fetch_page(key,1)  # 重新爬取当前页面的商品信息
        except TimeoutException:
            print("下一页按钮预期时间内未出现")
            break

1.2.4 定义分类爬取函数fetch_cate（）：

这个函数负责点击分类按钮，并开始爬取该分类下的股票信息。

def fetch_cate(key,value):
    driver.execute_script("window.scrollTo(0, 0);")
    print("="*10 + f"正在爬取{key}" + "="*10)
    driver.implicitly_wait(3)
    time.sleep(random.randint(3, 5))
    cate_button = driver.find_element(By.XPATH, value)
    cate_button.click()
    driver.implicitly_wait(2)
    fetch_page(key,5)

1.3 结果展示

控制台输出：
持久化存储：

1.5 总结体会

网页等待：由于网速的限制，需要灵活处理等待的时间，避免元素还未加载。
元素查找：由于爬取的数据较多，通过xpath爬取编写代码还是比较麻烦的，不过由于数据的爬取结构差不多，通过position的变换进行查找即可。
翻页处理：通过定位翻页的按钮，进行自动化的翻页处理，大大提高代码的爬取效率。
不同类别的爬取：在爬取完一个类别后，通过查找元素爬取不同的类别时，发现会有报错提示无法找到类别的路径，发现是由于翻页处理时，页面到了底部，元素可能没有加载，因此在更换类别时，保证每次页面都在顶部即可。

作业②

2 作业要求

熟练掌握 Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架+MySQL爬取中国mooc网课程资源信息（课程号、课程名称、学校名称、主讲教师、团队成员、参加人数、课程进度、课程简介）
候选网站：中国mooc网：https://www.icourse163.org
输出信息：MYSQL数据库存储和输出格式
Gitee文件夹链接

2.1 作业2 Gitee文件夹链接

2.2 代码思路和关键代码展示

2.2.1 创建数据库连接和数据表：

连接到MySQL数据库，并创建一个游标对象用于执行SQL语句。
创建数据库表：
执行SQL语句创建一个名为mooc的表，用于存储课程信息

# 创建数据库连接
cnx = mysql.connector.connect(user='root', password='123456', host='127.0.0.1', database='scrapy')
cursor = cnx.cursor()
# # 创建表
cursor.execute('''
CREATE TABLE IF NOT EXISTS mooc (
  `cCourse` varchar(255) DEFAULT NULL,
  `cCollege` varchar(255) DEFAULT NULL,
  `cTeacher` varchar(255) DEFAULT NULL,
  `cCount` varchar(255) DEFAULT NULL,
  `cProcess` varchar(255) DEFAULT NULL,
  `cBrief` varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
''')
cnx.commit()

2.2.2 定义登录函数login（）：

通过Selenium操作模拟用户登录中国大学MOOC平台。

def login():
    try:
        login_button = driver.find_element(By.XPATH, '//*[@id="j-topnav"]/div')
        login_button.click()
        time.sleep(3)
        iframe = driver.find_element(By.XPATH,'/html/body/div[13]/div[2]/div/div/div/div/div/div[1]/div/div[1]/div[2]/div[2]/div[1]/div/iframe')
        driver.switch_to.frame(iframe)
        account=driver.find_element(By.XPATH,'//*[@id="phoneipt"]')
        password=driver.find_element(By.XPATH,'//*[@id="login-form"]/div/div[4]/div[2]/input[2]')
        account.send_keys("")
        password.send_keys("")
        password.send_keys(Keys.RETURN)
        time.sleep(1)
        WebDriverWait(driver, 60).until(EC.url_changes(driver.current_url))
        driver.switch_to.default_content()  # 切回主内容
        time.sleep(2)
    except Exception as e:
        print("登录失败:", e)

2.2.3 定义搜索函数search（）

输入课程关键词并执行搜索

def search(course):
    try:
        time.sleep(10)
        # 等待搜索框可点击
        input = WebDriverWait(driver, 10, 0.5).until(
            EC.element_to_be_clickable((By.XPATH, '//*[@id="j-indexNav-bar"]/div/div/div/div/div[7]/div[1]/div/div[1]/div[1]/span/input'))
        )
    except TimeoutException:
        print("输入框预期时间内出现")
    # 输入信息
    input.send_keys(course)
    # 输入商品后，使用Enter键登录
    input.send_keys(Keys.RETURN)
    time.sleep(5) #等待5秒

2.2.4 定义模拟滚动函数simulate_scroll（）

模拟用户滚动页面以加载更多的课程信息。

#模拟鼠标慢慢滚动以加载商品图片
def simulate_scroll():
    # 获取页面高度
    page_height = driver.execute_script("return document.body.scrollHeight")
    # 定义滚动步长和间隔时间
    scroll_step = 5  # 每次滚动的距离
    scroll_delay = 5  # 每次滚动的间隔时间（秒）
    # 模拟慢慢滚动
    current_position = 0
    while current_position < page_height:
        # 计算下一个滚动位置
        next_position = current_position + scroll_step
        # 执行滚动动作
        driver.execute_script(f"window.scrollTo(0, {next_position});")
        # 等待一段时间
        driver.implicitly_wait(scroll_delay)
        # 更新当前滚动位置
        current_position = next_position

2.2.5 定义爬取信息函数fetch()

爬取课程信息，包括课程名称、学校名称、主讲教师、参加人数、课程进度和课程简介。
将爬取的信息插入到MySQL数据库中。

#爬取信息
def fetch(page_num):
    driver.implicitly_wait(5)
    simulate_scroll()   # 模拟鼠标慢慢滚动以加载图片
    time.sleep(random.randint(3, 5))
    courses = driver.find_elements(By.XPATH,'/html/body/div[4]/div[2]/div[2]/div[2]/div/div[6]/div[2]/div[1]/div/div/div')
    print(len(courses))
    for cor in courses:
        # 使用 find_elements 来获取元素列表
        elements = cor.find_elements(By.XPATH, './div[2]/div/div/div[1]/a[1]/span')
        cCourse = elements[0].text if elements else None  # 课程名称

        elements = cor.find_elements(By.XPATH, './div[2]/div/div/div[2]/a[1]')
        cCollege = elements[0].text if elements else None  # 学校名称

        elements = cor.find_elements(By.XPATH, './div[2]/div/div/div[2]/a[2]')
        cTeacher = elements[0].text if elements else None  # 主讲教师

        elements = cor.find_elements(By.XPATH, './div[2]/div/div/div[3]/span[2]')
        cCount = elements[0].text if elements else None  # 参加人数

        elements = cor.find_elements(By.XPATH, './div[2]/div/div/div[3]/div/span[2]')
        cProcess = elements[0].text if elements else None  # 课程进度

        elements = cor.find_elements(By.XPATH, './div[2]/div/div/a/span')
        cBrief = elements[0].text if elements else None  # 课程简介

        print(cCourse, cCollege, cTeacher, cCount, cProcess, cBrief)
        cursor.execute(
            'INSERT INTO mooc (cCourse, cCollege, cTeacher, cCount, cProcess, cBrief) VALUES (%s, %s, %s, %s, %s, %s)',
            (cCourse, cCollege, cTeacher, cCount, cProcess, cBrief)
        )
        cnx.commit()

2.2.6 定义翻页逻辑

在fetch函数中，通过点击下一页按钮来翻页，并重新调用fetch函数爬取新页面的课程信息。

# 翻页逻辑
    for i in range(page_num - 1):  # 假设我们要翻页的次数
        try:
            next_page_button =driver.find_element(By.XPATH, '//*[@id="j-courseCardListBox"]/div[2]/ul/li[10]/a')
            next_page_button.click()
            driver.implicitly_wait(5)
            # simulate_scroll()  # 模拟鼠标慢慢滚动以加载图片
            time.sleep(random.randint(3, 5))
            fetch(1)  # 重新爬取当前页面的商品信息
        except TimeoutException:
            print("下一页按钮预期时间内未出现")
            break

2.3 结果展示

控制台输出：

持久化存储：

2.4 总结体会

总的来说，这道题和上一道题相差不大，唯一区别是，该道题需要处理用户的登录问题（虽然不登录也可以爬取），还有就是在爬取课程信息时，并不一定每个课程的信息都是完整的，因此在爬取时需要考虑是否存在该页面元素。
处理用户登录：先通过selenium点击登录按钮，进入登入界面，然后这里的登录页面需要先切换到一个iframe窗口中，才可以进行账号和密码的输入，同时还需要使用FULL xpath对iframe对窗口进行定位，不然有可能会报错，可能是由于一开始是使用id进行定位的，而网页的id信息时变换的。最后登录后，需要切换到主页面中。
元素查找：首先在定位课程时，也是需要通过fullXpath进行定位，因为id是变换的，最后在爬取课程的各项内容时，在爬取第三页时，会报错无法定位到元素，原因是不是所有的课程信息都是完整的，因此需要增加一个，元素为空的处理，如过找到的元素为空，这让该项内容为Null即可。
页面滚动：在爬取页面时，我在这里加载了一个页面滚动的函数，用于保证页面的元素加载完整，不过此次爬取不滚动也可以正常加载。

作业③

3 作业要求

掌握大数据相关服务，熟悉Xshell的使用
完成文档华为云_大数据实时分析处理实验手册-Flume日志采集实验(部分)v2.docx 中的任务，即为下面5个任务，具体操作见文档。

环境搭建：

任务一:开通MapReduce服务

实时分析开发实战:

任务一:Python脚本生成测试数据
任务二:配置Kafka
任务三: 安装Flume客户端
任务四:配置Flume采集数据

输出：实验关键步骤或结果截图。

3.1 实验关键步骤和结果截图

3.1.1 环境搭建——开通MapReduce服务

申请弹性公网IP
开通MapReduce服务

3.1.2 Python脚本生成测试数据

3.1.3 下载安装并配置Kafka

3.1.4 安装Flume客户端

安装Flume运行环境
安装Flume客户端
重启Flume服务

3.1.5 配置Flume日志采集

3.2 总结体会

配置Flume采集数据是整个实验中最具挑战性的部分。在这个过程，我学会了如何根据数据源和目标系统的需求来配置Flume。这不仅提高了我对Flume配置文件的理解，也让我对数据流的采集、处理和传输有了更深入的认识。
通过完成这些任务，我对大数据实时分析处理有了更全面的认识。从环境搭建到数据生成，再到数据的采集和传输，每一步都是大数据项目成功的关键。这些任务不仅提高了我的技术能力，也加深了我对大数据生态系统中各个组件如何协同工作的理解。通过实践，我更加确信大数据技术在现代数据处理中的重要性和潜力。

posted @ 2024-11-15 14:29 oolone 阅读(10) 评论(0) 编辑收藏举报

刷新页面返回顶部

oolone

数据采集第四次作业

代码链接：第四次数据采集实践作业码云链接

作业①

1 作业要求

1.1 作业1 Gitee文件夹链接

1.2 代码思路和关键代码展示

1.2.1 创建数据库连接和创建数据库表

1.2.2 定义爬取信息的函数fetch_page（）

1.2.3 定义翻页逻辑：

1.2.4 定义分类爬取函数fetch_cate（）：

1.3 结果展示

1.5 总结体会

作业②

2 作业要求

2.1 作业2 Gitee文件夹链接

2.2 代码思路和关键代码展示

2.2.1 创建数据库连接和数据表：

2.2.2 定义登录函数login（）：

2.2.3 定义搜索函数search（）

2.2.4 定义模拟滚动函数simulate_scroll（）

2.2.5 定义爬取信息函数fetch()

2.2.6 定义翻页逻辑

2.3 结果展示

2.4 总结体会

作业③

3 作业要求

环境搭建：

实时分析开发实战:

输出：实验关键步骤或结果截图。

3.1 实验关键步骤和结果截图

3.1.1 环境搭建——开通MapReduce服务

3.1.2 Python脚本生成测试数据

3.1.3 下载安装并配置Kafka

3.1.4 安装Flume客户端

3.1.5 配置Flume日志采集

3.2 总结体会

公告