SpringBoot与Apache Drill整合，实现非结构化数据的实时查询与数据湖分析系统

随着业务的发展，我们公司堆积了大量的非结构化数据，如日志文件、社交媒体数据、传感器数据等。为了更好地利用这些数据资产，提高数据分析效率，我们需要一个实时查询能力、灵活的数据存储和管理方案。Drill 的 Schema-Free 特性使得我们可以轻松地查询这些不同类型的数据，而无需提前定义模式。Drill 支持标准的 SQL 语法，使得现有的 BI 工具和应用程序可以无缝集成。用途: PayPal

Java知识日历

1175人浏览 · 2025-03-17 08:30:39

Java知识日历 · 2025-03-17 08:30:39 发布

随着业务的发展，我们公司堆积了大量的非结构化数据，如日志文件、社交媒体数据、传感器数据等。传统数据仓库难以有效处理这些多样化的数据类型。为了更好地利用这些数据资产，提高数据分析效率，我们需要一个实时查询能力、灵活的数据存储和管理方案。

Apache Drill在我们项目中的优势

灵活性:

我们的数据来源多样，包括 JSON 日志文件、CSV 文件和 MongoDB 数据库。Drill 的 Schema-Free 特性使得我们可以轻松地查询这些不同类型的数据，而无需提前定义模式。

性能:

Drill 的分布式架构使其能够高效地处理大规模数据集。这对于我们的大数据分析需求至关重要。

易于集成:

Drill 支持标准的 SQL 接口，便于与现有的 BI 工具（如 Tableau、Power BI）和 Spring Boot 应用程序集成。

低成本:

使用 Drill 可以避免购买昂贵的商业查询引擎许可证，从而降低整体运营成本。

Apache Drill

“
Apache Drill是一个开源的分布式 SQL 查询引擎，专为大规模数据湖和 NoSQL 存储系统设计。它允许用户通过标准的 SQL 接口查询结构化、半结构化和非结构化数据，而无需预先定义模式或架构。

Schema-Free 查询:

Drill 不需要预先定义数据模式即可进行查询。它可以动态地读取和解析多种数据格式，包括 JSON、Parquet、Avro、CSV 等。

分布式架构:

Drill 采用分布式架构，可以处理 PB 级别的数据。它可以在多台机器上并行执行查询任务，提供高性能和可扩展性。

标准 SQL 支持:

Drill 支持标准的 SQL 语法，使得现有的 BI 工具和应用程序可以无缝集成。这降低了学习曲线，并提高了开发效率。

插件机制:

Drill 使用插件机制来支持不同的数据存储系统。内置插件包括 HDFS、MapR-FS、MongoDB、Cassandra 等，还可以通过编写自定义插件来扩展支持更多数据源。

实时查询能力:

Drill 提供低延迟的数据访问和查询能力，适用于实时数据分析场景。

嵌套数据支持:

Drill 能够处理嵌套数据结构（如 JSON 和 Avro），并且可以递归地展开这些结构以进行查询。

Web UI:

Drill 提供了一个简单的 Web 界面，用于监控集群状态、查看查询日志和管理配置。

哪些公司使用了Apache Drill？

Intel

用途: Intel 使用 Apache Drill 进行芯片设计和制造过程中的数据分析，以提高产品质量和生产效率。
优势: Drill 的高性能和可扩展性满足了 Intel 复杂的数据处理需求。

Yahoo!

用途: Yahoo! 使用 Apache Drill 进行大规模的数据分析和报告生成。
优势: Drill 的插件机制支持多种数据源，便于整合不同的数据存储系统。

Airbnb

用途: Airbnb 使用 Apache Drill 进行房源数据和用户行为分析，以提升用户体验和平台性能。
优势: Drill 的 Schema-Free 查询特性使得 Airbnb 能够快速适应不断变化的数据需求。

PayPal

用途: PayPal 使用 Apache Drill 进行交易数据和用户活动的分析，以提高欺诈检测和风险评估的能力。
优势: Drill 的高性能和可扩展性满足了 PayPal 大规模数据处理的需求。

eBay

用途: eBay 使用 Apache Drill 进行大规模的日志分析和用户行为分析。
优势: Drill 的 Schema-Free 查询特性使得 eBay 能够轻松地分析各种格式的数据。

用途: LinkedIn 使用 Apache Drill 进行大规模的社会网络数据分析和用户行为跟踪。
优势: Drill 的灵活查询能力使其能够处理复杂的数据结构和关系。

Adobe

用途: Adobe 使用 Apache Drill 进行数字营销数据的分析，特别是在客户体验管理和广告投放优化方面。
优势: Drill 的标准 SQL 支持使得 Adobe 可以利用现有的 BI 工具进行复杂的报表生成。

Uber

用途: Uber 使用 Apache Drill 进行运营数据和地理空间数据分析，以优化路线规划和司机调度。
优势: Drill 的分布式架构和高性能查询能力使其能够处理实时数据流。

启动Apache Drill

我这边已经启动了Apache Drill。

你可以从Apache Drill官方网站 (https://drill.apache.org/download/)下载并按照官方文档进行安装。超级简单！

代码实操

<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.example</groupId>
    <artifactId>data-lake-analysis</artifactId>
    <version>0.0.1-SNAPSHOT</version>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.5</version>
        <relativePath/><!-- lookup parent from repository -->
    </parent>

    <properties>
        <java.version>11</java.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>org.apache.drill.exec</groupId>
            <artifactId>drill-jdbc-all</artifactId>
            <version>1.21.0</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-validation</artifactId>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-maven-plugin</artifactId>
            </plugin>
        </plugins>
    </build>

</project>

配置Drill

在application.properties文件中配置Drill：

# 数据库连接配置
spring.datasource.url=jdbc:drill:zk=local
spring.datasource.driver-class-name=org.apache.drill.jdbc.Driver
spring.jpa.show-sql=true

# 服务器端口配置
server.port=8080

Controller

package com.example.datalakeanalysis.controller;

import com.example.datalakeanalysis.exception.ApiRequestException;
import com.example.datalakeanalysis.service.DataLakeService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.HttpStatus;
import org.springframework.validation.FieldError;
import org.springframework.web.bind.MethodArgumentNotValidException;
import org.springframework.web.bind.annotation.*;

import javax.validation.Valid;
import java.sql.SQLException;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

// 控制器类，处理HTTP请求
@RestController
@RequestMapping("/api/v1")
publicclass DataLakeController {

    @Autowired
    private DataLakeService dataLakeService;  // 自动注入数据湖服务

    // 处理GET请求，执行销售数据查询
    @GetMapping("/sales/query")
    public List<Map<String, Object>> executeSalesQuery(@RequestParam@Valid String sql) throws SQLException {
        return dataLakeService.executeQuery(sql);  // 调用服务层方法执行查询并返回结果
    }

    // 处理验证异常，返回400 Bad Request状态码
    @ExceptionHandler(MethodArgumentNotValidException.class)
    @ResponseStatus(HttpStatus.BAD_REQUEST)
    public Map<String, String> handleValidationExceptions(
            MethodArgumentNotValidException ex) {
        Map<String, String> errors = new HashMap<>();
        ex.getBindingResult().getAllErrors().forEach((error) -> {
            String fieldName = ((FieldError) error).getField();  // 获取字段名
            String errorMessage = error.getDefaultMessage();     // 获取错误信息
            errors.put(fieldName, errorMessage);                 // 将字段名和错误信息放入Map
        });
        return errors;                                         // 返回错误信息Map
    }

    // 处理SQL异常，返回500 Internal Server Error状态码
    @ExceptionHandler(SQLException.class)
    @ResponseStatus(HttpStatus.INTERNAL_SERVER_ERROR)
    public Map<String, String> handleSQLExceptions(SQLException ex) {
        Map<String, String> error = new HashMap<>();
        error.put("message", "Database query failed: " + ex.getMessage());  // 设置错误消息
        return error;                                                         // 返回错误信息Map
    }

    // 处理所有其他异常，返回500 Internal Server Error状态码
    @ExceptionHandler(Exception.class)
    @ResponseStatus(HttpStatus.INTERNAL_SERVER_ERROR)
    public Map<String, String> handleGenericExceptions(Exception ex) {
        Map<String, String> error = new HashMap<>();
        error.put("message", "An unexpected error occurred: " + ex.getMessage());  // 设置错误消息
        return error;                                                             // 返回错误信息Map
    }
}

自定义API请求异常类

package com.example.datalakeanalysis.exception;

// 自定义API请求异常类
publicclass ApiRequestException extends RuntimeException {

    // 构造函数，接受错误消息
    public ApiRequestException(String message) {
        super(message);
    }

    // 构造函数，接受错误消息和原因
    public ApiRequestException(String message, Throwable cause) {
        super(message, cause);
    }
}

异常响应类

package com.example.datalakeanalysis.exception;

import lombok.AllArgsConstructor;
import lombok.Data;

// 异常响应类，包含错误消息和详细信息
@Data
@AllArgsConstructor
public class ApiRequestExceptionResponse {
    private String message;  // 错误消息
    private String details;  // 详细信息
}

全局异常处理器

package com.example.datalakeanalysis.exception;

import org.springframework.http.HttpStatus;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.ControllerAdvice;
import org.springframework.web.bind.annotation.ExceptionHandler;
import org.springframework.web.context.request.WebRequest;

// 全局异常处理器，处理所有未捕获的异常
@ControllerAdvice
publicclass GlobalExceptionHandler {

    // 处理ApiRequestException异常，返回400 Bad Request状态码
    @ExceptionHandler(ApiRequestException.class)
    public ResponseEntity<Object> handleApiRequestException(ApiRequestException e, WebRequest request) {
        ApiRequestExceptionResponse exceptionResponse = new ApiRequestExceptionResponse(e.getMessage(), request.getDescription(false));
        returnnew ResponseEntity<>(exceptionResponse, HttpStatus.BAD_REQUEST);
    }

    // 处理所有其他异常，返回500 Internal Server Error状态码
    @ExceptionHandler(Exception.class)
    public final ResponseEntity<Object> handleAllExceptions(Exception ex, WebRequest request) {
        ApiRequestExceptionResponse exceptionResponse = new ApiRequestExceptionResponse(ex.getMessage(),
                request.getDescription(false));
        returnnew ResponseEntity<>(exceptionResponse, HttpStatus.INTERNAL_SERVER_ERROR);
    }
}

销售数据模型类

package com.example.datalakeanalysis.model;

import lombok.Data;

// 销售数据模型类，使用Lombok简化getter和setter方法的编写
@Data
public class Sale {
    private String id;          // 销售记录ID
    private String product;     // 产品名称
    private double amount;      // 销售金额
    private String date;        // 销售日期
}

数据湖服务类

package com.example.datalakeanalysis.service;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import javax.sql.DataSource;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

// 数据湖服务类，负责执行SQL查询并返回结果
@Service
publicclass DataLakeService {

    @Autowired
    private DataSource dataSource;  // 自动注入数据源

    // 执行SQL查询的方法
    public List<Map<String, Object>> executeQuery(String sql) throws SQLException {
        try (Connection connection = dataSource.getConnection();  // 获取数据库连接
             Statement statement = connection.createStatement();       // 创建Statement对象
             ResultSet resultSet = statement.executeQuery(sql)) {      // 执行SQL查询并获取结果集

            List<Map<String, Object>> result = new ArrayList<>();   // 存储查询结果的列表
            while (resultSet.next()) {                              // 遍历结果集中的每一行
                Map<String, Object> row = new HashMap<>();            // 每一行的数据存储在一个Map中
                for (int i = 1; i <= resultSet.getMetaData().getColumnCount(); i++) {  // 遍历每一列
                    row.put(resultSet.getMetaData().getColumnName(i), resultSet.getObject(i));  // 将列名和值放入Map
                }
                result.add(row);                                      // 将Map添加到结果列表中
            }

            return result;                                          // 返回查询结果
        }
    }
}

启动类

package com.example.datalakeanalysis;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

// 主启动类，用于启动Spring Boot应用程序
@SpringBootApplication
public class DataLakeAnalysisApplication {

    // 程序入口点
    public static void main(String[] args) {
        SpringApplication.run(DataLakeAnalysisApplication.class, args);
    }
}

关注我，送Java福利

/**
 * 这段代码只有Java开发者才能看得懂！
 * 关注我微信公众号之后，
 * 发送:"666"，
 * 即可获得一本由Java大神一手面试经验诚意出品
 * 《Java开发者面试百宝书》Pdf电子书
 * 福利截止日期为2025年02月28日止
 * 手快有手慢没！！！
*/
System.out.println("请关注我的微信公众号：");
System.out.println("Java知识日历");

技术共进，成长同行——讯飞AI开发者社区

更多推荐

[深度学习]卷积神经网络

本实验基于Python和PyTorch框架比较了LeNet、AlexNet、VGG和ResNet四种经典CNN模型在FashionMNIST数据集上的表现，并重点研究了超参数调整对模型性能的影响。实验结果表明：1）对于所有模型，SGD优化器普遍比Adam表现更好；2）学习率在0.05左右时模型性能最佳；3）增加训练轮数可以提高准确率但会延长训练时间；4）批量大小对模型性能影响相对较小。此外，通过简

讯飞AI开发者社区

华为云Flexus+DeepSeek征文｜基于华为云Flexus云服务的Dify一键部署

讯飞AI开发者社区

基于嵌入式系统的智能宠物行为模式预测模型

这种设计使系统在持续运行72小时后仍保持98%的在线率（Table 1）。数据采集系统整合了六类传感器网络：运动传感器（加速度计+陀螺仪）、环境传感器（温湿度+光照）、生物传感器（心率+皮肤电）、视觉传感器（RGB摄像头）、音频传感器（麦克风阵列）和定位传感器（GPS+蓝牙信标）（Figure 1）。数据预处理采用三级流水线：原始数据经过滑动窗口截断（窗口长度5s）、小波变换去噪（db6小波基）和