大数据培训hive数仓存储格式详解

Hive简介Hive 是基于 Hadoop 的一个数据仓库工具，用来进行数据提取、转化、加载。这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。hive 数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供 SQL 查询功能，能将 SQL 语句转变成 MapReduce 任务来执行。一、文件存储格式在HIVE中，常见的文件存储格式有1 TextFile2 Parquet

零度下的温柔

305人浏览 · 2022-03-18 12:12:59

零度下的温柔 · 2022-03-18 12:12:59 发布

Hive简介

Hive 是基于 Hadoop 的一个数据仓库工具，用来进行数据提取、转化、加载。

这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

hive 数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供 SQL 查询功能，能将 SQL 语句转变成 MapReduce 任务来执行。

一、文件存储格式

在HIVE中，常见的文件存储格式有

1 TextFile

2 Parquet

3 ORC

4 Sequencefile

5 RC

6 AVRO

注意：TextFile、Sequencefile 基于行存储，ORC、Patquet基于列存储。

行存储和列存储

行存储的特点：查询满足条件的一整行数据时，列式存储则需要去每个聚集的字段找到对应的每列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询数据更快。

列式存储的特点：查询满足条件的一整列数据的时候，行存储则需要去每个聚集的字段找到对应的每个行的值，列存储只需要找到其中一个值，其余的值都在相邻的地方，所以此时列式查询的速度更快。另一方面，每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的压缩算法

当查询结果为一整行的时候，行存储效率会高一些；当查询表中某几列时，大数据培训列存储的效率会更高。

在对数据的压缩方面，列存储比行存储更有优势，所以列存储占用空间相对小一些。

1.TextFile

Hive中默认的存储文件格式，行存储。每一行都是一条记录，每行都以换行符（\n）结尾。数据不做压缩，磁盘开销大，数据解析开销大。文件拷贝至hdfs不进行处理。

优点：最简单的数据格式，便于和其他工具（Pig，grep,sed,awk）共享数据，便于查看和编辑；加载较快

缺点：耗费存储空间，I/O性能较低；Hive不进行数据切分合并，不能进行并行操作，查询效率低。

应用场景：适合于小型查询，查看具体数据内容的和测试操作。

建表是进行限定：

stored as textfile

2.sequencefile

含有键值对的二进制文件，行存储，Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点

优点：可压缩、可分割，优化磁盘利用率和I/O；可并行操作数据，查询效率高

缺点：存储空间消耗最大；对于Hadoop生态系统之外的工具不适用，需要通过text文件转换加载

解释：text转换加载，是指linux的shell端的 -text 命令来查看二进制数据

应用场景：适用于数据量较小，大部分列的查询。

建表是进行限定：

sorted as sequencefile

3.RC

是一种行列存储相结合的存储方式。首先，将数据按行分块，保证同一个record在一个快上，避免读一个记录需要读取多个block。其次，快数据列式存储，有利于数据压缩和快速的列存储。

4.orc(工作中常用)

orc文件代表了优化排柱状的文件格式。orc文件格式提供了一种将数据存储在Hive表中的高效方法。这个文件系统实际上是为了克服其他Hive文件格式的限制而设计的。HIve从大型表读取、写入和处理数据时，使用orc文件可以提高性能

数据按行分块每块按列存储。

特点：压缩快，快速列存取、是rcfile的改良版本。

缺点：加载时性能消耗较大；需要通过text文件转化加载；

应用场景：适用于Hive中大型的存储、查询

建表是进行限定：

sorted as orc

5.parquet

parquet类似于orc、相对于orc文件格式，hadoop生态系统中大部分工程都支持parquet文件。

存储模式：按列存储，Parquet文件是以二进制方式存储的，不可以直接读取和修改，文件是自解析的，文件中包括该文件的数据和元数据。

优点：Parquet能够很好的压缩和编码，有良好的查询性能，支持优先的模式演进。

缺点：写速度通常比较慢，不支持update、insert，delete、ACID等特性。

应用场景：适用于字段数非常多，无更新、只取部分列的查询。

文章来源于robin

技术共进，成长同行——讯飞AI开发者社区

更多推荐

LangGraph中ReAct模式的深度解析：推理与行动的完美融合——从理论到实践的智能Agent构建指南

讯飞AI开发者社区

PyTorch与MoE架构全解析：混合专家模型训练+推理，千亿参数大模型落地避坑手册

MoE架构的核心价值不是“炫技”，而是**“用有限硬件实现大模型能力”的工程智慧**通过稀疏激活打破参数量壁垒，通过专家并行降低硬件成本，通过动态路由提升推理效率。对中小团队而言，掌握MoE是“弯道超车”落地千亿级大模型的关键。如果大家在MoE训练中遇到“负载均衡调试、专家并行配置、推理延迟优化”等问题，欢迎在评论区交流，我会定期分享踩坑经验。我是南木提供人工智能系统课程学习、学习规划和就业指导

讯飞AI开发者社区

天津方言会话语音语料库：1000小时真实对话音频数据支持方言文化研究与语音识别模型训练，深度学习框架优化方言识别准确率，应用于语言教学和方言多样性保护，支持更大规模定制

天津方言会话语音语料库为保护濒危方言提供了重要资源。该库包含1000小时真实对话录音，来自数百位不同背景的说话人，完整保留天津方言的语音特征和表达习惯。数据采用专业标准格式，支持语音识别模型训练、语言学研究及文化教学等多场景应用。该资源既助力人工智能技术突破方言识别瓶颈，也为传承地方文化提供了活态样本，具有重要的学术价值和应用前景。