Storage API 高性能读写模块
odps-sdk-storage-api 是专为高性能数据读写设计的模块,基于 Apache Arrow 列式内存格式,提供高效的数据传输能力。相比传统 Tunnel 接口,Storage API 具备更低的序列化开销和更好的并行处理能力,适合大规模数据批量导入导出场景。
Maven 依赖
<dependency>
<groupId>com.aliyun.odps</groupId>
<artifactId>odps-sdk-storage-api</artifactId>
<version>${odps.sdk.version}</version>
</dependency>
核心功能
| 特性 | 说明 |
|---|---|
| 高性能 | 基于 Apache Arrow 列式格式,减少序列化/反序列化开销 |
| 并行读写 | 支持将数据切分为多个 Split,并行读取或写入 |
| 事务性写入 | 批量(Batch)模式下写入为原子操作,提交后才对外可见 |
| 流式写入 | Streaming 模式下数据 flush 后立即可见,无需显式提交 |
| 列裁剪 | 读取时可指定所需列,减少网络传输量 |
| 分区过滤 | 读取时可指定分区,按需加载数据 |
| 服务端过滤 | 支持下推过滤谓词,减少数据传输量 |
| 增量读取 | 支持增量读取模式,读取表数据的增量变化 |