本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
jiron-cloud
-
更新时间:2024-09-09
-
访问地址: GitHub
-
描述:
该项目整合了多款优秀的开源产品,构建了一个功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。 -
用途:
数据质量管理
工作流调度
元数据管理
实时数据处理
数据集成
数据查询
数据分析
数据服务
- 数据集网址:
https://github.com/642933588/jiron-cloud
2
Bigdata
-
更新时间:2024-01-05
-
访问地址: GitHub
-
描述:
大数据处理相关技术学习之路(持续更新中...)。 Bigdata整理 --> 大数据相关技术包括离线处理,实时处理,OLAP等,如hadoop、spark、flink、hive、hbase、oozie...以及大数据项目,如用户画像、数据仓库等。
-
数据集网址:
https://github.com/baolibin/Bigdata
3
zdh_web
-
更新时间:2025-01-02
-
访问地址: GitHub
-
描述:
大数据采集,抽取平台,zdh_web是zdh系列服务的可视化管理平台,包含数据采集,调度,权限,审批流,私域营销等模块,主要目的是实现高效的进行数据采集,构建自己的大数据平台,通过统一数据管理,对数据进行高效分析及对外输出,通过工具完成大部分工作,减少开发者的工作量,并且降低使用者标准,通过拖拉拽实现数据的采集(任务依赖关系由自带调度完成-优势)。本平台的初衷及目的尽量减少开发者的工作量及降低数据开发者的使用门槛,是一个基于当前大数据平台开发智能营销风控系统,在学习技术同时结合场景迭代产品。
-
数据集网址:
https://github.com/zhaoyachao/zdh_web
4
Stark
-
更新时间:2025-01-02
-
访问地址: GitHub
-
描述:
基于Spark+Debezium打造的简单易用、超高性能大数据治理引擎,适用于批流一体的数据集成和数据分析场景,支持CDC实时数据采集,支持海量数据同步、数据建模和OLAP数据分析。
-
数据集网址:
https://github.com/hexnn/Stark
5
bigdata-growth
-
更新时间:2024-11-14
-
访问地址: GitHub
-
描述:
大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。
-
数据集网址:
https://github.com/collabH/bigdata-growth
6
Morn
-
更新时间:2024-05-05
-
访问地址: GitHub
-
描述:
Morn是一个C语言的基础工具和基础算法库,包括数据结构、图像处理、音频处理、机器学习等,具有简单、通用、高效的特点。
-
数据集网址:
https://github.com/jingweizhanghuai/Morn
7
xl-lighthouse
-
更新时间:2024-01-01
-
访问地址: GitHub
-
描述:
新一代实时计算底座,计算性能超越flink/spark 100倍,XL-LightHouse是一套支持超大数据量、支持超高并发的通用型流式大数据统计系统【同时支持单机版】。常见的应用场景包括:PV、UV统计;电商销售额、下单用户数统计;日志量统计;接口调用量、异常量、耗时情况统计;服务器运维监控等功能,系统支持多维度统计,支持各种复杂的条件筛选和逻辑判断,一键部署,一行代码接入,轻松实现业务全链路数据监控,帮助企业快速搭建数据指标体系。
-
数据集网址:
https://github.com/xl-xueling/xl-lighthouse
8
AntJob
-
更新时间:2024-12-25
-
访问地址: GitHub
-
描述:
分布式任务调度系统,纯NET打造的重量级大数据实时计算平台,万亿级调度经验积累!面向中小企业大数据分析场景。
-
数据集网址:
https://github.com/NewLifeX/AntJob
9
ezdata
-
更新时间:2024-12-20
-
访问地址: GitHub
-
描述:
基于python和llm大模型开发的数据处理和任务调度系统。 支持数据源管理,数据模型管理,数据集成,数据查询API接口,低代码自定义数据处理任务模版,单任务及dag任务工作流调度等功能。集成了llm模块实现rag知识库问答,链接各数据源数据进行数据对话问答,交互式数据分析功能。
-
数据集网址:
https://github.com/xuwei95/ezdata
10
spark-yun
-
更新时间:2025-01-02
-
访问地址: GitHub
-
描述:
至轻云是一款超轻量级、企业级大数据计算平台,基于Spark生态打造。一键部署,开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能,为企业提供高效便捷的大数据解决方案。
-
特点:
轻量级产品: 无需额外组件安装,一键部署,开箱即用。
云原生私有化: 兼容云原生架构,支持多节点安装与高可用集群部署。
复杂数据处理: 基于原生Spark分布式架构,高效地执行复杂数据计算。
-
数据集网址:
https://github.com/isxcode/spark-yun