10 Star 27 Fork 11

Alan / CarpoSpark

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

CarpoSpark

从Json配置里面读取并创建Spark的DAG流程图,不用再根据不同的需求,开发不同的Spark程序。 目前支持的业务有,指定HDFS文件目录,过滤行,过滤列。Join操作,Union操作,Group分组汇聚操作(max,min,count,sum,avg)。 可自定义输出目录和文件格式。 格式如下

{
  "id": "spark_00002",
  "name": "Union过滤",
  "size": 10,
  "postfix": "test",
  "suffix": "",
  "extension": "csv",
  "format": "",
  "output": "/data/spark/testout",
  "split": "|",
  "nodes": {
    "node_11": {
      "input": "/data/grid/*.csv",
      "type": "input"
    },
    "node_12": {
      "type": "filter_col",
      "split": ",",
      "fields": {
        "time": {
          "name": "time",
          "text": "time",
          "idx": "0"
        },
        "type": {
          "name": "type",
          "text": "type",
          "idx": "1"
        }
      }
    },
    "node_13": {
      "type": "map",
      "split": ",",
      "key_col": -1
    },
    "node_21": {
      "input": "/data/num/*.csv",
      "type": "input"
    },
    "node_22": {
      "type": "filter_col",
      "split": ",",
      "fields": {
        "time": {
          "name": "time",
          "text": "time",
          "idx": "0"
        },
        "type": {
          "name": "type",
          "text": "type",
          "idx": "1"
        }
      }
    },
    "node_23": {
      "type": "map",
      "split": ",",
      "key_col": -1
    },
    "node_8": {
      "type": "distinct"
    },
    "node_6": {
      "type": "output",
      "time_col": "0",
      "time_format1": "yyyyMMdd",
      "time_format2": "yyyy",
      "split": ",",
      "fields": {
        "time": {
          "name": "time",
          "text": "time",
          "idx": "0"
        },
        "type": {
          "name": "type",
          "text": "type",
          "idx": "1"
        }
      }
    },
    "node_1": {
      "type": "union"
    }
  },
  "lines": {
    "line_4": {
      "inputs": "node_21",
      "outputs": "node_22"
    },
    "line_5": {
      "inputs": "node_22",
      "outputs": "node_23"
    },
    "line_6": {
      "inputs": "node_23",
      "outputs": "node_1"
    },
    "line_1": {
      "inputs": "node_11",
      "outputs": "node_12"
    },
    "line_2": {
      "inputs": "node_12",
      "outputs": "node_13"
    },
    "line_3": {
      "inputs": "node_13",
      "outputs": "node_1"
    },
    "line_7": {
      "inputs": "node_1",
      "outputs": "node_8"
    },
    "line_8": {
      "inputs": "node_8",
      "outputs": "node_6"
    }
  }
}

空文件

简介

从Json配置里面读取并创建Spark任务并生成DAG流程图,不用再根据不同的需求,开发不同的Spark程序。 目前支持的业务有,指定HDFS文件目录,过滤行,过滤列。Join操作,Union操作,Group分组汇聚操作(max,min,count,sum,avg)。 可自定义输出目录和文件格式。 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/eliyanfei/CarpoSpark.git
git@gitee.com:eliyanfei/CarpoSpark.git
eliyanfei
CarpoSpark
CarpoSpark
master

搜索帮助

14c37bed 8189591 565d56ea 8189591