同步操作将从 袋鼠云/chunjun 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
FlinkX只有Hive sink插件,没有Hive source插件,如需要读取Hive表中的数据,请使用HDFS source插件。
Hive sink插件支持实时地往Hive表中写数据,支持自动建表并根据当前系统时间自动创建分区,支持动态解析表名及分组映射,根据映射规则将不同的数据写入不同的Hive表。
Hive sink插件一般配合实时采集(CDC)插件、kafka source插件等实时类的插件一起使用。
Hive sink插件底层依赖HDFS sink,其基本原理也是向指定的HDFS路径中写入数据文件,可以看做是在HDFS sink上做了一些自动建表建分区及分组映射等拓展功能。
Hive sink插件使用时需要开启checkpoint,在checkpoint后数据才能在Hive表中被查出。在开启checkpoint时会使用二阶段提交,预提交时将.data目录中生成的数据文件复制到正式目录中并标记复制的数据文件,提交阶段删除.data目录中标记的数据文件,回滚时删除正式目录中标记的数据文件。
Hive 1.x、Hive 2.x
pt
DAY
{
"kudu":[
{
"key":"id",
"type":"int"
},
{
"key":"user_id",
"type":"int"
},
{
"key":"name",
"type":"string"
}
]
}
"distributeTable" : "{\"fenzu1\":[\"table1\"],\"fenzu2\":[\"table2\",\"table3\"]}",
table1的数据将写入hive表fenzu1里,table2和table3的数据将写入fenzu2里,如果配置distributeTable,则tablesColumn需要配置为如下格式:
{
"fenzu1":[
{
"key":"id",
"type":"int"
},
{
"key":"user_id",
"type":"int"
},
{
"key":"name",
"type":"string"
}
],
"fenzu2":[
{
"key":"id",
"type":"int"
},
{
"key":"user_id",
"type":"int"
},
{
"key":"name",
"type":"string"
}
]
}
text
、orc
、parquet
fileType
为text
时字段的分隔符\001
GZIP
、BZIP2
格式SNAPPY
、GZIP
、BZIP
、LZ4
格式SNAPPY
、GZIP
、LZO
格式SNAPPY
格式需要用户安装SnappyCodec
1073741824
(1G)5000
fileType
为parquet
时定row group的大小,单位字节134217728
(128M)fileType
为parquet
时,是否启动字典编码true
fileType
为text
时字段的字符编码UTF-8
url
username
password
partition
pt
partition-type
DAY
write-mode
file-type
text
、orc
、parquet
default-fs
hadoopConfig
'properties.hadoop.user.name' = 'root',
'properties.dfs.ha.namenodes.ns' = 'nn1,nn2',
'properties.fs.defaultFS' = 'hdfs://ns',
'properties.dfs.namenode.rpc-address.ns.nn2' = 'ip:9000',
'properties.dfs.client.failover.proxy.provider.ns' = 'org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider',
'properties.dfs.namenode.rpc-address.ns.nn1' = 'ip:9000',
'properties.dfs.nameservices' = 'ns',
'properties.fs.hdfs.impl.disable.cache' = 'true',
'properties.fs.hdfs.impl' = 'org.apache.hadoop.hdfs.DistributedFileSystem'
field-delimiter
fileType
为text
时字段的分隔符\001
compress
GZIP
、BZIP2
格式SNAPPY
、GZIP
、BZIP
、LZ4
格式SNAPPY
、GZIP
、LZO
格式SNAPPY
格式需要用户安装SnappyCodec
max-file-size
1073741824
(1G)
next-check-rows
5000
enable-dictionary
fileType
为parquet
时,是否启动字典编码true
encoding
fileType
为text
时字段的字符编码UTF-8
table-name
支持 | BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL、STRING、VARCHAR、CHAR、TIMESTAMP、DATE、BINARY |
---|---|
暂不支持 | ARRAY、MAP、STRUCT、UNION |
见项目内flinkx-examples
文件夹。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。