代码拉取完成,页面将自动刷新
同步操作将从 袋鼠云/chunjun 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
HDFS插件支持直接从配置的HDFS路径上读取及写入TextFile、Orc、Parquet类型的文件,一般配合HIve表使用。如:读取Hive表某分区下所有数据,实质是读取Hive表对应分区的HDFS路径下的数据文件;将数据写入Hive表某分区,实质是直接将数据文件写入到对应分区的HDFS路径下;HDFS插件不会对Hive表进行任何DDL操作。
HDFS Source在checkpoint时不会保存读取文件的offset,因此不支持续跑。
Hadoop 2.x、Hadoop 3.x
Sync | hdfssource、hdfsreader |
---|---|
SQL | hdfs-x |
text
、orc
、parquet
"column": [{
"name": "col",
"type": "string",
"index": 1,
"isPart": false,
"format": "yyyy-MM-dd hh:mm:ss",
"value": "value"
}]
fileType
为text
时字段的分隔符\001
fileType
为text
时字段的字符编码UTF-8
path
file-type
text
、orc
、parquet
default-fs
column
"column": [{
"name": "col",
"type": "string",
"index": 1,
"isPart": false,
"format": "yyyy-MM-dd hh:mm:ss",
"value": "value"
}]
hadoopConfig
'properties.hadoop.user.name' = 'root',
'properties.dfs.ha.namenodes.ns' = 'nn1,nn2',
'properties.fs.defaultFS' = 'hdfs://ns',
'properties.dfs.namenode.rpc-address.ns.nn2' = 'ip:9000',
'properties.dfs.client.failover.proxy.provider.ns' = 'org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider',
'properties.dfs.namenode.rpc-address.ns.nn1' = 'ip:9000',
'properties.dfs.nameservices' = 'ns',
'properties.fs.hdfs.impl.disable.cache' = 'true',
'properties.fs.hdfs.impl' = 'org.apache.hadoop.hdfs.DistributedFileSystem'
filter-regex
field-delimiter
fileType
为text
时字段的分隔符\001
encoding
fileType
为text
时字段的字符编码UTF-8
scan.parallelism
支持 | BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL、STRING、VARCHAR、CHAR、TIMESTAMP、DATE、BINARY |
---|---|
暂不支持 | ARRAY、MAP、STRUCT、UNION |
见项目内flinkx-examples
文件夹。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。