普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
SDK开发指南
FAQ
  • Excel输入组件使用说明
  • 组件说明
  • 配置项说明

# Excel输入组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 从HDFS获取文件
    • 从LOCAL获取文件
    • 从上一节点获取文件名

# 组件说明

该组件用于从 Microsoft Excel 读取数据。默认类型设置为 Excel 97-2003 XLS。以下部分描述了用于配置此步骤的每个可用功能:

当您在读取其他文件类型(Excel 2007)并使用受保护工作表等特殊功能时,您需要相应地更改文件选项卡中的电子表格类型(引擎)。 如果您使用受密码保护的工作表,则必须将电子表格类型(引擎)设置为 Excel 2007 XLSX (Apache POI)。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
表格类型 String 是 Excel 97-2003 xls(JXL) (1)、Excel 97-2003 xls(JXL): 这个引擎只支持xls结尾的excel;(2)、Excel 2007 XLSX(Apache POI):一般我们选择这个即可,支持xls和xlsx的小文件;(3)、Excel 2007 XLSX(Apache POI Streaming):如果读取的文件比较大,建议使用这个,否则本机内存很快就吃光了。
是否从上一节点获取文件名 Boolean 是 false 如果该组件有上一节点,且需要从该节点中获取变量的值,作为文件名,则选中此选项。
选择类型 String 是 - 可选择“HDFS”类型或“LOCAL”类型。
选择数据源 String 是 - 当前输入绑定的数据源名称,从下拉选项中列出的指定的关联类型(HDFS)的数据源进行选择。
文件目录 String 是 - 读取数据的文件/目录来源。
正则匹配 String 是 - 指定要用于选择上一个选项中指定的目录中文件的正则表达式。
正则排除 String 是 - 排除满足此正则表达式指定条件的所有文件(位于给定位置)。
读取工作表 String 是 - 指定你要读取的数据在哪个sheet页(可选择多个)。
标头 Boolean 是 true 检查是否工作表指定了一个头部行。
无空行 Boolean 是 true 如果不希望此步骤的输出中出现空行,则启用
停在空行 Boolean 是 false 当步骤在读取工作表遇到一个空行的时候停止读取。
记录限制 Integer 是 0 限制输出的行数,代表下游节点接收到的最大数量,0 代表输出所有行。
编码 String 是 UTF-8 防止中文乱码,指定和excel一样即可。
是否添加文件名到结果 Boolean 是 false 此组件运行时,会把读取的文件名输出1列。
字段定义列表 String 是 - 名称:字段的名称。类型:字段的类型(String,Date或Number等)。格式:用于转换原始字段格式的可选格式掩码。长度:字段的长度取决于以下字段类型:Number:一个数字中有效数字的总数;String:字符串的总长度;Date:字符串打印输出的长度。精度: 用于数字类型字段的浮点数。

← CSV文件输入 XML输入 →