跳到主要内容
版本:2.15.0

上传文件导入数据

通过WEB上传文件到炎凰数据平台

步骤

  1. 进入炎凰数据平台 点击左侧导航栏中的导入数据数据管理图标, 进入“从文件导入数据”的页面。 默认情况下,“user”角色可以访问“从文件导入数据”页面,并上传、导入文件到目标数据集。具体的内容参考权限管理 file_upload_entry

  2. 上传文件 file_upload_part1

  3. 预览数据 在此步骤中您可以通过点击"数据格式"下拉菜单去选择数据格式。目前,平台内置若干种常用的数据格式。具体内容请参考内置datatype file_upload_part2

    当然在此步骤中您也可以自定义数据格式,并选择是否保存自定义数据格式。 file_upload_part2_b

  4. 导入数据 您可以选择事件需要存储的数据集名称,数据源的主机名称和数据源的名称。通常,数据源主机名就是上传文件当前主机的主机名,数据源的名称就是文件名。 还可以即时创建所需要的数据集,新创建的数据集会被默认选中。 点击"导入"按钮将数据导入目标数据集。 file_upload_part3

  5. 完成 您可以选择继续导入其他数据或打开搜索查询页面 file_upload_part4

事件的预览

在上传文件的时候,确定上传数据之前,可以预览数据解析的结果。例如上传csv数据的时候,可以预览对csv解析的结果,确保选择的数据源类型属性ingestion_time_extraction=csv,炎凰数据平台会将csv的所有字段解析,并且构建索引。样例如下:

csv_parse_preview

预览事件的时间戳提取

上传文件的时候,可以预览文件当中的事件的时间戳解析结果。时间戳解析的表属性配置,请参考数据目录中的数据源类型属性

时间戳提取配置样例

有如下一份csv样本的数据,存储的是新冠疫情每日的汇总报表数据。

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incidence_Rate,Case-Fatality_Ratio
,,,Afghanistan,2020-10-28 04:24:39,33.93911,67.709953,41032,1523,34217,5292,Afghanistan,105.40392666617876,3.7117371807369857
,,,Albania,2020-10-28 04:24:39,41.1533,20.1683,19729,487,10808,8434,Albania,685.55841267635,2.4684474631253486

每一行是一个事件,事件的时间戳需要从Last_Update字段提取。那么需要配置数据源类型属性如下

table_name = "covid_daily_report"
ingestion_time_extraction = "csv"
timestamp_config = "config"
timestamp_field = "Last_Update"
timestamp_format = "%F %T"

更多时间戳解析的配置样例,可参考配置时间戳解析的样例

导入压缩文件到炎凰数据平台

上传压缩文件

炎凰数据平台支持除了导入文件外还支持上传压缩类型(zip、tar、tar.gz、tgz)文件并导入到目标数据集。 file_upload_ZIP_1

压缩类型文件预览

压缩类型文件的预览不同于单独文件的预览显示字段提取内容,而是显示压缩文件的目录结构。 file_upload_ZIP_2

压缩类型文件导入

导入压缩文件完成后会显示内部文件的导入结果 file_upload_ZIP_3 file_upload_ZIP_4

查询导入结果

在实例中,导入示例文件'Archive.zip'到数据集'zipimport'之后,打开查询页面输入查询语句例如select _source from zipimport运行查看结果 file_upload_ZIP_5