Skip to main content
Version: 2.13.0

数据集管理

综述

炎凰数据平台提供数据集管理页面,用户可以在这个页面对数据集进行创建/修改/删除/导入数据等常规操作。

炎凰数据平台内置了一些数据集,比如main, _audit, _internal等等,默认情况下访问_audit, _internal等数据集需要管理员权限。

list_eventsets_page

管理数据集

创建数据集

步骤:

  1. 输入用户名和密码,登录YHP

  2. 点击左侧导航栏导航栏中的数据管理标签按钮,进入数据集界面

    1. 点击页面右上角新建数据集按钮,开始创建新的数据集。创建数据集需要数据集页面新建资源权限,具体的内容参考权限管理
  3. 填入数据集名称,点击确定,则成功创建一个空的数据集。

    1. 最大容量(MB)限制数据集中数据大小,包含温数据冷数据,默认为100GB(102400MB),超过限制的数据将会被删除;
    2. 数据保存时间(小时)限制数据集中数据保存的时间,默认为不限制;比如设置为90天(2160小时),那么时间(_time)在90天之前的事件将会被删除;
    3. 可以打开启用归档,当数据集中温数据大小超过设置的归档触发大小阈值(MB)或者温数据时间超过归档触发时间阈值(小时)的时候,满足条件的数据会被归档到指定路径;
    4. 当同时有满足删除条件的温数据冷数据冷数据会优先被删除, 删除的过程是先将数据对应的元数据表标记为删除,实际磁盘数据延迟删除,延迟时间默认为10分钟;
    5. 可以打开启用查询已归档数据,这样搜索的数据结果集里面会包含已经归档的数据,默认是关闭。查询已经归档的数据相对查询未归档的数据会慢; create_eventset
note
  1. 数据集名称请以小写字母起始,可包含小写字母、数字、下划线的字符串命名数据集
  2. 如果限制数据集最大容量,最大容量(MB)必须为正整数,最小值为1024(MB)
  3. 如果需要限制数据集保存时间,数据保存时间(小时)必须为正整数,最小值是1(小时)
  4. 在开启归档情况下,归档触发大小阈值(MB)应小于最大容量(MB)归档触发时间阈值(小时)应小于数据保存时间(小时)
  5. 数据集的当前容量是指该数据集在磁盘上的数据量大小,包含温数据冷数据,但不包含在内存中的热数据

编辑数据集

步骤:

  1. 表格中右侧的编辑按钮来编辑一个已经建好的数据集;
  2. 用户可以修改最大容量(MB)/数据保存时间(小时)
  3. 用户可以打开启用归档或者启用查询已归档数据,修改归档触发大小阈值(MB)归档触发时间阈值(小时)modify_eventset

修改数据集相关设置对应的值需要注意修改所带来的影响。

  1. 如果将归档触发大小阈值(MB)归档触发时间阈值(小时)对应的值改大,那么已经归档的数据(冷数据)无法恢复为温数据
  • 假设数据集创建设置为数据保存时间(小时)为180天,归档触发时间阈值(小时)为90天,现修改归档触发时间阈值(小时)为120天,对应时间在90~120天的数据已经归档,属于冷数据,这部分数据不会恢复为温数据,要查询这部分数据必须开启启用查询已归档数据
  • 假设数据集创建设置为最大容量(MB)为100GB,归档触发大小阈值(MB)为50GB,现修改归档触发大小阈值(MB)为80GB,原来因为超过50GB已经被归档的数据不会恢复为温数据,要查询这部分数据必须开启启用查询已归档数据
  1. 如果将最大容量(MB)数据保存时间(小时)对应的值改小,那么超过设定值的数据将被删除
  • 假设数据集创建设置为数据保存时间(小时)为180天,归档触发时间阈值(小时)为90天,现修改数据保存时间(小时)为120天,归档触发时间阈值(小时)为60天,对应时间在60~90天的数据会被立即归档,对应时间在120~180天的数据会被删除;

删除数据集

步骤:

  1. 点击表格中右侧的删除按钮来删除一个已经建好的数据集 delete_eventset
caution
  1. 删除数据集时,并不会立即删除任何数据,炎凰数据平台只是将元数据表标记为已删除。最终表数据删除前的延迟由STONEWAVE_SYSTEM_STORAGE_GC_INTERVAL设置指定,默认延迟为10分钟。在延迟到达时,且所有查询任务已经完成,数据集将被实际删除。
  2. 删除数据集,已经归档的数据也会一起被删除。

禁止导入/允许导入数据集

如果用户拥有一个数据集的修改权限,则可以:

  1. 对于处于 "已启用" 状态的数据集,可以点击 禁止导入 按钮将其暂时禁用。该数据集处于只读状态,无法继续导入数据,但该数据集的编辑、权限、删除等功能仍可使用。

  2. 对于处于 "已禁用" 状态的数据集,可以点击 允许导入 按钮将其重新启用。该数据集将能被再次允许导入数据。


导入数据到对应数据集

步骤: 如果用户拥有数据导入页面访问权限,则可以:

  1. 点击“导入数据”按钮,会跳转到数据导入页面。 import_data
  2. 导入数据到指定数据集, 您可以参考导入数据
caution

一些内置的数据集是不能被删除,禁用以及导入数据的,比如_internal

数据归档设置

数据生命周期

数据的生命周期是一个连续的过程,由多个阶段组成,代表数据的创建,索引创建,归档,删除的过程。 数据在炎凰数据平台中会经历如下四个阶段:

  • 热数据
  • 温数据
  • 冷数据
  • 数据删除

data_lifecycle

热数据

数据导入数据集之后,会存在内存中,处在这个阶段的数据被称为热数据。当热数据满足如下条件之后会转化为温数据,存储到磁盘。

  • 数据数目超过设定的值(默认是10万)
  • 数据大小超过设定的值(默认是100MB)
  • 数据集没有新数据进入的空余时间(默认是1天)

温数据

热数据在满足上述条件之后会存储到磁盘变成温数据温数据是带索引的数据,数据对应的查询快。

冷数据

如果对数据集设置了归档,当温数据超过一定的大小阈值或者时间阈值时,会转化为冷数据冷数据同样存储在磁盘,但是没有索引。可以开启对归档数据的查询,不过查询响应速度会相对温数据慢。

如果要将冷数据恢复为温数据,则需要将冷数据重新导入,建立索引。

数据删除

如果对数据集设置了大小或者时间限制,超过限制的数据会被删除,删除的数据无法恢复,也不能被查询。