跳到主要内容

MARKOV_TRAIN

MARKOV_TRAIN 函数用于训练马尔可夫模型,以便生成匿名化数据。

语法

MARKOV_TRAIN(<string>)

MARKOV_TRAIN(<order>)(<string>)

MARKOV_TRAIN(<order>, <frequency_cutoff>, <num_buckets_cutoff>, <frequency_add>, <frequency_desaturate>) (<string>)
参数描述
string输入数据。
order模型上下文长度。
frequency-cutoff频率截断:移除所有计数小于阈值的桶。
num-buckets-cutoff桶数量截断:如果同一上下文的后继桶数量少于指定值,则移除该直方图。
frequency-add频率平滑:对每个计数增加一个常数,以降低概率分布的偏斜。
frequency-desaturate频率去饱和:取值范围 0 到 1,将每个频率移向平均值,以降低概率分布的偏斜。

返回类型

取决于实现,仅用于作为 MARKOV_GENERATE 的参数。

示例

create table model as
select markov_train(concat('bar', number::string)) as bar from numbers(100);

select markov_generate(bar,'{"order":5,"sliding_window_size":8}', 151, (number+100000)::string) as generate
from numbers(5), model;
+-----------+
| generate |
+-----------+
│ bar95 │
│ bar64 │
│ bar85 │
│ bar56 │
│ bar95 │
+-----------+
欢迎体验 Databend Cloud

基于 Rust + 对象存储构建的新一代多模态数仓,一个平台即可进行 BI、向量、全文检索及地理空间分析。

支持标准 SQL,自动弹性伸缩,助您快速构建现代化数据平台。

注册即领 ¥200 代金券。

注册体验