RossPedia

Seaborn 画时序数据图

Thu, 02 Mar 2023 00:00:00 GMT

数据可视化在机器学习中是一项关键技术，它可以帮助我们更好地理解数据和模型的行为，并支持我们在模型选择、调整和解释过程中做出更加明智的决策。

时序数据可视化

时序数据比较常用的是二维的折线图，下面用 seaborn 折线图可视化。


from typing import List
import seaborn as sns
import matplotlib.pyplot as plt


def plot_lines(x: List[float], y1: List[float], y2: List[float],
               y3: List[float], show: bool = False, save_path: str = None):
    """
    画图，双Y轴
    :param y1:
    :param y2:
    :param y3:
    :param show:
    :param save_path:
    :return:
    """
    sns.set_style('darkgrid')
    assert len(y1) == len(y2) == len(y3)
    fig, ax = plt.subplots(figsize=(10, 10))
    sns.lineplot(x=x, y=y1, label='y1', color='green', ax=ax)
    sns.lineplot(x=x, y=y2, label='y2', color='blue', ax=ax)

    ax.hlines(1.0, x[0], x[-1], colors="black", linestyles="dashed")
    ax2 = ax.twinx()
    sns.lineplot(x=x, y=y3, label='y3', color='red', ax=ax2)
    lines_1, labels_1 = ax.get_legend_handles_labels()
    lines_2, labels_2 = ax2.get_legend_handles_labels()

    lines = lines_1 + lines_2
    labels = labels_1 + labels_2
    ax2.legend().remove()
    ax.legend(lines, labels, loc='upper left')

    ax.set_xlabel('X')
    ax.set_ylabel('Y_left')
		ax2.set_ylabel('Y_right')
    ax.set_title('Title')
    if show:
        print('showing plot...')
        fig.show()
    if save_path is not None:
        fig.savefig(save_path, bbox_inches='tight')


if __name__ == '__main__':
    import numpy as np

    n_sample = 100
    x = list(range(n_sample))
    y1 = np.random.random(n_sample)
    y1 = np.cumsum(y1)
    y2 = np.random.random(n_sample)
    y2 = np.cumsum(y2)
    y3 = list(range(n_sample))
    plot_lines(x, y1, y2, y3, show=True)

代码解析：

第一步：在图上画出绿色和蓝色线，并用 hlines 画一条 y = 1.0 的黑色橫虚线。


fig, ax = plt.subplots(figsize=(10, 10))
sns.lineplot(x=x, y=y1, label='y1', color='green', ax=ax)
sns.lineplot(x=x, y=y2, label='y2', color='blue', ax=ax)
ax.hlines(1.0, x[0], x[-1], colors="black", linestyles="dashed")

第二步：在图上新建一个 y 轴坐标在右边的 axe，并画线


ax2 = ax.twinx()
sns.lineplot(x=x, y=y3, label='y3', color='red', ax=ax2)

第三步：合并 ax 和 ax2 的图例


# 得到两个 axe 的线和坐标
lines_1, labels_1 = ax.get_legend_handles_labels()
lines_2, labels_2 = ax2.get_legend_handles_labels()

lines = lines_1 + lines_2
labels = labels_1 + labels_2
# 把 ax2 的图例线去掉，不然左上角会重复出现 y3
ax2.legend().remove()
ax.legend(lines, labels, loc='upper left')

如果我们把 x 轴的数据替换成 datetime 对象，则效果如下


if __name__ == '__main__':
    import numpy as np
		import datetime
    n_sample = 100

    x = list(range(n_sample))

		base = datetime.datetime.today()
    x = [base + datetime.timedelta(days=x) for x in range(n_sample)]

    y1 = np.random.random(n_sample)
    y1 = np.cumsum(y1)
    y2 = np.random.random(n_sample)
    y2 = np.cumsum(y2)
    y3 = list(range(n_sample))
    plot_lines(x, y1, y2, y3, show=True)

BERTopic 介绍

Fri, 02 Sep 2022 00:00:00 GMT

Bertopic 是最近社区比较热门的一个项目，利用预训练模型可以做到无监督的话题聚类。

BERTopic

MaartenGr • Updated Mar 5, 2023

主要流程

向量提取

其中默认的 Transformer 为 all-MiniLM-L6-v2，如果用没 finetune 过的 BERT 效果不会那么好。建议采用SimCSE、SBERT 语义相似度模型。

降维

umap 降维在数据量大的时候可以加快聚类速度，数据量少（千级别及以下）的时候建议不用降维算法。

聚类算法

作者采用 HDBSCAN 原因是因为聚类效果稳定，超参少，但是笔者发现使用 HDBSCAN 聚类的精度并不高，簇内常混杂着其他主题的样本，原因见机器学习聚类算法之HDBSCAN 。实践得出的结论是在样本比较少的时候使用层次聚类并把目标簇的数目设置得大一些，理由很简单数据少的时候样本在空间内是比较稀疏的；但聚类样本到达一定规模的时候选择 DBSCAN 可以达到比较高的精度。

拓扑排序算法

Sun, 28 Aug 2022 00:00:00 GMT

背景

对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序，是将G中所有顶点排成一个线性序列，使得图中任意一对顶点u和v，若边∈E(G)，则u在线性序列中出现在v之前。通常，这样的线性序列称为满足拓扑次序(Topological Order)的序列，简称拓扑序列。简单的说，由某个集合上的一个偏序得到该集合上的一个全序，这个操作称之为拓扑排序。

输入：有向无环图G

输出：结点序列；对于所有的边∈E(G)，结点u排在v前面。

相关应用：程序处理流程的排序，大学课程表学习顺序问题

原理

排序原理：只要保证指向该结点的节点都被遍历过，当前节点方可访问。

如何确定结点可以访问呢？最简单的情况是，结点的入度为0，即没有其他结点指向该结点。

可以利用这个特性进行拓扑排序，只需要把访问过的节点和由该节点出发的边删除后，在新的图中入度为0的节点为可访问的结点。

如上图所示，第一步可访问的结点为A和B，因为其入度为0，可以首先访问A和B，之后把结点A、B边a、b删除，得到新的图。

访问C和D，之后把以结点C、D出发的边d、f、g、h删除，得到新的图。

访问E、F和G，之后把以结点E、F和G出发的边i、j删除，得到新的图。

访问H，这时候图已经没有结点了，结束排序。

代码实现


#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Created by Ross


def get_in_degreee_zero(graph, visited):
    """
    get node where node's in degress equal 0.
    """
    node2in_degree = {node: 0 for node in graph.keys() if node not in visited}

    for _from, to_nodes in graph.items():
        if _from in visited:
            continue
        for to_node in to_nodes:
            node2in_degree[to_node] += 1
    return [node for node, in_degress in node2in_degree.items() if in_degress == 0]


def topological_sort(graph):
    """topological sort"""
    result = []
    visited = set()
    in_degress_zero_nodes = get_in_degreee_zero(graph, visited)
    while in_degress_zero_nodes:
        result.extend(in_degress_zero_nodes)
        visited.update(in_degress_zero_nodes)
        in_degress_zero_nodes = get_in_degreee_zero(graph, visited)
    return result


if __name__ == '__main__':
    g = {
        'A': ['C', 'D'],
        'B': ['D'],
        'C': ['E', 'F'],
        'D': ['F', 'G'],
        'E': [],
        'F': ['H'],
        'G': ['H'],
        'H': []
    }
    res = topological_sort(g)
    print(res)

短视频主播 Embedding 建模

Tue, 02 Aug 2022 00:00:00 GMT

前言

背景

随着网络世界的发展，越来越多人开始在直播平台上分享内容。对主播进行建模是一项有趣且有挑战性的任务。在视频号中，主播的行为是复杂且多模态的，复杂体现在主播有简介、历史发步过的短视频，也有直播的信息等；而多模态体现在主播的信息包括文字、图片、视频画面、音频、标签信息等。如何利用这些复杂的信息压缩成一个 n 维的向量是具有挑战性的。

应用场景

主播 Embedding 跟其他类型的 Embedding 相似，可以应用在常见的检索场景。以下是主播 Embedding 的使用场景例子：

相似主播检索：在运营和黑产场景，想要通过一个种子主播找出其相关的主播时候使用主播Embedding是非常高效的，这个有利于运营侧快速地找出相似的主播。

主播冷启动：推荐系统通过用户和物品的交互，来预测用为未来的行为和兴趣。但是当有新主播加入的时候，往往需要冷启动将新主播分发给最有可能对其有兴趣的用户，以产生有效的曝光。

主播打散/去重：内容相近的主播在Embedding向量空间中距离也相近，搭配聚类算法可达到相似主播去重和打散的效果。

方案

信息时代数据为王，当可以直接获得用户的点击行为的时候，训练一个主播 Embedding 不是一件困难的事情。然而，由于用户的点击行为是用户的隐私，很多情况下非业务方是无法获取到用户的点击日志的。作为替代，业务方可提供基于用户行为训练的主播 ID-Embedding，可以通过蒸馏的方式进行训练主播内容 Embedding。

自监督主播 Embedding

在无法获取任务与用户点击相关的信息之时，而因为标注难度和数量太大无法进行人工标注训练集的时候，使用自监督方式训练是一个有效的方案。

近年来出现了很多自监督训练的方案，其中 BERT 最广为人知，其通过 Mask Language Model (MLM) 和 Next Sentence Prediction (NSP) 两个预训练任务来建模。MLM是通过随机 Mask 句子中的一些字，用未被 Mask 的上下文预测被 Mask 掉的词，以学习句子的表示；而 NSP 是将两个句子拼接之后，判断两个是否是后面的句子是不是前句的下一句，以学习句子之间的相似信息。语言模型在大规模无标签语料库上进行预训练以强化很多下游任务，受预训练语言模型的启发，微软近年来提出了使用用户行为构建的预训练用户模型 PTUM，提出了Masked Behavior Prediction (MBP) 和 Next K Behaviors Prediction (NBP) 两个用户 Embedding 预训练任务。

图1：PTUM 架构示意图

类似的，我们受到 PTUM 的启发，希望通过 Mask 的方式构造自监督的训练样本对，并通过对比学习进行无监督训练。但是由于应用场景包含多个模态，BERT / PTUM 这一类模型使用未被 MASK 的上下文预测 MASK 元素的 Embedding，在异构的输入上并不适用；因此我们利用对比学习的思想做了一些改造，将预测 MASK 元素的 Embedding 改为预测数据增强之后的主播 Embedding；数据增强采用随机 MASK 输入的方式，为了较少信息泄露，相同的主播可见信息的交集比例需要限制在较小的数值。

损失函数我们采用InfoNCE，同个 Batch 内相同的主播当做是正样本，不同主播之间是负样本。

图2：主播 Embedding 对比学习框架

将信息从 ID-Embedding 迁移到主播内容 Embedding

ID-Embedding 是把用户和物品，并利用点击日志进行训练；而主播内容 Embedding 是通过主播的基本信息和历史行为（历史短视频以及直播）来构造画像。由于兴趣相同的用户一般会和相似的主播进行交互，例如喜欢 NBA 的用户与篮球类的主播交互更多，因此内容相似的主播在 ID-Embedding 的空间上也更加相近，我们希望通过将有用的信息从 ID-Embedding 迁移到主播内容 Embedding。下面将介绍两类已经实践过的知识迁移方式。

基于蒸馏的知识迁移

当只有 teacher 模型的输出（ ID-Embedding）没有 teacher 模型参数时，下面是一些参考的蒸馏方案参考：

最简单的方式自然是直接把 ID-Embedding 蒸馏到 student 模型的 feature map 上。

在 ID-Embedding 上采用聚类提取伪标签后，student 根据伪标签用分类的方式进行训练。

利用样本之间的关系进行蒸馏，比较经典的方案是 RKD loss，其利用一个 batch 内 ID-Embedding 构造相似度矩阵作为监督信息，让 student 模型学习样本之间的关系。

然而以上的蒸馏方式在存在两点不足：

抗噪能力差：如果 ID-Embedding 噪声较多，student 模型学习到的 Embedding 同样也有很多噪声。

不能充分利用预训练模型：由于是 feature map 层垮了领域，直接蒸馏的会把预训练模型已经学习到的知识破坏，需要在蒸馏过程中加入限制条件。

综上，teacher 模型的性能上限决定了 student 模型的性能上限，在跨域的情况下蒸馏信息也会磨损。

基于对比学习的知识迁移

为了解决直接蒸馏抗噪能力差和不好利用预训练模型的问题，我们采用基于检索构造正样本 + 对比学习进行知识迁移。其中基于检索构造正样本目的是为了数据降噪；对比学习是有监督与图2的结构一样，而正样本来自 query 样本和其相似召回的结果，负样本是 batch 内出自己之外的其他样本，整个训练过程在预训练模型上搭建，能够充分利用预训练模型的优势。

由于 ID-Embedding 是基于用户点击训练的，其相似性并非是内容语义相似，因此将 ID-Embedding 召回结果中不是内容语义相似的样本过滤，过滤的方式有很多种，包括计算编辑距离、利用相似模型计算相似度等方式。

与无监督的对比学习不同的是：有监督的对比学习能够获取困难正/负样本，任务的难度更大，模型在实际场景中使用的时候更鲁棒。

在真实的业务场景中，ID-Embedding 通常噪声比较多，而对比学习的知识迁移中整个数据清洗过程相对可控，训练过程也能很好的预训练模型的优势。

总结

本文探索了无用户点击数据的情况下构建主播 Embedding 的可能方案，实验对比了两类知识迁移的方式，基于对比学习的知识迁移的效果明显优于基于蒸馏的知识迁移，其中数据清洗的过程对最终效果影响较大。主播级别的 Embedding 可用的信息有很多，但 UGC 平台的数据的噪声也是很大，如何对数据降噪和精简显得格外重要；不仅需要处理模态缺失的问题，还要处理模态信息无意义使得召回效果不稳定的问题。未来，将探索更多的数据挖掘方式和模态交互的方案，以更好得描述用户代表的内容倾向。

参考文献

Wu, C., Wu, F., Qi, T., Lian, J., Huang, Y., & Xie, X. (2020). PTUM: Pre-training user model from unlabeled user behaviors via self-supervision. Findings of the Association for Computational Linguistics Findings of ACL: EMNLP 2020, 1939–1944. https://doi.org/10.18653/v1/2020.findings-emnlp.174

Gao, T., Yao, X., & Chen, D. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings. EMNLP 2021 - 2021 Conference on Empirical Methods in Natural Language Processing, Proceedings, 6894–6910. https://doi.org/10.18653/v1/2021.emnlp-main.552

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 1, 4171–4186. https://doi.org/10.48550/arxiv.1810.04805

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. https://doi.org/10.48550/arxiv.1503.02531

Romero, A., Ballas, N., Kahou, S. E., Chassang, A., Gatta, C., & Bengio, Y. (2015, December 19). FitNets: Hints for thin deep nets. 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings. https://doi.org/10.48550/arxiv.1412.6550

Park, W., Kim, D., Lu, Y., & Cho, M. (2019). Relational knowledge distillation. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2019-June, 3962–3971. https://doi.org/10.1109/CVPR.2019.00409

RSI 指标简单介绍

Tue, 12 Jul 2022 00:00:00 GMT

RSI （Relative Strength Index , RSI）称为相对强弱指标，用来衡量一段时间内买盘和卖盘的相对力量的强弱，数值越大表示买盘的力量更强，在技术分析用的比较多。

计算方法

其计算的方式为(一段时间内平均上涨÷这段时间内平均下跌)×100 。形式化地表示为

假设在 n 天内，有a天是涨的，有 b 天是跌的，其中 n=a+b 。

这段时间内的日上涨量总和为：

其中是第 i 天上涨量，是指第 i 天的收盘价。

类似的这段时间内下跌总量为：

RSI 表示则表示这段时间内平均上涨量和平均下跌量的比值，公式为：

其中 N 一般是取7、14。

特性

RSI 指标是不具有时序性的，因为计算的时候不考虑涨跌时候的先后顺序。

在大涨大跌的行情下短时间的 RSI 指标可能不准，这时候可以通过更换计算周期更大的图表，例如把1小时级别的 RSI 换成天级别的 RSI。

RSI 钝化指一段时间内的趋势过于一致导致 RSI 指标出现极端的情况，这时候可能难以反映强弱情况。

RSI 背离指的是 RSI 指标的走势和股价的走势不一致，分为看涨背离和看跌背离：

看涨背离：股价创新低，但是 RSI 指数向上走，意味着买盘越来越强，这时候可以考虑入场做多。
看涨背离：股价创新高，但是 RSI 指数向下走，意味着卖盘越来越强，这时候可以考虑入场做空。

（看跌背离示意图）