创新点

医用编码(ICD等)在机器学习、深度学习中一般是无监督学习这些feature,在某些小的疾病划分上效果不好,需求数据量大,现实中某些疾病的EHR数据量较小。因此采用一种名为Prediction Task Guided Health Record Aggregation (PTGHRA)的方法进行医学编码的词向量转换。

知识点

  • 词向量的历史

    • Latent Semantic Analysis (LSA)
    • tensor decomposition
    • Skip-gram and Continuous Bag-of-words (word2vec)
  • medical sentence construction (暂译:医学句子构建)

    对于常见的NLP任务(如文本分类),医学编码(如ICD)等内容如果作为特征时过于离散,通常是将其转换为自然语言、组成句子(medical sentence)后再进行模型训练

  • 作者提出的PTGHRA

    • 概述:以前的方法通常是直接把一个EHR里的code转换成自然语言后结合在一起形成句子,作者提出的方法是先将EHR根据预测任务聚类(如成本预测结果、 LoS 预测结果)后,再用同一组的随机EHR构建medical sentence
    • 详细过程
      • 选择guiding task(指导任务),确定task’s subinterval。例如,将成本预测任务的结果值划分为低、中、高三档,即三个subintervals。聚类时可选作者提出的三种标准:
        • Equal value:只有和subinterval值完全相等的才能聚类。即有多少值则聚多少类(适用于离散型数据)
        • Equal width:只有在subinterval’s range中的才聚类,所有range等宽(适用于连续型数据)
        • Percentile:同equal width,但不等宽,而是按值排序后再按百分位数划分(适用于连续型、等级型数据)
      • 对于每个类的records,随机抽取编码并构建medical sentence
      • 将构建好的medical sentence和guiding task值应用于LSA、Skip-gram、CBOW三种词向量模型训练过程,
  • 整体任务流程

    • 输入EHR data(在本文中是结构化的),medical codes用PTGHRA处理后,进入word2vec,得到词向量。其他信息用one-hot等方式进行编码得到feature vector
    • 各个vector进行连接(直接连接就行),输入预测模型。预测模型训练时也是将组合vector作为输入
    • 得到最终预测结果,评估性能