创新点

医用编码（ICD等）在机器学习、深度学习中一般是无监督学习这些feature，在某些小的疾病划分上效果不好，需求数据量大，现实中某些疾病的EHR数据量较小。因此采用一种名为Prediction Task Guided Health Record Aggregation (PTGHRA)的方法进行医学编码的词向量转换。

知识点

词向量的历史
- Latent Semantic Analysis (LSA)
- tensor decomposition
- Skip-gram and Continuous Bag-of-words (word2vec)
medical sentence construction （暂译：医学句子构建）

对于常见的NLP任务（如文本分类），医学编码（如ICD）等内容如果作为特征时过于离散，通常是将其转换为自然语言、组成句子（medical sentence）后再进行模型训练
作者提出的PTGHRA
- 概述：以前的方法通常是直接把一个EHR里的code转换成自然语言后结合在一起形成句子，作者提出的方法是先将EHR根据预测任务聚类（如成本预测结果、 LoS 预测结果）后，再用同一组的随机EHR构建medical sentence
- 详细过程
  - 选择guiding task（指导任务），确定task’s subinterval。例如，将成本预测任务的结果值划分为低、中、高三档，即三个subintervals。聚类时可选作者提出的三种标准：
    - Equal value：只有和subinterval值完全相等的才能聚类。即有多少值则聚多少类（适用于离散型数据）
    - Equal width：只有在subinterval’s range中的才聚类，所有range等宽（适用于连续型数据）
    - Percentile：同equal width，但不等宽，而是按值排序后再按百分位数划分（适用于连续型、等级型数据）
  - 对于每个类的records，随机抽取编码并构建medical sentence
  - 将构建好的medical sentence和guiding task值应用于LSA、Skip-gram、CBOW三种词向量模型训练过程，
整体任务流程
- 输入EHR data（在本文中是结构化的），medical codes用PTGHRA处理后，进入word2vec，得到词向量。其他信息用one-hot等方式进行编码得到feature vector
- 各个vector进行连接（直接连接就行），输入预测模型。预测模型训练时也是将组合vector作为输入
- 得到最终预测结果，评估性能

Roy's Cafe

探索

Prediction task guided representation learning of medical codes in EHR

创新点

知识点

关系图谱

目录

反向链接