创新点
医用编码(ICD等)在机器学习、深度学习中一般是无监督学习这些feature,在某些小的疾病划分上效果不好,需求数据量大,现实中某些疾病的EHR数据量较小。因此采用一种名为Prediction Task Guided Health Record Aggregation (PTGHRA)的方法进行医学编码的词向量转换。
知识点
-
词向量的历史
- Latent Semantic Analysis (LSA)
- tensor decomposition
- Skip-gram and Continuous Bag-of-words (word2vec)
-
medical sentence construction (暂译:医学句子构建)
对于常见的NLP任务(如文本分类),医学编码(如ICD)等内容如果作为特征时过于离散,通常是将其转换为自然语言、组成句子(medical sentence)后再进行模型训练
-
作者提出的PTGHRA
- 概述:以前的方法通常是直接把一个EHR里的code转换成自然语言后结合在一起形成句子,作者提出的方法是先将EHR根据预测任务聚类(如成本预测结果、 LoS 预测结果)后,再用同一组的随机EHR构建medical sentence
- 详细过程
- 选择guiding task(指导任务),确定task’s subinterval。例如,将成本预测任务的结果值划分为低、中、高三档,即三个subintervals。聚类时可选作者提出的三种标准:
- Equal value:只有和subinterval值完全相等的才能聚类。即有多少值则聚多少类(适用于离散型数据)
- Equal width:只有在subinterval’s range中的才聚类,所有range等宽(适用于连续型数据)
- Percentile:同equal width,但不等宽,而是按值排序后再按百分位数划分(适用于连续型、等级型数据)
- 对于每个类的records,随机抽取编码并构建medical sentence
- 将构建好的medical sentence和guiding task值应用于LSA、Skip-gram、CBOW三种词向量模型训练过程,
- 选择guiding task(指导任务),确定task’s subinterval。例如,将成本预测任务的结果值划分为低、中、高三档,即三个subintervals。聚类时可选作者提出的三种标准:
-
整体任务流程
- 输入EHR data(在本文中是结构化的),medical codes用PTGHRA处理后,进入word2vec,得到词向量。其他信息用one-hot等方式进行编码得到feature vector
- 各个vector进行连接(直接连接就行),输入预测模型。预测模型训练时也是将组合vector作为输入
- 得到最终预测结果,评估性能