tokenizer是为了将输入输出根据vocabulary,在ID与词句间互相映射 tokenizer通常是静态的,是Embedding的前置操作 tokenizer本身不是神经网络架构,说train a tokenizer的时候指的是用特定文本或特定方法来训练一个特有的train,而在实际应用到NLP模型的训练时不与其他weight一起训练,仅仅是作为前置处理