笔记

byte pair encoding (BPE)
Word-Piece
uni-gram language model segmentation
transparent orthographies 中文发音不在拼写上表现
俄文有morphological inflection，中文没有
method
- encoding方式
  - 拼音
    - 汉语拼音
    - 注音符号
  - 象形（存在问题，如“人“和“八”的笔画编码相同，做了一定处理，但还是存在重复情况）
    - 五笔
    - 仓颉
    - 笔画（stroke）
    - 郑码
  - 分隔符
- vocab construction
  - 分割后的sub-char token、原本的字符token、高频词token（见下）
  - （可选）中文字符组合token，在分词时和sub-char结合使用，常用词直接进入vocab
  - 分词方法：THULAC
  - 其他：构建词表时word token
- 结果：input，如果在vocab则返回token，如果不在则用sub-char

思考

拼音作subchar能否帮助缓解中文typo问题？
如果是用subchar的方式，能否使大模型更能捕捉concept之间的联系？（还是说作为addon？）

明白了，你希望将你提供的笔记内容进行详细扩写。下面我将逐一扩展每个笔记点，解释和补充相关的背景、概念和思考。

1. Byte Pair Encoding (BPE)

Byte Pair Encoding（BPE）是一种文本数据压缩方法，最初用于压缩文本，但后来被广泛应用于自然语言处理（NLP）任务中，尤其是用于子词级别的词汇切分（tokenization）。BPE通过合并最频繁的字符对来逐步构建新的词汇单元，从而实现对大规模文本的高效表示。

应用背景：
在NLP中，BPE帮助减少词汇表大小，并能够有效处理词形变化和低频词的问题。例如，英语单词“unhappiness”可以被分割为“un”, “happiness”这样较小的单位，而不是作为一个整体词汇进行处理。

优点：

处理未知词或低频词时表现较好。
可以有效减少词汇表的大小。
更好地应对形态学变化（如词缀、复合词等）。

缺点：

对语言的语法和语义理解不如基于词汇的模型。
在某些语言中（如中文），会丧失某些单词的语义信息。

2. Word-Piece

Word-Piece与BPE类似，也是一种基于子词的词汇切分方法。其核心思想是通过最大化数据集中的语言模型概率来确定最优的子词单元。Word-Piece最著名的应用是在Google的BERT模型中，采用了Word-Piece作为tokenizer。

应用背景： Word-Piece方法是BPE的改进版本，它不单纯通过频率来合并字对，而是通过最大化语言模型的概率来确定每个子词单元的划分。通过这种方式，可以获得更好的语言模型表现。

优点：

通过高效的子词拆分，能够处理OOV（out-of-vocabulary）问题。
更能有效处理拼写变体和形态学变化。

缺点：

对某些语言的表现可能不如BPE，尤其是对于形态学结构较复杂的语言。
仍然可能丢失部分词汇的语义信息。

3. Uni-gram Language Model Segmentation

Uni-gram语言模型分词是一种基于概率的分词方法，其中每个词被认为是一个独立的单位，且由训练数据中的频率来决定分词的概率。在这种方法中，通过计算词语出现的概率来决定最可能的分割点。

应用背景： 在中文等没有明确分词符号的语言中，uni-gram模型可以帮助实现自动分词。通过计算每个字或词在语料库中的频率，选择概率最高的分割点，从而将文本拆分成合理的词汇单元。

优点：

实现简单，计算速度快。
不依赖于大量的上下文信息，适用于无标注数据的情况。

缺点：

对于长文本中的多义词或低频词，效果可能较差。
忽视上下文信息，可能导致错误分词。

4. Transparent Orthographies (中文发音不在拼写上表现)

透明正字法（Transparent Orthographies）是指在书写系统中，字符的拼写直接反映了语言的发音特征。对于中文来说，汉字的拼音不完全与其书写形式对应，且一字多音、同音字现象十分普遍。

中文的特点：

拼音与字形分离：中文的拼音（发音）和汉字的形态（字形）并不直接相关。一个字可能有多种发音，而相同的发音可能对应多个字形。例如，“行”字既可以读作“xíng”（行走）也可以读作“háng”（银行）。
同音字问题：中文中有大量的同音字，它们在拼音上是一样的，但在语义和使用上完全不同。

对NLP的影响：

由于拼音和汉字的书写形式并不直接一致，这使得中文处理比拼音语言更加复杂。
同音字的存在也加大了文本处理的难度，尤其是在语音识别和拼写纠错任务中。

5. 俄文有Morphological Inflection，中文没有

形态变化（Morphological Inflection）是指词形的变化，以表达语法关系，如时态、复数、性别、格等。在俄语等屈折语中，词汇会根据语法需求发生变化，如动词根据时态变化，名词根据格变化等。而中文则不同，中文通常通过词序、虚词等方式表达语法关系，几乎没有像俄语那样的词形变化。

中文的特点：

没有形态变化：中文词汇本身不会因为语法要求而变化，通常依赖语境和其他语言元素（如助词、介词等）来表示语法意义。
依赖上下文：中文的句法理解很大程度依赖上下文，单一词语往往没有足够的信息表达完整的语法结构。

对NLP的影响：

中文的“非屈折性”使得句子中词汇的顺序更加重要，而不像屈折语那样，形态变化直接反映了句子的语法信息。
这也使得中文在处理时常常依赖于上下文信息，语义解析与句法分析更加复杂。

6. 子字符编码的方式

子字符编码（Sub-Character Tokenization）是指将汉字分解为更小的单位（如拼音、笔画或其他形式的子字符）进行处理。这种方法的优势是能够减少词汇表的大小，并能够处理低频词、未知词。

编码方式：

拼音：使用汉字的拼音作为子字符，能够通过拼音的发音特征来处理汉字。拼音编码特别适用于处理错别字、同音字等问题。
象形：利用象形文字（如“人”字的形状）进行编码。这种方法面临的一大问题是，不同的字形可能代表相似或相同的形态（如“人”和“八”字的笔画编码相同），需要进行额外的处理。
五笔、仓颉、笔画、郑码：这些方法通过对汉字的形态进行编码，基于笔画或形状来拆分汉字。虽然这些方法能降低词汇表的大小，但同样可能会在低频词和字形复杂的汉字中产生信息丢失。

分词方法：

THULAC：THULAC是一种中文分词工具，它能够通过词典匹配和统计模型相结合的方式进行高效分词，常用于中文文本的分词处理。

7. 构建词表（Vocabulary Construction）

在处理中文文本时，构建词汇表是非常重要的一步。词汇表的构建方法直接影响到模型的训练和文本的处理效果。通常的构建方式包括：

子字符token：将文本中的每个字分解为子字符（如拼音、笔画等）。
原字符token：保留文本中的原始汉字作为token。
高频词token：直接使用文本中出现频率较高的词汇作为token，以减少频繁出现的词的编码复杂度。

通过结合子字符和原字符token的方式，可以最大化保留信息并降低词汇表的复杂度。

8. 拼音作subchar能否帮助缓解中文typo问题？

拼音作为子字符编码的一个潜在优势是，它可以减少中文中的拼写错误（typo）对模型预测结果的影响。例如，当一个用户打错字时，拼音仍然能够提供语音上的正确线索，从而减小错误的影响。然而，这也取决于拼音在中文上下文中的使用效果，拼音化可能无法完全解决同音字或多音字的问题。

9. Subchar能否增强大模型捕捉概念之间的联系？

使用子字符编码可以帮助模型在低频词或未知词的处理上更加灵活，并可能促进模型捕捉到更多细粒度的语言关系，尤其是在子词级别的语义关联。但是否能在概念层面上增强模型的理解，取决于子字符编码的使用方式及其与原始字符token的结合。子字符编码作为补充信息使用时，可以帮助模型捕捉更多语言结构和概念的关系。

希望这个详细扩写能帮助你更好地理解各个概念及其

Roy's Cafe

探索

Sub-Character Tokenization for Chinese Pretrained Language Models

笔记

思考

1. Byte Pair Encoding (BPE)

2. Word-Piece

3. Uni-gram Language Model Segmentation

4. Transparent Orthographies (中文发音不在拼写上表现)

5. 俄文有Morphological Inflection，中文没有

6. 子字符编码的方式

7. 构建词表（Vocabulary Construction）

8. 拼音作subchar能否帮助缓解中文typo问题？

9. Subchar能否增强大模型捕捉概念之间的联系？

关系图谱

目录

反向链接