草 稿

多语言tokenization系统构建

针对有词边界(如空格)语言的tokenization工具构建一般流程。常常是基于规则。中、日、泰等语言往往需要模型来做分词,不在此处考虑。

  1. 选择规则解析系统

    正则? 词法分析器?

    推荐后者,具体的如Flex 、Re2c

  2. 创建规则,考虑:

  3. - 标点系统

  4. - 字母表

  5. - 数字形式

  6. - 缩略词

  7. - 单引号

  8. - 连字符

  9. - 单位词

  10. - 简单命名实体

率先点赞

评论(0