Skip to content

文本处理 #6

@FrankHB

Description

@FrankHB

先加一个列表。部分内容待合并。

  • 体例
    • 内容结构
      • 优化内容划分
      • 新建页面?
      • 如何链接现有页面
    • 进度计划
  • 基本介绍
    • 保留提纲
    • 基本概念:字符、字符串、字符集、字符编码、文本……
    • 补充其它概要内容
    • 拆分内容到以下列表
  • 相关接口设计
    • 数学模型
      • 字符集合/字母表
        • 基准形式定义参考
        • 串和字符列表
        • 形式语言和文本处理中的差异
    • 语言提供的接口
      • 字符和纯量类型
      • 编码字符和整数类型
      • 向量和字符串
    • 优化实现
      • 只读对象
        • 池(pool)
        • 对象驻留(intern)
        • 二进制映像的只读数据节
        • 语言运行时中的只读压缩存储
      • 写时复制(COW, copy-on-write)
      • 小字符串优化(SSO, small string optimization)
      • 体系结构相关优化:字符串操作
    • 历史遗留问题和现状
      • “字符”类型的语义问题
        • 字符和字节(byte)
      • 面向文本引起的问题
      • 本地化问题
      • 接口实现的二进制兼容性问题
  • 其它特定用途的高层实现方式
    • 非编辑用途的只读数据结构(阅读器和浏览器)
    • 优化搜索的数据结构和算法
    • 纯文本编辑器
    • 富文本编辑器
    • 结构化编辑器
    • 源代码编辑器
  • 选型问题
    • 一般建议
      • 明确用途
      • 区分外部编码和内部编码(参见以下关于 UTF-8 的讨论)
    • Unicode

Metadata

Metadata

Assignees

Labels

featureFeature request

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions