hash表key和value直间以 \t 隔开,\n换行。 entity.txt 解读为: [[台湾语]] [[大陆语]] [[]] [[]] [[大陆语]] [[]] [[英文翻译]] [[]] 这样看 entity.txt 中是有一些噪声的。 词表统计 只统计了被收录入 wiki.tw-cn.txt 中的词。其余的未统计。