做了下调研,看到了一些关于中文歧义的笑话,比如《佟大为妻子生下一女婴》——跟帖:“佟大是谁啊?这么厉害!能生孩子!” ,被中文分词所吸引。
看了很多文章,然而对这方面的理论和知识都不熟悉,初看文章都是各种算法和基于统计的数学模型,发现给自己挖了个大坑。
找到哈工大的在线分词系统,对上面这段笑话能正确分出;而后在研究生学长的推荐下,看了下中科院的中文分词库,蛮实用的。
要不是有这些现成的系统,课题后续工作很难做下去的,从头做起也是件吃力不讨好的事情。
在这调研的过程中,学到很多知识,虽然对这个课题不大有帮助。
- 找到了好几个非常不错的博客,了解很多知名IT公司的起源与计算机历史
- 一系列关于数学的文章,数学这么有趣
- 懂了索引系统的原理,找到个全文搜索引擎
这个课题的领域是在自然语言处理之下的,而自然语言处理又是个交叉学科,融合了很多其他的专业知识,知识浩瀚呢。
虽然不一定能把课题做得很好,但在这段过程中也算积累了一些旁门左道的知识。不然也没机会接触这些东西。尽力而为,做完这个课题。
没有评论:
发表评论