作业帮 > 综合 > 作业

支持向量机(svm)的问题!

来源:学生作业帮 编辑:作业帮 分类:综合作业 时间:2024/05/16 00:27:41
支持向量机(svm)的问题!
我有 已经做好了词性标注和组块标注的txt文件,如何用svm训练样本,来给以后没做过标注的文档做组块标注.希望具体点呀!
1 如何把文件弄成svm识别的样式
2 该如何选取特征,而且特征好像都是数字,而做的标记不是数字呀
3 以后训练和测试出好的modle了后,如何把一个没做标记的文本文档做上组块标记
已经标好的文档示例:
当前 /t TP-B
在 /p PP-B
我国 /n PP-I
农村 /n PP-I
,/wd O
农民 /n NP-B
科学 /ad NP-I
种田 /vn NP-I
的 /ude1 DE-B
意识 /n NP-B
越来越 /d AP-B
强 /a AP-I
./wj O
哎,如何把字符性的特征搞成 libsvm可以识别的数字型的特征呀 呜呜呜
向量机不是万能的.像你这种文本识别用模糊文本聚类会有比较好的结果.
如果你非要用向量机,关键就是把你的信息转化成向量.而这将是一件很复杂的事情,我给出如下例子 (词所在类,词性,字数,褒贬中的特性,...)后面你可以按照我给的继续加
类:比如农业(1),工业(2)...词性:动词(1) 名词(5)...字数...褒(1)贬(2)中性(3)
设置向量的时候,你要根据那个维度的向量对于判别更重要,那么其不同类的值的差距要拉开.如果你觉得词性很重要那么名词(10)动词(20) 就这么多吧 你先看看效果,