“L2r 集成问答系统”版本间的差异
来自cslt Wiki
(→liangshanzhou data) |
(→liangshanzhou data) |
||
(相同用户的12个中间修订版本未显示) | |||
第6行: | 第6行: | ||
:* testJ | :* testJ | ||
* feature | * feature | ||
− | :* | + | :* feature1 |
− | QuestionMatchDefaultScore,//问题模板tf*idf分数 | + | QuestionMatchDefaultScore,//问题模板tf*idf分数 |
− | + | StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 | |
QuestionMatchBM25Score,//问题模板匹配BM25分数 | QuestionMatchBM25Score,//问题模板匹配BM25分数 | ||
StandardQuestionMatchBM25Score,//标准问题BM25分数 | StandardQuestionMatchBM25Score,//标准问题BM25分数 | ||
第19行: | 第19行: | ||
QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 | QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 | ||
StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 | StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 | ||
− | + | QuestionLength,//问题模板的长度 | |
− | + | StandardQuestionLength,//标准问题的长度 | |
− | + | QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | |
− | + | QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | |
+ | QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | ||
+ | QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | ||
+ | QuestionHaveNER,//问题模板是否含有命名体识别 | ||
+ | StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | ||
+ | |||
+ | :* feature2 | ||
+ | QuestionMatchDefaultScore,//问题模板tf*idf分数 | ||
+ | QuestionLength,//问题模板的长度 | ||
+ | StandardQuestionLength,//标准问题的长度 | ||
QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | ||
QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | ||
− | |||
QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | ||
QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | ||
− | |||
QuestionHaveNER,//问题模板是否含有命名体识别 | QuestionHaveNER,//问题模板是否含有命名体识别 | ||
StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | ||
第35行: | 第42行: | ||
::*Correct Rate:0.6165413533834586 | ::*Correct Rate:0.6165413533834586 | ||
::* time(ms):avg(4.41)/max(112) | ::* time(ms):avg(4.41)/max(112) | ||
− | :* | + | ::* coverage(50):0.8959899749373433 |
+ | :* l2r-stochasctic method with feature2 | ||
::* correct rate:0.6491228070175439 | ::* correct rate:0.6491228070175439 | ||
− | ::* time:avg(81.63)/max(260) | + | ::* time(ms):avg(81.63)/max(260) |
− | ::* | + | ::* coverage(50):0.8959899749373433 |
− | :* | + | :* l2r-listNet method with feature2 |
::* correct rate:0.6422305764411027 | ::* correct rate:0.6422305764411027 | ||
− | ::* time:avg(79)/max(289) | + | ::* time(ms):avg(79)/max(289) |
− | ::* | + | ::* coverage(50):0.8959899749373433 |
+ | |||
+ | :* l2r-stochasctic method with feature1 | ||
+ | ::* correct rate:0.6278195488721805 | ||
+ | ::* time(ms):avg(377)/max(1133) | ||
+ | ::* coverage(50):0.8978696741854637 | ||
+ | :* l2r-listNet method with feature1 | ||
+ | ::* correct rate:0.6278195488721805 | ||
+ | ::* time(ms):avg(369)/max(1076) | ||
+ | ::* coverage(50):0.8978696741854637 |
2015年5月21日 (四) 08:14的最后版本
test record
liangshanzhou data
- knowledge data:凉山州政务知识训练集1016
- test data
- test num:1596
- testJ
- feature
- feature1
QuestionMatchDefaultScore,//问题模板tf*idf分数 StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 QuestionMatchBM25Score,//问题模板匹配BM25分数 StandardQuestionMatchBM25Score,//标准问题BM25分数 QuestionMatchDFRScore,//问题模板匹配DFR分数 StandardQuestionMatchDFRScore,//标准问题DFR分数 QuestionMatchIBScore,//问题模板匹配IB分数 StandardQuestionMatchIBScore,//标准问题IB分数 QuestionMatchLMDirichletScore,//问题模板匹配LMDirichlet分数 StandardQuestionMatchLMDirichletScore,//标准问题LMDirichlet分数 QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 QuestionLength,//问题模板的长度 StandardQuestionLength,//标准问题的长度 QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 QuestionHaveNER,//问题模板是否含有命名体识别 StandardQuestionHaveNER, // //标准问题是否含有命名体识别
- feature2
QuestionMatchDefaultScore,//问题模板tf*idf分数 QuestionLength,//问题模板的长度 StandardQuestionLength,//标准问题的长度 QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 QuestionHaveNER,//问题模板是否含有命名体识别 StandardQuestionHaveNER, // //标准问题是否含有命名体识别
- test result
- only lucene
- Correct Rate:0.6165413533834586
- time(ms):avg(4.41)/max(112)
- coverage(50):0.8959899749373433
- l2r-stochasctic method with feature2
- correct rate:0.6491228070175439
- time(ms):avg(81.63)/max(260)
- coverage(50):0.8959899749373433
- l2r-listNet method with feature2
- correct rate:0.6422305764411027
- time(ms):avg(79)/max(289)
- coverage(50):0.8959899749373433
- l2r-stochasctic method with feature1
- correct rate:0.6278195488721805
- time(ms):avg(377)/max(1133)
- coverage(50):0.8978696741854637
- l2r-listNet method with feature1
- correct rate:0.6278195488721805
- time(ms):avg(369)/max(1076)
- coverage(50):0.8978696741854637