“L2r 集成问答系统”版本间的差异
来自cslt Wiki
(→liangshanzhou data) |
(→liangshanzhou data) |
||
第6行: | 第6行: | ||
:* testJ | :* testJ | ||
* feature | * feature | ||
− | :* | + | :* feature1 |
− | QuestionMatchDefaultScore,//问题模板tf*idf分数 | + | QuestionMatchDefaultScore,//问题模板tf*idf分数 |
− | + | StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 | |
QuestionMatchBM25Score,//问题模板匹配BM25分数 | QuestionMatchBM25Score,//问题模板匹配BM25分数 | ||
StandardQuestionMatchBM25Score,//标准问题BM25分数 | StandardQuestionMatchBM25Score,//标准问题BM25分数 | ||
第19行: | 第19行: | ||
QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 | QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 | ||
StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 | StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 | ||
− | + | QuestionLength,//问题模板的长度 | |
− | + | StandardQuestionLength,//标准问题的长度 | |
− | + | ||
− | + | ||
QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | ||
QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | ||
− | |||
QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | ||
QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | ||
− | |||
QuestionHaveNER,//问题模板是否含有命名体识别 | QuestionHaveNER,//问题模板是否含有命名体识别 | ||
StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | StandardQuestionHaveNER, // //标准问题是否含有命名体识别 |
2015年5月21日 (四) 05:43的版本
test record
liangshanzhou data
- knowledge data:凉山州政务知识训练集1016
- test data
- test num:1596
- testJ
- feature
- feature1
QuestionMatchDefaultScore,//问题模板tf*idf分数 StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 QuestionMatchBM25Score,//问题模板匹配BM25分数 StandardQuestionMatchBM25Score,//标准问题BM25分数 QuestionMatchDFRScore,//问题模板匹配DFR分数 StandardQuestionMatchDFRScore,//标准问题DFR分数 QuestionMatchIBScore,//问题模板匹配IB分数 StandardQuestionMatchIBScore,//标准问题IB分数 QuestionMatchLMDirichletScore,//问题模板匹配LMDirichlet分数 StandardQuestionMatchLMDirichletScore,//标准问题LMDirichlet分数 QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 QuestionLength,//问题模板的长度 StandardQuestionLength,//标准问题的长度 QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 QuestionHaveNER,//问题模板是否含有命名体识别 StandardQuestionHaveNER, // //标准问题是否含有命名体识别
- test result
- only lucene
- Correct Rate:0.6165413533834586
- time(ms):avg(4.41)/max(112)
- lucene and l2r with sgd
- correct rate:0.6491228070175439
- time:avg(81.63)/max(260)
- feature:
- lucene and l2r with listNet
- correct rate:0.6422305764411027
- time:avg(79)/max(289)
- feature: