“L2r 集成问答系统”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
liangshanzhou data
Lr讨论 | 贡献
liangshanzhou data
 
(相同用户的12个中间修订版本未显示)
第6行: 第6行:
 
:* testJ
 
:* testJ
 
* feature
 
* feature
:*  
+
:* feature1
QuestionMatchDefaultScore,//问题模板tf*idf分数
+
    QuestionMatchDefaultScore,//问题模板tf*idf分数
StandardQuestionMatchDefaultScore,//标准问题tf*idf分数
+
    StandardQuestionMatchDefaultScore,//标准问题tf*idf分数
 
     QuestionMatchBM25Score,//问题模板匹配BM25分数
 
     QuestionMatchBM25Score,//问题模板匹配BM25分数
 
     StandardQuestionMatchBM25Score,//标准问题BM25分数
 
     StandardQuestionMatchBM25Score,//标准问题BM25分数
第19行: 第19行:
 
     QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数
 
     QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数
 
     StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数
 
     StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数
      
+
     QuestionLength,//问题模板的长度
QuestionLength,//问题模板的长度
+
    StandardQuestionLength,//标准问题的长度
StandardQuestionLength,//标准问题的长度
+
    QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值
+
    QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值
 +
    QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0
 +
    QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0
 +
    QuestionHaveNER,//问题模板是否含有命名体识别
 +
    StandardQuestionHaveNER, // //标准问题是否含有命名体识别
 +
 
 +
:* feature2
 +
    QuestionMatchDefaultScore,//问题模板tf*idf分数
 +
    QuestionLength,//问题模板的长度
 +
    StandardQuestionLength,//标准问题的长度
 
     QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值
 
     QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值
 
     QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值
 
     QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值
   
 
 
     QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0
 
     QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0
 
     QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0  
 
     QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0  
   
 
 
     QuestionHaveNER,//问题模板是否含有命名体识别  
 
     QuestionHaveNER,//问题模板是否含有命名体识别  
 
     StandardQuestionHaveNER, // //标准问题是否含有命名体识别
 
     StandardQuestionHaveNER, // //标准问题是否含有命名体识别
第35行: 第42行:
 
::*Correct Rate:0.6165413533834586
 
::*Correct Rate:0.6165413533834586
 
::* time(ms):avg(4.41)/max(112)
 
::* time(ms):avg(4.41)/max(112)
:* lucene and l2r with sgd
+
::* coverage(50):0.8959899749373433
 +
:*  l2r-stochasctic method with feature2
 
::* correct rate:0.6491228070175439
 
::* correct rate:0.6491228070175439
::* time:avg(81.63)/max(260)
+
::* time(ms):avg(81.63)/max(260)
::* feature:
+
::* coverage(50):0.8959899749373433
:* lucene and l2r with listNet
+
:* l2r-listNet method with feature2
 
::* correct rate:0.6422305764411027
 
::* correct rate:0.6422305764411027
::* time:avg(79)/max(289)
+
::* time(ms):avg(79)/max(289)
::* feature:
+
::* coverage(50):0.8959899749373433
 +
 
 +
:* l2r-stochasctic method with feature1
 +
::* correct rate:0.6278195488721805
 +
::* time(ms):avg(377)/max(1133)
 +
::* coverage(50):0.8978696741854637
 +
:* l2r-listNet method with feature1
 +
::* correct rate:0.6278195488721805
 +
::* time(ms):avg(369)/max(1076)
 +
::* coverage(50):0.8978696741854637

2015年5月21日 (四) 08:14的最后版本

test record

liangshanzhou data

  • knowledge data:凉山州政务知识训练集1016
  • test data
  • test num:1596
  • testJ
  • feature
  • feature1
   QuestionMatchDefaultScore,//问题模板tf*idf分数
   StandardQuestionMatchDefaultScore,//标准问题tf*idf分数
   QuestionMatchBM25Score,//问题模板匹配BM25分数
   StandardQuestionMatchBM25Score,//标准问题BM25分数
   QuestionMatchDFRScore,//问题模板匹配DFR分数
   StandardQuestionMatchDFRScore,//标准问题DFR分数
   QuestionMatchIBScore,//问题模板匹配IB分数
   StandardQuestionMatchIBScore,//标准问题IB分数
   QuestionMatchLMDirichletScore,//问题模板匹配LMDirichlet分数
   StandardQuestionMatchLMDirichletScore,//标准问题LMDirichlet分数
   QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数
   StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数
   QuestionLength,//问题模板的长度
   StandardQuestionLength,//标准问题的长度
   QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值
   QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值
   QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0
   QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 
   QuestionHaveNER,//问题模板是否含有命名体识别 
   StandardQuestionHaveNER, // //标准问题是否含有命名体识别
  • feature2
   QuestionMatchDefaultScore,//问题模板tf*idf分数
   QuestionLength,//问题模板的长度
   StandardQuestionLength,//标准问题的长度
   QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值
   QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值
   QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0
   QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 
   QuestionHaveNER,//问题模板是否含有命名体识别 
   StandardQuestionHaveNER, // //标准问题是否含有命名体识别
  • test result
  • only lucene
  • Correct Rate:0.6165413533834586
  • time(ms):avg(4.41)/max(112)
  • coverage(50):0.8959899749373433
  • l2r-stochasctic method with feature2
  • correct rate:0.6491228070175439
  • time(ms):avg(81.63)/max(260)
  • coverage(50):0.8959899749373433
  • l2r-listNet method with feature2
  • correct rate:0.6422305764411027
  • time(ms):avg(79)/max(289)
  • coverage(50):0.8959899749373433
  • l2r-stochasctic method with feature1
  • correct rate:0.6278195488721805
  • time(ms):avg(377)/max(1133)
  • coverage(50):0.8978696741854637
  • l2r-listNet method with feature1
  • correct rate:0.6278195488721805
  • time(ms):avg(369)/max(1076)
  • coverage(50):0.8978696741854637