<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://cslt.org/mediawiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-cn">
		<id>http://cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=2014-11-19</id>
		<title>2014-11-19 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=2014-11-19"/>
		<link rel="alternate" type="text/html" href="http://cslt.org/mediawiki/index.php?title=2014-11-19&amp;action=history"/>
		<updated>2026-05-10T09:02:01Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.23.3</generator>

	<entry>
		<id>http://cslt.org/mediawiki/index.php?title=2014-11-19&amp;diff=12575&amp;oldid=prev</id>
		<title>Caoli：/* 原因 */</title>
		<link rel="alternate" type="text/html" href="http://cslt.org/mediawiki/index.php?title=2014-11-19&amp;diff=12575&amp;oldid=prev"/>
				<updated>2014-11-19T12:06:51Z</updated>
		
		<summary type="html">&lt;p&gt;‎&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;原因&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class='diff diff-contentalign-left'&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;col class='diff-marker' /&gt;
				&lt;col class='diff-content' /&gt;
				&lt;tr style='vertical-align: top;'&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;←上一版本&lt;/td&gt;
				&lt;td colspan='2' style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;2014年11月19日 (三) 12:06的版本&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第48行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第48行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160; [汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;#160; [汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;过程：&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;过程：&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登机]'score is:29.822336867451668&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/ins&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登机]'score is:29.822336867451668&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]'score is:29.208215907216072&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/ins&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]'score is:29.208215907216072&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登记]'score is:27.493204072117805&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/ins&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登记]'score is:27.493204072117805&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登基]'score is:29.822336867451668&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/ins&gt;[汝, 河, 进行, 开发商, 新建, 房产, 权, 登基]'score is:29.822336867451668&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;test result:汝 河 进 行 开 发 商 新 建 房 产 权 登 记 &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;test result:汝 河 进 行 开 发 商 新 建 房 产 权 登 记 &amp;#160;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Caoli</name></author>	</entry>

	<entry>
		<id>http://cslt.org/mediawiki/index.php?title=2014-11-19&amp;diff=12574&amp;oldid=prev</id>
		<title>Caoli：以“  拼写检查功能模块的测试报告如下:   author CaoLi   date:2014 11.19 =建立测试集= 首先对测试集进行手动改错业务词后再自动分词,...”为内容创建页面</title>
		<link rel="alternate" type="text/html" href="http://cslt.org/mediawiki/index.php?title=2014-11-19&amp;diff=12574&amp;oldid=prev"/>
				<updated>2014-11-19T12:06:02Z</updated>
		
		<summary type="html">&lt;p&gt;以“  拼写检查功能模块的测试报告如下:   author CaoLi   date:2014 11.19 =建立测试集= 首先对测试集进行手动改错业务词后再自动分词,...”为内容创建页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;  拼写检查功能模块的测试报告如下:&lt;br /&gt;
  author CaoLi   date:2014 11.19&lt;br /&gt;
=建立测试集=&lt;br /&gt;
首先对测试集进行手动改错业务词后再自动分词,进行测试.条数:200条.&lt;br /&gt;
例如：&lt;br /&gt;
手动改错业务词：&lt;br /&gt;
   申请班里高领老人紧贴变更和终止的实现&lt;br /&gt;
原句自动分词后：&lt;br /&gt;
   申请 班里 高领 老人 紧贴 变更 和 终止 的 实现&lt;br /&gt;
测试集为:测试集(.\corpus\20141016凉山州\3文本\testJ.txt)前200条,注意是只取每一条对应的问题.&lt;br /&gt;
=评价=&lt;br /&gt;
测试结果的评价标准:&lt;br /&gt;
   正确率=正确识别出需要修改的个体总数/识别出需要修改的个体总数&lt;br /&gt;
   召回率=正确识别出需要修改的个体总数/测试集中存在的需要修改的个体总数&lt;br /&gt;
   准确率=修改对的个体总数/个体总数&lt;br /&gt;
例如:&lt;br /&gt;
正确:&lt;br /&gt;
  我 真 想 办理 身份证 呀. &lt;br /&gt;
测试用例: &lt;br /&gt;
  我 挣 像 办理 神风证 压. &lt;br /&gt;
结果:&lt;br /&gt;
  我 证 想 班里 身份证 压. &lt;br /&gt;
&lt;br /&gt;
动作:&lt;br /&gt;
  我-&amp;gt;我(correct) 像-&amp;gt;想（correct） 办理-&amp;gt;班里（false） 神风证-&amp;gt;身份证(correct) 挣-&amp;gt;证(false) 压-&amp;gt;压(false) &lt;br /&gt;
评价：&lt;br /&gt;
  需要修改: 正确率=3/4. 召回率=3/4. &lt;br /&gt;
  不要修改：正确率=1/2. 召回率=1/2. &lt;br /&gt;
  准确率:3/6&lt;br /&gt;
&lt;br /&gt;
=测试结果=&lt;br /&gt;
1.使用的语言模型:使用训练集&amp;lt;凉山州政务知识训练集1016.xls&amp;gt;中的&amp;lt;标准问题 答案&amp;gt;训练的3-gram语言模型.（详细结果见test-model-RESULT.txt）&lt;br /&gt;
&lt;br /&gt;
RESULT: &lt;br /&gt;
  需要修改:正确率:498/498 = 1.0          召回率: 498/881 = 0.565266&lt;br /&gt;
  不要修改:正确率:2228/2611 = 0.853313   召回率:  2228/2228 = 1.0 &lt;br /&gt;
  准确率 :2678/3109 = 0.861370&lt;br /&gt;
    &lt;br /&gt;
=结果分析=&lt;br /&gt;
&lt;br /&gt;
根据上面的结果发现召回率较低，&lt;br /&gt;
&lt;br /&gt;
==原因==&lt;br /&gt;
&lt;br /&gt;
可能的原因为：由于是先手动改错业务词再根据词表自动分词的。故系统有可能将一个业务词分成了好几个词。&lt;br /&gt;
&lt;br /&gt;
例如：&lt;br /&gt;
 [汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]&lt;br /&gt;
过程：&lt;br /&gt;
[汝, 河, 进行, 开发商, 新建, 房产, 权, 登机]'score is:29.822336867451668&lt;br /&gt;
[汝, 河, 进行, 开发商, 新建, 房产, 权, 等级]'score is:29.208215907216072&lt;br /&gt;
[汝, 河, 进行, 开发商, 新建, 房产, 权, 登记]'score is:27.493204072117805&lt;br /&gt;
[汝, 河, 进行, 开发商, 新建, 房产, 权, 登基]'score is:29.822336867451668&lt;br /&gt;
test result:汝 河 进 行 开 发 商 新 建 房 产 权 登 记 &lt;br /&gt;
&lt;br /&gt;
分析：&lt;br /&gt;
由于上面将“汝河”分成了“汝”，“河”两个词,系统就不会对词“汝河”进行重新组合并打分。&lt;br /&gt;
&lt;br /&gt;
把改错的业务词分开的所占的比重：44/98=0.448979&lt;br /&gt;
&lt;br /&gt;
例如：&lt;br /&gt;
架势证 ------架势  证&lt;br /&gt;
&lt;br /&gt;
==改进==&lt;br /&gt;
&lt;br /&gt;
可能的改进方法：&lt;br /&gt;
&lt;br /&gt;
我们可以用拼音进行分词，但目前还未采取那样做。&lt;/div&gt;</summary>
		<author><name>Caoli</name></author>	</entry>

	</feed>