Hulan-2014-10-17
来自cslt Wiki
目录
Dialog system
plan to be done
- Spell mistake : xingchao
- using ngram to get candidate sentence.
- order problem : liurong
- add vsm and BM25 to strengthen the ability of search.
- Synonyms word to extract information.like "办理"->"办",“办理”
- the good IDF to suit the government domain.may the word important from Sogou search.
- tag
plan to discuss
- Structured Knowledge from duxingkai
- template structure :{本体类}-{范围,限定}-{动作}:{户口}-{木里县,残疾人}-{办理,补办},办理项模板:{办理流程,如何办理}
- knowledge map: ontology , instance and action. it is to presented to the user.
- Structure Knowledge from teacher wang
- Template information:
- 33
建议
- 模板信息利用
- 属性的添加,及属性对应的答案对应。主要属性的形式如何来设定。例如:如何办理户口-{木里县}:具体咨询当地相关部门。
- 树形结构的建立,既知识的从属性和答案的对应。复杂问题的回答需要答案组合,树形选择及抽取。如"我该怎么办理户口呢" -> [户口] [办理] -> answer."我该怎么办理户口呢,具体流程是什么" -> [户口] [办理] [流程]-> answer
- 知识表示的建立
- 如何建立树形知识表示,需要详细讨论考虑,有如下现有的技术。
- 特定领域的本体表示(如书,歌曲,歌手),可利用关系数据库
- freebase 的强关系表示。
- knowledge base,既答案是由本体的组合建立答案。将问题转化为knowledge中的节点,从而产生答案。
- 静态知识与动态知识的转化
- 如何从静态知识表示到问题对象,如"如何办理户口的流程"-> 本体:户口,动作:办理,属性:流程。
- 定义静态知识到动态对象的中间转化,既利用问题解析来限制静态知识的查找。
次序及容错
- 次序颠倒
- idf value from sougou and xingchao
- 同义词扩展
- tag
- 容错
- ngram
问答流程
客户数据转化
- 基于答案分类
- 基于问题进行分类,大分类+小标签
知识库在线学习
Dialog system
Coordination
- inter student is needed
- code synchronization
- git of tsinghua to design core algorithm,"git@192.168.0.51:textproc/productdevelopment.git"
- svn of huilan to design web application
algorithm
- query rewrite will to use stanford tools and waiting a intern.[1]
- GA algorithm finished and waiting to test the parameter
System implementation
- container-component framework finalized
- Yongtao will help to design a labeling platform
From Xinkai
本周议题:
- 上周遗留问题进展审视;
- 开发计划讨论和对齐;
- 邢超正在做的词向量方法暂停,改为验证stanford的复述工具;
- “基于实体、问题类别、文法自动生成/匹配模板”加入开发计划,启动时间待定;
- 其它计划继续不变,进度正常;
- 核心擎部分代码框架讨论;
- 根据王老师的思路和重构过程中遇到的问题一起进行了讨论完善;
- 其它
后续训练集,评测集和评测结果要纳入统一的管理,责任人:杜新凯