“制作过滤器”版本间的差异
(→过滤器的作用) |
(→模板设置) |
||
(2位用户的5个中间修订版本未显示) | |||
第3行: | 第3行: | ||
---- | ---- | ||
− | + | 过滤器是数据导入NE的关键步骤,不管是在线检索还是指定格式导入数据,都需要使用到过滤器。NE内部处理的数据都是按照字段保存的,但外部的数据格式各种各样,怎么才能让NE准确获知这些数据是对应哪个字段呢?这个时候就需要使用过滤器,通过不同的过滤器,可以实现各种格式的数据导入NE。 | |
− | + | 过滤器是一种配置文件,NE通过读取这些配置,将一条或者多条题录的信息准确提取并存到指定的字段中去。 | |
== 制作过程 == | == 制作过程 == | ||
第22行: | 第22行: | ||
通过上图可以很好理解全局信息设置与管理器显示部分的对应关系了,这部分主要是一些过滤器信息的设置,例如过滤器名称,制作人,类型,注释等 | 通过上图可以很好理解全局信息设置与管理器显示部分的对应关系了,这部分主要是一些过滤器信息的设置,例如过滤器名称,制作人,类型,注释等 | ||
+ | [[文件:2014-11-17_17-21-59.jpg]] | ||
== 模板设置 == | == 模板设置 == | ||
− | + | 由于题录有不同的类型,例如期刊、会议论文、报纸等,这些不同类型的题录在NE中的显示是不同的,信息也是不同,对于不同的类型,肯定要求有不同的解析方式,有些时候某个字段在期刊中解析为“期刊”,在其他类型中可能就没有“期刊”字段,应该放置到其他字段中去,这就要用到模板了。所以我们应该根据实际需要添加好我们需要的模板。这里应该注意到地方有下面几个:1、题录类型关键字:这个是NE区分使用哪个模板的关键,比如一条期刊题录通过过滤器获取题录类型的内容是JOU,那么在这个地方应该填入JOU,这样NE可以使用期刊模板来显示本题录的内容了;2、新建模板中的“基于模板新建”选项是个不错设计,因为很多题录类型的字段设置都大同小异,如果新增一个模板,所有字段的提取方法和对应关系都要重新设置,肯定会造成效率低下,这个时候可以通过选择基于模板新建,快速使用开始创建好的模板,然后修改该模板中需要改变的内容即可。 | |
[[文件:Fil4.jpg]] | [[文件:Fil4.jpg]] | ||
+ | |||
+ | == 过滤器设置 == | ||
+ | |||
+ | 这项设置的内容最多,且很重要 | ||
+ | |||
+ | (一)、默认模板 设置默认模板的作用将没有指定类型的题录都显示为该类型,如果有些类型找不到指定的模板,也将由该模板来负责解析和显示。 | ||
+ | |||
+ | (二)、记录解析 NE过滤器的工作模式是先将资源分隔为多条记录,然后再在每条记录中解析各个字段,这里的记录解析是告诉NE如何来分隔各个记录,NE提供了几种分隔方式: | ||
+ | |||
+ | 起始标识、结束标识:有些记录间没有明显的分隔符号,但都是由某个字段开始标识新的记录的开始,这个时候选择这个解析方式,并将特定的标识填写在下面分隔符部分(由于标识也是字段,所以这里的标识应该符合标识解析部分的定义),当然,有些情况下记录可能是有某个特定字段来结尾,这个时候可以选择结束标识; 空行:如果每条记录内部没有空行,且记录和记录之间用空行分隔,则可以选择这种分隔方式来快速分隔记录; | ||
+ | |||
+ | 分隔字符串:当某些记录在记录与记录中间用特定字符串分隔,比如很多记录与记录间使用------线来分隔,这个时候就可以选择这种方法来分隔,当然,有时候这些分隔字符串与第一个有效字段间会有一些其他需要的信息,这个时候我们一般会选择保留记录前缀来保留这部分内容,因为默认情况下,分隔记录后,分隔字符串到第一条字段间的信息是获取不到的。 | ||
+ | |||
+ | 分隔模式串:与上面的分隔方式一致,但可能会碰到一些记录号的情况,这个时候就不能完全使用字符串来分隔了,应该使用一个类似正则的表达式来匹配。 | ||
+ | |||
+ | |||
+ | [[文件:Fil5.jpg]] | ||
+ | |||
+ | (三)、标识解析 完成了记录的分隔,现在NE将获取的这些记录用来匹配各个字段,此时就需要标识解析,这里的标识模式采用的是一种类正则的表达式。 | ||
+ | |||
+ | [[文件:Fil6.jpg]] | ||
+ | |||
+ | 通过模式中描述的匹配规则,NE可以快速获取到某个字段。这里需要说明的是,在没有明确指定是否多行匹配的情况下,字段的匹配是由两条标识之间来分别的,也就是说一个字段的内容的多少,是由标识指出开始位置,到下一个标识出现的地方为止,这些内容都将作为这个字段的内容。 | ||
+ | |||
+ | [[文件:2014-11-17_17-32-46.jpg]] | ||
+ | |||
+ | |||
+ | == 字段设置 == | ||
+ | |||
+ | 不同的模板(题录类型)在NE中题录明细界面中的显示也是不同的。所以字段匹配设置也是依模板不同而有不同。如果有多个模板,那么就需要分别设置不同模板的字段(您可以使用基于模板新建方式来避免这个工作的重复部分)。双击某个具体的字段,就可以进入字段规则设置的明细界面了。 | ||
+ | |||
+ | [[文件:Fil8.jpg]] | ||
+ | |||
+ | |||
+ | == 字段规则设置 == | ||
+ | |||
+ | 设置界面如下 | ||
+ | |||
+ | [[文件:Fil9.jpg]] | ||
+ | |||
+ | 最上面是模板和字段的选择。然后可以通过点击“添加规则”,“删除规则”来添加或者删除指定的规则。注意:删除规则是指删除鼠标焦点位于的规则。标识:这里填写的标识一定要符合前面设置的“标识解析”中的模式,否则会出现一个小的(x)在标识后面。NE通过这个标识来匹配这个字段,比如上面的规则通过Article的标识符来匹配作者字段。样式:获取的字段可能是比较干净的数据,也可能会有一些其他信息在里面,这个时候就需要样式来帮忙了,如果是干净的数据,那么选择单一字段就可以了,因为剩下的数据是属于这个单一的字段。如果有其他信息,这个时候就需要在这里选择“正则表达”样式了,利用正则表达式来提取真正有效的信息(冗余数据->干净数据)。而正则表达式就写在模式中。 |
2016年7月15日 (五) 11:38的最后版本
过滤器的作用
过滤器是数据导入NE的关键步骤,不管是在线检索还是指定格式导入数据,都需要使用到过滤器。NE内部处理的数据都是按照字段保存的,但外部的数据格式各种各样,怎么才能让NE准确获知这些数据是对应哪个字段呢?这个时候就需要使用过滤器,通过不同的过滤器,可以实现各种格式的数据导入NE。 过滤器是一种配置文件,NE通过读取这些配置,将一条或者多条题录的信息准确提取并存到指定的字段中去。
制作过程
打开“过滤器管理器”窗口:
然后根据需要选择“创建新的过滤器”或者“编辑选中的过滤器”便可以打开新的过滤器编辑窗口,过滤器管理器工具栏:
开始设置过滤器全局信息
通过上图可以很好理解全局信息设置与管理器显示部分的对应关系了,这部分主要是一些过滤器信息的设置,例如过滤器名称,制作人,类型,注释等
模板设置
由于题录有不同的类型,例如期刊、会议论文、报纸等,这些不同类型的题录在NE中的显示是不同的,信息也是不同,对于不同的类型,肯定要求有不同的解析方式,有些时候某个字段在期刊中解析为“期刊”,在其他类型中可能就没有“期刊”字段,应该放置到其他字段中去,这就要用到模板了。所以我们应该根据实际需要添加好我们需要的模板。这里应该注意到地方有下面几个:1、题录类型关键字:这个是NE区分使用哪个模板的关键,比如一条期刊题录通过过滤器获取题录类型的内容是JOU,那么在这个地方应该填入JOU,这样NE可以使用期刊模板来显示本题录的内容了;2、新建模板中的“基于模板新建”选项是个不错设计,因为很多题录类型的字段设置都大同小异,如果新增一个模板,所有字段的提取方法和对应关系都要重新设置,肯定会造成效率低下,这个时候可以通过选择基于模板新建,快速使用开始创建好的模板,然后修改该模板中需要改变的内容即可。
过滤器设置
这项设置的内容最多,且很重要
(一)、默认模板 设置默认模板的作用将没有指定类型的题录都显示为该类型,如果有些类型找不到指定的模板,也将由该模板来负责解析和显示。
(二)、记录解析 NE过滤器的工作模式是先将资源分隔为多条记录,然后再在每条记录中解析各个字段,这里的记录解析是告诉NE如何来分隔各个记录,NE提供了几种分隔方式:
起始标识、结束标识:有些记录间没有明显的分隔符号,但都是由某个字段开始标识新的记录的开始,这个时候选择这个解析方式,并将特定的标识填写在下面分隔符部分(由于标识也是字段,所以这里的标识应该符合标识解析部分的定义),当然,有些情况下记录可能是有某个特定字段来结尾,这个时候可以选择结束标识; 空行:如果每条记录内部没有空行,且记录和记录之间用空行分隔,则可以选择这种分隔方式来快速分隔记录;
分隔字符串:当某些记录在记录与记录中间用特定字符串分隔,比如很多记录与记录间使用------线来分隔,这个时候就可以选择这种方法来分隔,当然,有时候这些分隔字符串与第一个有效字段间会有一些其他需要的信息,这个时候我们一般会选择保留记录前缀来保留这部分内容,因为默认情况下,分隔记录后,分隔字符串到第一条字段间的信息是获取不到的。
分隔模式串:与上面的分隔方式一致,但可能会碰到一些记录号的情况,这个时候就不能完全使用字符串来分隔了,应该使用一个类似正则的表达式来匹配。
(三)、标识解析 完成了记录的分隔,现在NE将获取的这些记录用来匹配各个字段,此时就需要标识解析,这里的标识模式采用的是一种类正则的表达式。
通过模式中描述的匹配规则,NE可以快速获取到某个字段。这里需要说明的是,在没有明确指定是否多行匹配的情况下,字段的匹配是由两条标识之间来分别的,也就是说一个字段的内容的多少,是由标识指出开始位置,到下一个标识出现的地方为止,这些内容都将作为这个字段的内容。
字段设置
不同的模板(题录类型)在NE中题录明细界面中的显示也是不同的。所以字段匹配设置也是依模板不同而有不同。如果有多个模板,那么就需要分别设置不同模板的字段(您可以使用基于模板新建方式来避免这个工作的重复部分)。双击某个具体的字段,就可以进入字段规则设置的明细界面了。
字段规则设置
设置界面如下
最上面是模板和字段的选择。然后可以通过点击“添加规则”,“删除规则”来添加或者删除指定的规则。注意:删除规则是指删除鼠标焦点位于的规则。标识:这里填写的标识一定要符合前面设置的“标识解析”中的模式,否则会出现一个小的(x)在标识后面。NE通过这个标识来匹配这个字段,比如上面的规则通过Article的标识符来匹配作者字段。样式:获取的字段可能是比较干净的数据,也可能会有一些其他信息在里面,这个时候就需要样式来帮忙了,如果是干净的数据,那么选择单一字段就可以了,因为剩下的数据是属于这个单一的字段。如果有其他信息,这个时候就需要在这里选择“正则表达”样式了,利用正则表达式来提取真正有效的信息(冗余数据->干净数据)。而正则表达式就写在模式中。