Date extraction 选择器仅从选中的元素中返回数据。譬如 Text (文本)选择器从选中的元素中提取文本。以下选择器可用作 Date extraction 选择器:
1)Text(文本)选择器
2)Link(链接)选择器
3)Link popup(弹出链接)选择器
4)Image(图像)选择器
5)Table(表格)选择器
6)Element attribute(元素属性)选择器
7)HTML 选择器
8)Grouped(组块)选择器
Link 选择器
Link 选择器从链接中提取 URL,后续可用于数据提取。比如,如果在一个 sitemap 中有个 LInk 选择器有三个子 Text 选择器,Web Scraper 会从 Link 选择器中提取所有链接,然后打开每个链接,使用子 Date 选择器提取数据(此处指那 3 个 Text 选择器)。当然,Link 选择器的子选择器可以仍为 Link 选择器,这些子选择器用于在页面间导航。目前有以下两个 Link 选择器可供使用:
1)Link (链接)选择器
2)Link popup (弹出链接)选择器
Element 选择器
Element 选择器用于选择元素包含多个数据元素的情况。比如,Element 选择器可用于在电子商务网站上选择多个项目,返回包含子选择器的母选择器。子选择器之从母选择器选择的元素范围中提取数据。以下是可用的 Element 选择器:
注意:一个常见错误是同时创建两个选择器设定选项均选中 multiple,期望结果自然合并。例如,如果您同时选择分页链接和导航链接,这些链接无法自然合并。正确的方法是使用元素选择器选用 Element 元素,并将 Data 选择器作为子选择器添加到 Element 选择器中,而不是选中 multiple 选项。
4.1 Text 选择器
Text 选择器用于选择文本。Text 选择器会从选用元素及其子元素中提取文本,剥离 HTML(超文本标记语言),只抽出其中的文本。此选择器会忽略 <script> 及 <style> 标签中的文字。换行 <br> 标签会被替换为换行符。你还可以使用正则表达式来处理数据。
设定选项
1)selector - CSS 选择器,用于选择需提取数据
2)multiple - 选取多项记录。通常无需选中。如果你想在一个页面使用多种 Text 选择器,则你应当换用 Element 选择器。