火车采集器免费版(LocoySpider)是一款专业的功能强大的网络数据/信息挖掘软件。火车采集器免费版(LocoySpider)通过灵活的配置,您可以很轻松的从网页上抓取文字、图片、文件等任何资源。
更新日志
二级代理服务器新增Socks代理
任务运行过程中可修改线程数等参数,实时调节运行速度,添加可查看任务运行当前及总体速度功能
支持SSH(SFTP文件)上传
内容提取新增JSON提取方式,提取JSON数据更加简单
插件编辑器新增C#源码文件插件,类似PHP源码插件一样,编辑后直接生效,但比PHP源码插件支持更多的插件接口
软件闪退,支持保存未完成的任务进度
新增消息机制
V9将采网址和采内容的方式合并,列表采集及内容采集使用不同队列,优化采集流程,更新数据内容的方式由Update改为insert,大幅提升采集及入库速度;
任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计;
修改了原有的无限级列表页网址获取模式,使无限级配置操作更加简单;
字段重复性对比功能不再使用数据库unique方式,改为内存Md5_16对比,更加精准;
标签数据的来源更加细致化,可设置从默认页、分页和多页的源码,URL地址及返回头信息中提取。
软件特色
分布式高速采集
任务分配至多个客户端,同时运行采集,效率倍增。
多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
可选验证方式
可选择是否使用加密狗,随时保障数据安全。
全自动运行
无需人工值守操作,任务完成后自动关机。
替换功能
同义,近义词替换、参数替换,伪原创必备技能。
任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
采集监控系统
实时监控采集,确保数据的准确性。
支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
支持扩展
支持接口和插件扩展,满足各种采发需求。
功能介绍
真正通用
采集不限网页,不限内容,支持多种扩展,打破操作局限。采什么,如何采,都由您决定!
高效稳定
分布式高速采集系统,多个大型服务端同时稳定运作,快速分解任务量,最大化提升效率。
性价比高
高性能的产品,搭配亲民的价格,“为客户节约成本,提升价值”是火车采集器的服务理念。
数据精准
内置采集监控系统,实时报错及时修复;采集发布时确保数据零遗漏,为用户呈现最精准的数据。
FAQ
登录信息设置: 对于部分需要登录的网站,需要设置此项。
点击 点击设置 按钮,跳转到第四步其他设置——Http请求设置
点击 使用浏览器获取网页登录信息 按钮,登录网址,输入账号密码后,再关闭窗口即可
这样登录信息就已经记录在采集器里了,就是我们常说的 Cookie 和 User-Agent 。
安装步骤
一、在本站下载火车采集器最新版,双击运行。
二、如下图,可以点击【浏览】设置软件的安装位置。
三、设置完毕点击【安装】,耐心等待即可。
使用技巧
起始网址设置。
采集规则制作的第一步骤,点击向导添加,①➯②,出现如图界面。
分3种方式:普通网址,批量网址,文本导入。
a、普通网址:以一行一个的形式直接加入网址,不做任何解析。
b、批量网址:以通用的表达式批量生成网址。
c、文本导入:以文本导入的形式,文本为一行一个的网址。