一、软件目的
根据指定的关键词(通常为艺术家的名字)在藝搜(http://artso.****.net)中抓取该艺术家的历年拍卖数据。数据包含:作者名称、拍品名称、估价、成交价(RMB)、尺寸、作品分类、拍卖日期、拍卖公司、拍卖会。
抓取成功后将这些数据导入到一个新的Excel文件中去,并以上段提及的数据包含的字段名作为表头。
二、解决方案
1、使用.Net 4.0(C# Win Form)进行开发,运行需要安装.Net Framework运行时。
2、因为要抓取的个别字段的数据需要使用一个会员账户登录后方能阅之,而登录是需要输入验证码的,所以软件首先会给出一个登录界面并拉取验证码到本地显示,手动输入帐号、密码、验证码登录后方才显示软件主界面。
3、软件主界面会给出一个输入框(支持换行),来录入需要抓取的关键词,多个关键词只需换行即可。还可通过一个按钮来导入一个关键词列表的文本文件(扩展名为“.txt”的文件,每个关键词各占一行)的内容。另外会给出一个输入框来指定要生成的Excel文件所在的文件夹。
4、录入关键词后点击软件界面中的开始按钮即可开始抓取工作,抓取到的每个关键词的数据的Excel文件以该关键词命名。