首先,请抓取“互联网”广场下“讨论”板块的所有问答信息,
- 针对每一条讨论,请爬取:
(“问题id”,“问题标题”,“问题发布者id”,“问题内容”,“问题时间”,“问题获赞数量”,”问题被贬数量“,“问题评论数量”,“问题回答数量”,“问题关注数量”)
- 针对每一个回答,请爬取:
(“问题id”,“回答id”,“回答者id”,“回答文本”,“回答包含图片数量“,”回答包含视频数量“,“回答时间”,“回答获赞数量“,”回答被贬数量“,“回答评论数量”)
- 针对每一个用户,请爬取:
(“用户id“,”用户名称“,“用户名称后描述”,“居住地“,“所在行业”,“职业经历“,“教育经历”,“个人简介”,“回答数量”,“提问数量”“文章数量”,“专栏数量”,“想法数量”,“收藏数量”,“是否为优秀回答者”,“优秀回答者领域”,“知乎收录数量”,“获得赞同数量”,“获得感谢数量”,“获得收藏数量“,“公共编辑数量”,“关注的用户数量”,“关注的话题数量”,“关注的专栏数量”,“关注的问题数量”,“关注的收藏夹数量”,“关注者数量”,“举办的live数量”)
- 针对每一条live,请爬取:
(”liveid“,“live题目”,“live发布人名称“,”live发布人id“,”live发布时间“,“live简介”,“live时长“,“live问答数量”,“live文件数量”,“live参与人数量”,“live评分”,“live评论数量”,“live价格”,“live是否有7天无理由退款”,“live是否有实名认证”)
- 爬取用户所有信息:
5.1 | 针对每一个用户的回答,请爬取信息,包括(“用户id”,“问题id”,“问题”,“回答id”,“回答文本”,“回答包含图片数量“,”回答包含视频数量“,“回答时间”,“回答获赞数量“,”回答被贬数量“,“回答评论数量”) |
5.2 | 针对每一个用户的提问,请爬取信息,包括(“用户id”,“问题id”,“问题标题”,“问题内容”,“问题时间”,“问题回答数量”,“问题关注数量”) |
5.3 | 针对每一个用户的文章,请爬取信息,包括(“用户id”,“文章id“,“文章标题“,“文章内容”,“文章时间”,“文章获赞数量”,“文章评论数量”) |
5.4 | 针对每一个用户的文章,请爬取信息,包括(“用户id”,“想法id“,“想法标题“,“想法内容”,“想法时间”,“想法获赞数量”,“想法评论数量”) |
5.5 | 针对每一个用户的专栏,请爬取信息,包括(“用户id”,“专栏id“,“专栏标题“,“专栏内容”,“专栏文章数量”,“专栏被关注数量”) |
5.6 | 针对每一个用户的收藏,请爬取信息,包括(“用户id”,“收藏id“,“收藏标题“,“收藏更新时间”,“收藏内容数量”,“收藏被关注数量”) |
任务结束
一品威客网已聚集超千万专业人才,为雇主提供一站式优质服务