第一步,用户授权登录。用户授权登录可能可能遇到的问题,比如QQ邮箱异地登录不支持,阿里云邮箱变化验证码和验证方式。可能还会牵扯到是否使用代理,是否需要第三方公司提供打码流程。登录模块用到的技术JAVA、Python都有可能。
第二步,爬取。这部分可以自行搜索。
第三步,就是解析了。至于用到的技术,Node.js,PhantomJS,Selenium等等。细化一下,登录模块:常规http登录,浏览器模拟模式,node.js,C#,Selenium(Phantomjs)爬取模块:scrapy爬虫框架,casperjs,selenium
原创文章,作者:DevilStefan,如若转载,请注明出处:https://www.pmtemple.com/fengsaitao/443/