博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python selenium下载电子书
阅读量:4289 次
发布时间:2019-05-27

本文共 1242 字,大约阅读时间需要 4 分钟。

转载至:TTyb    http://www.cnblogs.com/TTyb/p/5989152.html

妹纸推荐书籍《御伽草纸》,网上找了很久都找不到下载,估计是被Amazon版权了,但是在网易云阅读看到有书,所以就写个代码下载下来。

由于网易云阅读是js加载,用requests或者下载html的方法都太麻烦(毕竟这本书也才8万字),所以就简单粗暴的用selenium下载,而且还是截图(太懒啦...)

得到的图片被我转换为pdf:

 

附上代码:在我的github也放着呀:

1 #!/usr/bin/python3.4 2 # -*- coding: utf-8 -*- 3  4 from selenium import webdriver 5 import time 6 from selenium.webdriver.common.keys import Keys 7 from selenium.webdriver.common.action_chains import ActionChains 8  9 # http://www.cnblogs.com/fnng/p/3238685.html10 # 打开火狐浏览器11 browser = webdriver.Chrome()12 # 设置浏览器大小13 browser.set_window_size(1200, 900)14 # 输入网址15 browser.get("http://yuedu.163.com/book_reader/ee677a1b42ed4af3b52adbe4c0fb6a23_4")16 # 根据各自网速来判断网址加载时间17 time.sleep(10)18 19 # 选择阅读方式20 browser.find_element_by_class_name("portrait").click()21 time.sleep(5)22 for i in range(3000):23     # 截图24     browser.save_screenshot("../jpg/txt/" + str(i + 1) + ".png")25     time.sleep(5)26 27     # 点击右边向右翻页28     try:29         ActionChains(browser).send_keys(Keys.ARROW_RIGHT).perform()30         # ActionChains(browser).click().perform()31         print("111111")32     except:33         ActionChains(browser).send_keys(Keys.ENTER).perform()34         print("2222222222")35 36 browser.quit()
你可能感兴趣的文章
网络下载-xUtils,HttpUtils
查看>>
网络下载-AsyncHttpClient
查看>>
myUtils-多线程下载
查看>>
网络下载-断点续传原理
查看>>
线程-消息回环处理机制
查看>>
感谢伤害我的人
查看>>
请不要做浮躁的人----(学习编程的忠告)
查看>>
网络_volley_使用方法和代码
查看>>
网络_AsyncHttpClient_使用方法和代码
查看>>
网络_断点续传.断点下载
查看>>
网络_Xutils
查看>>
网络_多线程下载
查看>>
网络_httpClient
查看>>
网络_HttpURLConnection_原始类
查看>>
网络_OKHttp
查看>>
android_事件分发机制_几行代码直接通晓
查看>>
图片_OOM_OutOfMemory
查看>>
技术学习_经验分享
查看>>
android中常见的设计模式有哪些?
查看>>
ViewDragHelper_v4的滑动视图帮助类_解释和代码
查看>>