Vì vậy, tôi đang cố gắng tạo một tập lệnh Python tải xuống webcomics và đặt chúng vào một thư mục trên máy tính để bàn của tôi. Tôi đã tìm thấy một vài chương trình tương tự ở đây để làm một cái gì đó tương tự, nhưng không giống như những gì tôi cần. Một cái mà tôi thấy giống nhau nhất là ở ngay đây ( http://bytes.com/topic/python/answers/850927-probols-USE-urllib-doad-images ). Tôi đã thử sử dụng mã này:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Sau đó tôi đã tìm kiếm trên máy tính của mình một tập tin "00000001.jpg", nhưng tất cả những gì tôi tìm thấy là hình ảnh được lưu trong bộ nhớ cache của nó. Tôi thậm chí không chắc nó đã lưu tập tin vào máy tính của tôi. Khi tôi hiểu cách tải tệp xuống, tôi nghĩ tôi biết cách xử lý phần còn lại. Về cơ bản chỉ cần sử dụng một vòng lặp for và phân tách chuỗi tại '00000000'. 'Jpg' và tăng '00000000' lên đến số lớn nhất mà tôi phải xác định bằng cách nào đó. Bất kỳ đề xuất nào về cách tốt nhất để làm điều này hoặc làm thế nào để tải tập tin chính xác?
Cảm ơn!
EDIT 6/15/10
Đây là kịch bản hoàn thành, nó lưu các tập tin vào bất kỳ thư mục bạn chọn. Vì một số lý do kỳ lạ, các tệp không tải xuống và họ đã làm. Bất kỳ đề xuất về cách làm sạch nó sẽ được nhiều đánh giá cao. Tôi hiện đang tìm cách làm thế nào để tìm ra nhiều truyện tranh tồn tại trên trang web để tôi có thể lấy chỉ một cuốn mới nhất, thay vì bỏ chương trình sau khi một số ngoại lệ nhất định được nêu ra.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Bài đăng này hiển thị trong danh sách beautifulsoup
câu hỏi hàng đầu