티스토리는 rss 만 제공되는데 sitemap.xml 도 제공되면 좋겠네요~

무료로 사이트맵을 작성해주는 사이트가 있긴 하지만 불필요한 url 까지 생기는 문제가 있어서,

파이썬으로 한번 만들어 소스코드 공개합니다.

포스팅 주소가 숫자로 된 티스토리 블로그만 해당됩니다.

 

# coding=utf-8
from urllib2 import urlopen
from bs4 import BeautifulSoup
import xml.etree.ElementTree as xml
import time

BLOG_URL = 'https://ivps.tistory.com/' ### 블로그 주소
if ( BLOG_URL[len(BLOG_URL)-1] != '/' ):
  BLOG_URL += '/'
post_end = 0
html = urlopen(BLOG_URL)
soup = BeautifulSoup(html, "html.parser")
for hr in soup.findAll('a', {'class':'link_post'}):
  tmp = hr.get('href')[1:]
  if ( tmp != '' ):
    max = int( tmp )
    if ( post_end < max ):
      post_end = max
print "post_end " + str(post_end)

### SITEMAP XML Create
sitemap = xml.Element('urlset')
sitemap.set('xmlns', 'http://www.sitemaps.org/schemas/sitemap/0.9')
print ('<?xml version=\'1.0\' encoding=\'utf-8\'?>')
print ('<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">')
x1_1st = xml.SubElement(sitemap, 'url')
x2_lo = xml.SubElement(x1_1st, 'loc').text        = BLOG_URL
x2_ch = xml.SubElement(x1_1st, 'changefreq').text = 'always'
x2_pr = xml.SubElement(x1_1st, 'priority').text   = '1.0'
print ('<url><loc>' + BLOG_URL + '</loc><changefreq>always</changefreq><priority>1.0</priority></url>')
for i in range(post_end):
  url = BLOG_URL + str(i)
  try:
    html = urlopen(url)
    soup = BeautifulSoup(html, "html.parser")
    #print (soup.head.find("meta", {"name":"description"}).get('content'))
    x2_ur = xml.SubElement(sitemap, 'url')
    x3_lo = xml.SubElement(x2_ur, 'loc').text        = url
    x3_ch = xml.SubElement(x2_ur, 'changefreq').text = 'daily'
    x1_pr = xml.SubElement(x2_ur, 'priority').text   = '0.9'
    print ('<url><loc>' + url + '</loc><changefreq>daily</changefreq><priority>0.9</priority></url>')
  except:
    print (url + ' is not found')
  time.sleep(0.01)
print ('</urlset>')

#xml.dump(sitemap)
xml.ElementTree(sitemap).write('./sitemap.xml', encoding='utf-8', xml_declaration=True)

사용해 보시고 문제점이 있다면 댓글 남겨주세요~

생성된 파일을 공지사항에 첨부해놓고 해당 링크 주소를 웹마스터 도구에 제출하면 됩니다.

 

반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

아파치 + 파이썬 연동 환경에서 파이썬으로 보낸 GET 및 POST 파라메터 값을 받는 방법입니다.

#!/usr/bin/env python
import cgi

print ("Content-type: text/html\n")
print ("p1 : " + cgi.FieldStorage()['p1'].value + "<br>")
print ("p2 : " + cgi.FieldStorage()['p2'].value + "<br>")

test.py?p1=v1&p2=v2

 

결과는 아래와 같이 나옵니다.

p1 : v1

P2 : v2

 

반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

파이썬 urlopen 모듈에러

from urllib.request import urlopen
from bs4 import BeautifulSoup

위와 같이 작성하면 아래와 같은 에러가 납니다.

Traceback (most recent call last):
  File "t.py", line 2, in <module>
    from urllib.request import urlopen
ImportError: No module named request

urllib2 로 변경하면 됩니다.

from urllib2 import urlopen
from bs4 import BeautifulSoup

이제 다시 테스트 해보세요~

 

반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

인코딩을 페이지에 맞는 euc-kr 또는 utf-8 로 바꿔주면 됩니다.

[root@ivps ~]# python
Python 2.7.5 (default, Apr  9 2019, 14:30:50)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> rs = req.session()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'req' is not defined
>>> rs = requests.session()
>>> post = rs.get('https://ivps.tistory.com/')
>>> print post.text
<!doctype html>
<html lang="ko">
<head>
    <meta charset="utf-8">
    <title>TISTORY</title>
    <link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/www/style/top/font.css">
    <link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/www/style/top/error.css">
</head>
<body>
<div id="kakaoIndex">
    <a href="#kakaoBody">본문 ���기</a>
    <a href="#kakaoGnb">�� ���기</a>
</div>
>>> post.encoding
'ISO-8859-1'
>>> post.encoding = 'utf-8'
>>> print post.text
<!doctype html>
<html lang="ko">
<head>
    <meta charset="utf-8">
    <title>TISTORY</title>
    <link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/www/style/top/font.css">
    <link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/www/style/top/error.css">
</head>
<body>
<div id="kakaoIndex">
    <a href="#kakaoBody">본문 바로가기</a>
    <a href="#kakaoGnb">메뉴 바로가기</a>
</div>

post.encoding = 'utf-8'

 

반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[CentOS] Python PIP 설치

Python 2019. 8. 19. 09:41

[root@ivps ~]# pip
-bash: pip: command not found

[root@ivps ~]# yum install python-pip
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
 * base: mirror.kakao.com
 * epel: mirrors.aliyun.com
 * extras: mirror.kakao.com
 * remi-php72: mirror.innosol.asia
 * remi-safe: mirror.innosol.asia
 * updates: mirror.kakao.com
Resolving Dependencies
--> Running transaction check
---> Package python2-pip.noarch 0:8.1.2-10.el7 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

================================================================================
 Package              Arch            Version               Repository     Size
================================================================================
Installing:
 python2-pip          noarch          8.1.2-10.el7          epel          1.7 M

Transaction Summary
================================================================================
Install  1 Package

Total download size: 1.7 M
Installed size: 7.2 M
Is this ok [y/d/N]: y
Downloading packages:
python2-pip-8.1.2-10.el7.noarch.rpm                        | 1.7 MB   00:00
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : python2-pip-8.1.2-10.el7.noarch                              1/1
  Verifying  : python2-pip-8.1.2-10.el7.noarch                              1/1

Installed:
  python2-pip.noarch 0:8.1.2-10.el7

Complete!

패키지가 없다고 나오면 epel-release 를 먼저 설치하세요~

 

반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[티스토리] Python Open API 이용 블로그 및 이미지 백업하기



앞에서는 블로그의 내용만 RSS 로 만들었는데 이번에는 사진 이미지까지 백업하는 파이썬 소스코드를 공개합니다.


티스토리에서 워드프레스로 완전히 이전을 원하시는 경우에 사용하시면 됩니다.


이미지는 본문 내용에 포함할 수도 있고 다운로드한 사진은 img src 의 url 을 치환할 수도 있습니다.


IMG_SRC_TYPE 값이 1 이면 URL 만 치환, 2 이면 본문에 이미지 삽입


본문에 포함되는 방식이 아닌 1의 경우는 아래 코드에서 저장된 이미지 파일을 해당 경로에 수동으로 업로드 하셔야 합니다.



▶ Python 소스코드


# coding=utf-8

# pip install beautifulsoup4

# pip install python-magic

# pip install pytz

# pip install requests

# pip install urllib3

import base64

import json

import magic

import math

import os

import requests

import urllib2

import urlparse

import xml.etree.ElementTree as xml

from bs4 import BeautifulSoup

from datetime import datetime

from pytz import timezone


URL_0 = 'https://www.tistory.com/auth/login'       ### 티스토리 로그인 URL

URL_1 = 'https://www.tistory.com/oauth/authorize'  ### 인증 요청 및 Authentication code 발급 URL

URL_2 = 'https://www.tistory.com/apis/blog/info'   ### 블로그 정보 URL

URL_3 = 'https://www.tistory.com/apis/post/list'   ### 블로그 리스트 URL

URL_4 = 'https://www.tistory.com/apis/post/read'   ### 블로그 상세보기 URL

blogName = 'ivps' ### 블로그명

page = 0          ### 1 페이지 부터 시작

count = 30        ### 최대값 30

post_id = 0       ### 아래에서 데이터를 추출

access_token = '' ### 아래에서 데이터를 추출

loginParams = {                                    ### 로그인 Parameters ( 블로그주소, 이메일계정, 비밀번호 )

 'redirectUrl':'http://ivps.tistory.com',

 'loginId':'이메일계정',

 'password':'비밀번호'

}

tokenParams = {                                    ### 토큰값을 받아오기 위한 Parameters ( App ID, CallBack, 'token' )

 'client_id':'Open API App ID',

 'redirect_uri':'Open API CallBack',

 'response_type':'token'

}

def params_2(access_token):                        ### 블로그 정보 Parameters

  return {'access_token':access_token, 'output':'json'}

def params_3(access_token, blogName, page, count): ### 블로그 리스트 Parameters

  return {'access_token':access_token, 'output':'xml', 'targetUrl':blogName, 'page':page, 'count':count}

def params_4(access_token, blogName, post_id):     ### 블로그 상세보기 Parameters

  return {'access_token':access_token, 'output':'xml', 'targetUrl':blogName, 'postId':post_id}

IS_IMG_TO_SAVE = 1  ### 이미지 저장

IMG_SRC_TYPE = 1    ### 1:이미지 URL 변경, 2:이미지를 본문 내용에 포함

def image_save_from_html(html):

  html_obj = BeautifulSoup(html, 'html.parser')

  img_data = html_obj.find_all('img')

  print('img count : ' + str(len(img_data)))

  for image in img_data:

    if '//cfile' in image['src']:

      print('img src : ' + image['src'])

      try:

        imgUrl = image['src']

        filename = image['src'].split('/')[-1]

        imgData = urllib2.urlopen(image['src']).read()

        f = open(filename, 'wb')

        f.write(imgData)

        f.close()

        if(IMG_SRC_TYPE == 1):

          imgSrc = image_url_change(filename)

          html = html.replace(imgUrl, imgSrc)

        elif(IMG_SRC_TYPE == 2):

          imgSrc = image_to_rawdata(filename)

          html = html.replace(imgUrl, imgSrc)

        else:

          print('@@@ imgUrl : ' + imgUrl)

      except:

        print('@@@ HTMLparse Error : ' + str(image))

    else:

      print('@@@ Pass img src : ' + image['src'])

  return html

def image_to_rawdata(filename):

  mime_type = magic.from_file(filename, mime=True)

  print('mime_type : ' + mime_type)

  f = open(filename, 'rb')

  image = f.read()

  f.close()

  rawData = base64.b64encode(image).decode('utf-8')

  imgSrc = 'data:'+ mime_type +';base64,' + rawData

  return imgSrc

def image_url_change(filename):

  mime_type = magic.from_file(filename, mime=True)

  print('mime_type : ' + mime_type)

  if '.' not in filename: ### 이미지 파일 확장자가 없으면 추가

    ext = mime_type.split('/')[-1]

    os.rename(filename, filename+'.'+ext)

    filename = filename+'.'+ext

  imgSrc = '/wp-content/uploads/tistory/' + filename

  return imgSrc



rs = requests.session()

try:

  r0 = rs.post(URL_0, data=loginParams)

  try:

    r1 = rs.get(URL_1, params=tokenParams)

    access_token = str( urlparse.parse_qs( r1.url.split('#')[1] )['access_token'][0] )

    print('### access_token : ' + access_token)

    try:

      r2 = rs.get(URL_2, params=params_2(access_token))

      print('### Open API, Blog Info Url : ' + str(r2.url))

      #print(r2.text)

      item = json.loads(r2.text)

      item_size = len(item['tistory']['item']['blogs'])

      ### RSS XML Create

      rss = xml.Element('rss')

      rss.set('version', '2.0')

      x1_ch = xml.SubElement(rss, 'channel')

      for i in range(item_size): ### 0 ~ 5, 없거나 최대 5개의 블로그

        blog_name = item['tistory']['item']['blogs'][i]['name']

        if(blog_name == blogName): # 일치하는 블로그만

          print('### Find blog : ' + str(blog_name))

          ### ==> 필요는 없지만 티스토리 rss 에 나온는 형식에 맞춰줌

          x1_ch_ti = xml.SubElement(x1_ch, 'title').text             = item['tistory']['item']['blogs'][i]['title']

          x1_ch_li = xml.SubElement(x1_ch, 'link').text              = item['tistory']['item']['blogs'][i]['url']

          x1_ch_de = xml.SubElement(x1_ch, 'description').text       = item['tistory']['item']['blogs'][i]['description']

          x1_ch_la = xml.SubElement(x1_ch, 'language').text          = 'ko'

          x1_ch_pu = xml.SubElement(x1_ch, 'pubDate').text           = datetime.now(timezone('Asia/Seoul')).strftime('%a, %d %b %Y %H:%M:%S %z')

          x1_ch_ge = xml.SubElement(x1_ch, 'generator').text         = 'ivps.kr'

          x1_ch_ma = xml.SubElement(x1_ch, 'managingEditor').text    = item['tistory']['item']['blogs'][i]['nickname']

          x1_ch_im = xml.SubElement(x1_ch, 'image')

          x1_ch_im_ti = xml.SubElement(x1_ch_im, 'title').text       = item['tistory']['item']['blogs'][i]['title']

          x1_ch_im_ur = xml.SubElement(x1_ch_im, 'url').text         = item['tistory']['item']['blogs'][i]['profileImageUrl']

          x1_ch_im_li = xml.SubElement(x1_ch_im, 'link').text        = item['tistory']['item']['blogs'][i]['url']

          x1_ch_im_de = xml.SubElement(x1_ch_im, 'description').text = item['tistory']['item']['blogs'][i]['description']

          ### <==

          nickname = item['tistory']['item']['blogs'][i]['nickname']

          totalCnt = item['tistory']['item']['blogs'][i]['statistics']['post']

          print('### post : ' + totalCnt) ### 포스팅 갯수

          pages = int ( math.ceil ( float(totalCnt) / float(count) ) )

          for j in range(pages): ### 총 페이지 만큼 반복

            page = j+1

            print('### Page : ' + str(page) + ' of ' + str(pages) + ' ###')

            try:

              r3 = rs.get(URL_3, params=params_3(access_token, blogName, page, count))

              print('### Open API, Blog List Url : ' + str(r3.url))

              xmlList = xml.fromstring(r3.text.encode(r3.encoding))

              #xml.dump(xmlList)

              for parent in xmlList.getiterator('post'): ### 목록에서 postId 추출

                post_id = int( parent.find('id').text )

                visibility = int( parent.find('visibility').text )

                if(visibility in (2,3)): ### 2:??, 3:발행 게시글

                  try:

                    r4 = rs.get(URL_4, params=params_4(access_token, blogName, post_id))

                    print('### Open API, Blog Desc Url, postId(' + str(post_id) + ') : ' + str(r4.url))

                    xmlDesc = xml.fromstring(r4.text.encode(r4.encoding))

                    #print(xml.dump(xmlDesc))

                    for desc in xmlDesc.getiterator('item'): ### 상세내용 추출

                      if(IS_IMG_TO_SAVE == 1):

                        html = image_save_from_html(desc.find('content').text)

                      else:

                        html = desc.find('content').text

                      x2_it = xml.SubElement(x1_ch, 'item')

                      x3_ti = xml.SubElement(x2_it, 'title').text       = parent.find('title').text

                      x3_li = xml.SubElement(x2_it, 'link').text        = parent.find('postUrl').text

                      x3_de = xml.SubElement(x2_it, 'description').text = html

                      for tag in desc.find('tags').findall('tag'): ### 카테고리 갯수 만큼 반복

                        x3_ca = xml.SubElement(x2_it, 'category').text  = tag.text

                      x3_au = xml.SubElement(x2_it, 'author').text      = nickname

                      x3_gu = xml.SubElement(x2_it, 'guid').text        = parent.find('postUrl').text

                      x3_pu = xml.SubElement(x2_it, 'pubDate').text     = parent.find('date').text

                  except:

                    print('@@@ Error : ' + str(r4.url))

                else:                    ### 0:비공개, 1:보호

                  print('### Pass PostId(' + str(post_id) + ') visibility : ' + str(visibility))

            except:

              print('@@@ Error : ' + str(r3.url))

        else:

          print('### Pass blog : ' + str(blog_name))

    except:

      print('@@@ Error : ' + str(r2.url))

  except:

    print('@@@ Error : ' + str(r1.url))

except:

  print('@@@ Error : ' + str(r0.url))


#xml.dump(rss)

xml.ElementTree(rss).write('/var/www/html/rss.xml') # 적당한 위치에 저장


색깔이 다른 부분만 수정해서 사용하시면 됩니다.


이미지를 본문 내용에 포함하는 경우에 이미지가 많이 들어간 경우는 걸러주는 작업이 필요해 보입니다.


양이 많으니깐 메모리 부족 현상 때문인지 Killed 가 발생하더군요~



티스토리가 요즘 방문통계가 영 이상하네요~


반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[Python] 이미지 파일의 MIME TYPE 알아내는 방법



티스토리 같은 경우 이미지를 첨부하면 아래와 같이 확장자명이 생략이 됩니다.


<img src="https://t1.daumcdn.net/cfile/tistory/C81EA46998F0401423" style="cursor: pointer;max-width:100%;height:auto" width="820"/>


그래서 일단 해당 url 의 이미지를 로컬에 저장한 다음에 아래의 소스코드로 알아내면 됩니다.


import magic


mime_type = magic.from_file(filename, mime=True)

print('mime_type : ' + mime_type)


사전에 pip install python-magic 명령으로 해당 라이브러리를 먼저 설치하면 됩니다.


반응형

'Python' 카테고리의 다른 글

[Python] requests.get 한글깨짐  (0) 2019.08.19
[CentOS] Python PIP 설치  (0) 2019.08.19
[CentOS] 7.x Apache + Python 연동 방법  (0) 2018.12.21
[Python] sitemap.xml 생성 방법  (0) 2018.12.20
[Python] XML Create and Write  (0) 2018.12.18
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[CentOS] 7.x Apache + Python 연동 방법



아파치에서 파이썬도 동작이 가능합니다.


# vi /etc/httpd/conf.d/python.conf


<Directory /var/www/html/python>

  Options +ExecCGI

  AddHandler cgi-script .py

</Directory>



# systemctl restart httpd


# mkdir /var/www/html/python


# vi /var/www/html/python/index.py


#!/usr/bin/env python


print "Content-type: text/html\n"

print "Python test page"


# chmod 755 /var/www/html/python/index.py


이제 브라우저에서 한번 열어보세요~


반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[티스토리] Python 으로 sitemap.xml 만들기



티스토리 블로그는 RSS 는 제공하지만 사이트맵은 제공하지 않습니다.


그래서 sitemap 만들어주는 사이트에서 만들고 편집해서 등록하였었는데 엄청 귀찮습니다.


파이썬으로 티스토리 블로그의 사이트맵을 생성해주는 프로그래밍을 해서 공개합니다.



▶ Python Create Sitemap 소스코드


# coding=utf-8

import json

import math

import requests

import urlparse

import xml.etree.ElementTree as xml

from datetime import datetime

from pytz import timezone


headers = { ### 헤더 필요시 requests.post(URL, headers=headers)

 'Referer':'https://www.tistory.com/auth/login',

 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

}

URL_0 = 'https://www.tistory.com/auth/login'       ### 티스토리 로그인 URL

URL_1 = 'https://www.tistory.com/oauth/authorize'  ### 인증 요청 및 Authentication code 발급 URL

URL_2 = 'https://www.tistory.com/apis/blog/info'   ### 블로그 정보 URL

URL_3 = 'https://www.tistory.com/apis/post/list'   ### 블로그 리스트 URL

URL_4 = 'https://www.tistory.com/apis/post/read'   ### 블로그 상세보기 URL

loginParams = {                                    ### 로그인 Parameters ( 블로그주소, 이메일계정, 비밀번호 )

 'redirectUrl':'http://ivps.tistory.com',

 'loginId':'이메일계정',

 'password':'비밀번호'

}

tokenParams = {                                    ### 토큰값을 받아오기 위한 Parameters ( App ID, CallBack, 'token' )

 'client_id':'Open API App ID',

 'redirect_uri':'Open API CallBack',

 'response_type':'token'

}

def params_2(access_token):                        ### 블로그 정보 Parameters

  return {'access_token':access_token, 'output':'json'}

def params_3(access_token, blogName, page, count): ### 블로그 리스트 Parameters

  return {'access_token':access_token, 'output':'xml', 'targetUrl':blogName, 'page':page, 'count':count}

def params_4(access_token, blogName, post_id):     ### 블로그 상세보기 Parameters

  return {'access_token':access_token, 'output':'xml', 'targetUrl':blogName, 'postId':post_id}


blogName = 'ivps' ### 블로그명

page = 0          ### 1 페이지 부터 시작

count = 30        ### 최대값 30

post_id = 0       ### 아래에서 데이터를 추출

access_token = '' ### 아래에서 데이터를 추출


rs = requests.session()

try:

  r0 = rs.post(URL_0, data=loginParams)

  try:

    r1 = rs.get(URL_1, params=tokenParams)

    access_token = str( urlparse.parse_qs( r1.url.split('#')[1] )['access_token'][0] )

    print('### access_token : ' + access_token)

    try:

      r2 = rs.get(URL_2, params=params_2(access_token))

      print('### Open API, Blog Info Url : ' + str(r2.url))

      #print(r2.text)

      item = json.loads(r2.text)

      item_size = len(item['tistory']['item']['blogs'])

      ### SITEMAP XML Create

      sitemap = xml.Element('urlset')

      sitemap.set('xmlns', 'http://www.sitemaps.org/schemas/sitemap/0.9')

      for i in range(item_size): ### 0 ~ 5, 없거나 최대 5개의 블로그

        blog_name = item['tistory']['item']['blogs'][i]['name']

        if(blog_name == blogName): # 일치하는 블로그만

          print('### Find blog : ' + str(blog_name))

          ### ==> 블로그 주소 부분

          x1_1st = xml.SubElement(sitemap, 'url')

          x2_lo = xml.SubElement(x1_1st, 'loc').text        = item['tistory']['item']['blogs'][i]['url']

          x2_ch = xml.SubElement(x1_1st, 'changefreq').text = 'always'

          x2_pr = xml.SubElement(x1_1st, 'priority').text   = '1.0'

          ### <==

          totalCnt = item['tistory']['item']['blogs'][i]['statistics']['post']

          print('### post : ' + totalCnt) ### 포스팅 갯수

          pages = int ( math.ceil ( float(totalCnt) / float(count) ) )

          for j in range(pages): ### 총 페이지 만큼 반복

            page = j+1

            print('### Page : ' + str(page) + ' of ' + str(pages) + ' ###')

            try:

              r3 = rs.get(URL_3, params=params_3(access_token, blogName, page, count))

              print('### Open API, Blog List Url : ' + str(r3.url))

              xmlList = xml.fromstring(r3.text.encode(r3.encoding))

              #xml.dump(xmlList)

              for parent in xmlList.getiterator('post'): ### 목록에서 postId 추출

                post_id = int( parent.find('id').text )

                visibility = int( parent.find('visibility').text )

                if(visibility in (2,3)): ### 2:??, 3:발행 게시글

                  x2_ur = xml.SubElement(sitemap, 'url')

                  x3_lo = xml.SubElement(x2_ur, 'loc').text        = parent.find('postUrl').text

                  x3_ch = xml.SubElement(x2_ur, 'changefreq').text = 'daily'

                  x1_pr = xml.SubElement(x2_ur, 'priority').text   = '0.9'

                else:                                  ### 0:비공개, 1:보호

                  print('### Pass PostId(' + str(post_id) + ') visibility : ' + str(visibility))

            except:

              print('@@@ Error : ' + str(r3.url))

        else:

          print('### Pass blog : ' + str(blog_name))

    except:

      print('@@@ Error : ' + str(r2.url))

  except:

    print('@@@ Error : ' + str(r1.url))

except:

  print('@@@ Error : ' + str(r0.url))


#xml.dump(sitemap)

xml.ElementTree(sitemap).write('/var/www/html/sitemap.xml', encoding='utf-8', xml_declaration=True) # 적당한 위치에 저장


RSS 만들어주는 코드에서 응용해서 만들었습니다.


색깔이 들어간 부분만 수정하시면 됩니다.


티스토리에서 제공하는 Open API 를 이용한 코드입니다.


오픈API 등록은 https://ivps.tistory.com/645 여기를 참고하세요~


반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,

[Python] sitemap.xml 생성 방법


파이썬으로 사이트맵 파일을 만드는 방법입니다.

<?xml version='1.0' encoding='utf-8'?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>

    <loc>https://ivps.tistory.com</loc>

    <changefreq>always</changefreq>

    <priority>1.0</priority>

  </url>

</urlset>


위와 같은 파일을 파이썬으로 코딩하면 아래와 같습니다.

import xml.etree.ElementTree as xml


sitemap = xml.Element('urlset')

sitemap.set('xmlns', 'http://www.sitemaps.org/schemas/sitemap/0.9')

x1_1st = xml.SubElement(sitemap, 'url')

x2_lo = xml.SubElement(x1_1st, 'loc').text = 'https://ivps.tistory.com'

x2_ch = xml.SubElement(x1_1st, 'changefreq').text = 'always'

x2_pr = xml.SubElement(x1_1st, 'priority').text = '1.0'

xml.ElementTree(sitemap).write('/var/www/html/sitemap.xml', encoding='utf-8', xml_declaration=True)

칼라 부분이 키포인트이네요~


반응형
블로그 이미지

영은파더♥

가상서버호스팅 VPS 리눅스 서버관리 윈도우 IT

,