Простий парсер статей для Wordpress

Це простий та безкоштовний парсер статей для Wordpress.

Для роботи парсера ви повинні спочатку вказати шлях до сторінки зі списком статей, які вам потрібно спарсити.

Далі у форматі XPath потрібно вказати шлях до посилання на статтю на сторінці джерелі, щоб ви вказали, які посилання повинні бути оброблені плагіном.

У томуж форматі, але вже на сторінці статті ви повинні вказати заголовок статті та тіла статті.

У деяких чекбоксах ви можете ввімкнути завантаження зображень у тіло статті, очистку тегів тіла статті від класів, айді, посилань та скриптів.

Окремо у вас є можливість вказати в якій категорії будуть створюватись публікації вашого сайту та чи будуть вони одразу опубліковані.


Невелике пояснення по Xpath. Припустимо ви маєте джерело статей з адресою https://website.com/articles де приблизно наступна структура списка статей

<div id="articles_list">
	<ul>
		<li class="list_item">
			<div class="thumb"><img src="..." /></div>
			<div class="title"><a href="link_to_article">Some name</a></div>
		</li>
		..............
	</ul>
</div>

в цьому випадку, XPath для наших посилань на статті буде

//*[@id='articles_list']//*[contains(@class, 'title')]//a

Для того, щоб вказати назву статті достатньо просто вказати тег заголовка

//h1

Для тіла статті приблизно теж саме, якщо у нас умовно кажучи таке джерело

<div id="content">
	<div class="container">
		<div class="article_body">
			Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,
		</div>
	</div>
</div>

то для тіла статті можна вказати такий шлях

//*[@id='content']//*[contains(@class, 'article_body')]

 

Link to GitHub

Простий текст

  • Не дозволено жодних HTML теґів.
  • Рядки й абзаци переносяться автоматично.
  • Адреси вебсторінок та адреси електронної пошти автоматично перетворюються у посилання.
Код мови коментаря.