chore: lint
This commit is contained in:
@@ -374,7 +374,7 @@ export default class Interpreter extends EventEmitter {
|
|||||||
let previousHeight = 0;
|
let previousHeight = 0;
|
||||||
let currentPage = 1;
|
let currentPage = 1;
|
||||||
// track unique items per page to avoid re-scraping
|
// track unique items per page to avoid re-scraping
|
||||||
let scrapedItems: Set<string> = new Set<string>();
|
let scrapedItems: Set<string> = new Set<string>();
|
||||||
|
|
||||||
while (true) {
|
while (true) {
|
||||||
switch (config.pagination.type) {
|
switch (config.pagination.type) {
|
||||||
@@ -393,40 +393,40 @@ export default class Interpreter extends EventEmitter {
|
|||||||
break;
|
break;
|
||||||
case 'scrollUp':
|
case 'scrollUp':
|
||||||
break;
|
break;
|
||||||
case 'clickNext':
|
case 'clickNext':
|
||||||
const pageResults = await page.evaluate((cfg) => window.scrapeList(cfg), config);
|
const pageResults = await page.evaluate((cfg) => window.scrapeList(cfg), config);
|
||||||
|
|
||||||
// Filter out already scraped items
|
|
||||||
const newResults = pageResults.filter(item => {
|
|
||||||
const uniqueKey = JSON.stringify(item);
|
|
||||||
if (scrapedItems.has(uniqueKey)) return false; // Ignore if already scraped
|
|
||||||
scrapedItems.add(uniqueKey); // Mark as scraped
|
|
||||||
return true;
|
|
||||||
});
|
|
||||||
|
|
||||||
allResults = allResults.concat(newResults);
|
|
||||||
|
|
||||||
|
|
||||||
if (config.limit && allResults.length >= config.limit) {
|
|
||||||
return allResults.slice(0, config.limit);
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
const nextButton = await page.$(config.pagination.selector);
|
|
||||||
if (!nextButton) {
|
|
||||||
return allResults; // No more pages to scrape
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
await Promise.all([
|
|
||||||
nextButton.click(),
|
|
||||||
page.waitForNavigation({ waitUntil: 'networkidle' })
|
|
||||||
]);
|
|
||||||
|
|
||||||
|
|
||||||
await page.waitForTimeout(1000);
|
|
||||||
|
|
||||||
break;
|
// Filter out already scraped items
|
||||||
|
const newResults = pageResults.filter(item => {
|
||||||
|
const uniqueKey = JSON.stringify(item);
|
||||||
|
if (scrapedItems.has(uniqueKey)) return false; // Ignore if already scraped
|
||||||
|
scrapedItems.add(uniqueKey); // Mark as scraped
|
||||||
|
return true;
|
||||||
|
});
|
||||||
|
|
||||||
|
allResults = allResults.concat(newResults);
|
||||||
|
|
||||||
|
|
||||||
|
if (config.limit && allResults.length >= config.limit) {
|
||||||
|
return allResults.slice(0, config.limit);
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
const nextButton = await page.$(config.pagination.selector);
|
||||||
|
if (!nextButton) {
|
||||||
|
return allResults; // No more pages to scrape
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
await Promise.all([
|
||||||
|
nextButton.click(),
|
||||||
|
page.waitForNavigation({ waitUntil: 'networkidle' })
|
||||||
|
]);
|
||||||
|
|
||||||
|
|
||||||
|
await page.waitForTimeout(1000);
|
||||||
|
|
||||||
|
break;
|
||||||
case 'clickLoadMore':
|
case 'clickLoadMore':
|
||||||
const loadMoreButton = await page.$(config.pagination.selector);
|
const loadMoreButton = await page.$(config.pagination.selector);
|
||||||
if (!loadMoreButton) {
|
if (!loadMoreButton) {
|
||||||
|
|||||||
Reference in New Issue
Block a user