Hello,大家好,我是 Sunday。
最近看到了一個(gè)爬蟲(chóng)類(lèi)框架:firecrawl 號(hào)稱(chēng) 可以抓取任何網(wǎng)站并將其轉(zhuǎn)換為干凈的 markdown 或結(jié)構(gòu)化數(shù)據(jù)。并且可以直接通過(guò) Node 進(jìn)行部署。
看這樣的描述有點(diǎn)厲害了,所以,咱們今天就來(lái)看看這個(gè) firecrawl
firecrawl 是一種 API 服務(wù),它獲取 URL、對(duì)其進(jìn)行抓取并將其轉(zhuǎn)換為干凈的 markdown 或結(jié)構(gòu)化數(shù)據(jù)。我們會(huì)抓取所有可訪問(wèn)的子頁(yè)面并為您提供每個(gè)子頁(yè)面的干凈數(shù)據(jù)。無(wú)需站點(diǎn)地圖。
目前 Firecrawl 開(kāi)源 3周 的時(shí)間,已經(jīng)有了 7.9K 的 star 數(shù),可以說(shuō)是一個(gè)優(yōu)秀的項(xiàng)目了
圖片
獲取秘鑰在這里注冊(cè)并獲?。篽ttps://www.firecrawl.dev/pricing
有了秘鑰之后,可以直接基于 Node 包創(chuàng)建項(xiàng)目即可:
try { const url = "https://example.com"; const scrapedData = await app.scrapeUrl(url); console.log(scrapedData);} catch (error) { console.error("Error occurred while scraping:", error.message);}
const crawlUrl = "https://example.com";const params = { crawlerOptions: { excludes: ["blog/"], includes: [], // leave empty for all pages limit: 1000, }, pageOptions: { onlyMainContent: true, },};const waitUntilDone = true;const timeout = 5;const crawlResult = await app.crawlUrl( crawlUrl, params, waitUntilDone, timeout);
const status = await app.checkCrawlStatus(jobId);console.log(status);
import FirecrawlApp from "@mendable/firecrawl-js";import { z } from "zod";const app = new FirecrawlApp({ apiKey: "fc-YOUR_API_KEY",});// Define schema to extract contents intoconst schema = z.object({ top: z .array( z.object({ title: z.string(), points: z.number(), by: z.string(), commentsURL: z.string(), }) ) .length(5) .describe("Top 5 stories on Hacker News"),});const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", { extractorOptions: { extractionSchema: schema },});console.log(scrapeResult.data["llm_extraction"]);
const query = "what is mendable?";const searchResults = await app.search(query, { pageOptions: { fetchPageContent: true, // 獲取每個(gè)搜索結(jié)果的頁(yè)面內(nèi)容 },});
本文鏈接:http://www.tebozhan.com/showinfo-26-101703-0.html直接把任意網(wǎng)站變?yōu)?API 接口?Firecrawl有點(diǎn)牛了!
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com