AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 科技  > 軟件

直接把任意網(wǎng)站變?yōu)?API 接口?Firecrawl有點(diǎn)牛了!

來(lái)源: 責(zé)編: 時(shí)間:2024-07-19 07:56:08 266觀看
導(dǎo)讀Hello,大家好,我是 Sunday。最近看到了一個(gè)爬蟲(chóng)類(lèi)框架:firecrawl 號(hào)稱(chēng) 可以抓取任何網(wǎng)站并將其轉(zhuǎn)換為干凈的 markdown 或結(jié)構(gòu)化數(shù)據(jù)。并且可以直接通過(guò) Node 進(jìn)行部署??催@樣的描述有點(diǎn)厲害了,所以,咱們今天就來(lái)看看這個(gè)

Hello,大家好,我是 Sunday。SCW28資訊網(wǎng)——每日最新資訊28at.com

最近看到了一個(gè)爬蟲(chóng)類(lèi)框架:firecrawl 號(hào)稱(chēng) 可以抓取任何網(wǎng)站并將其轉(zhuǎn)換為干凈的 markdown 或結(jié)構(gòu)化數(shù)據(jù)。并且可以直接通過(guò) Node 進(jìn)行部署。SCW28資訊網(wǎng)——每日最新資訊28at.com

看這樣的描述有點(diǎn)厲害了,所以,咱們今天就來(lái)看看這個(gè) firecrawlSCW28資訊網(wǎng)——每日最新資訊28at.com

01:什么是 firecrawl

firecrawl 是一種 API 服務(wù),它獲取 URL、對(duì)其進(jìn)行抓取并將其轉(zhuǎn)換為干凈的 markdown 或結(jié)構(gòu)化數(shù)據(jù)。我們會(huì)抓取所有可訪問(wèn)的子頁(yè)面并為您提供每個(gè)子頁(yè)面的干凈數(shù)據(jù)。無(wú)需站點(diǎn)地圖。SCW28資訊網(wǎng)——每日最新資訊28at.com

目前 Firecrawl 開(kāi)源 3周 的時(shí)間,已經(jīng)有了 7.9K 的 star 數(shù),可以說(shuō)是一個(gè)優(yōu)秀的項(xiàng)目了SCW28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片SCW28資訊網(wǎng)——每日最新資訊28at.com

獲取秘鑰在這里注冊(cè)并獲?。篽ttps://www.firecrawl.dev/pricingSCW28資訊網(wǎng)——每日最新資訊28at.com

有了秘鑰之后,可以直接基于 Node 包創(chuàng)建項(xiàng)目即可:SCW28資訊網(wǎng)——每日最新資訊28at.com

  1. 安裝依賴包 npm install @mendable/firecrawl-js
  2. 將 API 密鑰設(shè)置為命名的環(huán)境變量FIRECRAWL_API_KEY或?qū)⑵渥鳛閰?shù)傳遞給FirecrawlApp類(lèi)
  3. 如要抓取單個(gè) URL ,可直接通過(guò) scrapeUrl 方法
try {  const url = "https://example.com";  const scrapedData = await app.scrapeUrl(url);  console.log(scrapedData);} catch (error) {  console.error("Error occurred while scraping:", error.message);}
  1. 如要爬取網(wǎng)站信息,可以直接通過(guò) crawlUrl 方法。該方法以起始 URL 和可選參數(shù)作為參數(shù)。該params參數(shù)允許您為抓取作業(yè)指定其他選項(xiàng),例如要抓取的最大頁(yè)面數(shù)、允許的域和輸出格式。
const crawlUrl = "https://example.com";const params = {  crawlerOptions: {    excludes: ["blog/"],    includes: [], // leave empty for all pages    limit: 1000,  },  pageOptions: {    onlyMainContent: true,  },};const waitUntilDone = true;const timeout = 5;const crawlResult = await app.crawlUrl(  crawlUrl,  params,  waitUntilDone,  timeout);
  1. 可以通過(guò) checkCrawlStatus 方法檢查爬取狀態(tài)
const status = await app.checkCrawlStatus(jobId);console.log(status);
  1. 使用 LLM 可自動(dòng)格式化所有數(shù)據(jù)
import FirecrawlApp from "@mendable/firecrawl-js";import { z } from "zod";const app = new FirecrawlApp({  apiKey: "fc-YOUR_API_KEY",});// Define schema to extract contents intoconst schema = z.object({  top: z    .array(      z.object({        title: z.string(),        points: z.number(),        by: z.string(),        commentsURL: z.string(),      })    )    .length(5)    .describe("Top 5 stories on Hacker News"),});const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {  extractorOptions: { extractionSchema: schema },});console.log(scrapeResult.data["llm_extraction"]);
  1. 使用該 search 方法,您可以在搜索引擎中搜索查詢并獲取排名靠前的結(jié)果以及每個(gè)結(jié)果的頁(yè)面內(nèi)容。該方法將查詢作為參數(shù)并返回搜索結(jié)果。
const query = "what is mendable?";const searchResults = await app.search(query, {  pageOptions: {    fetchPageContent: true, // 獲取每個(gè)搜索結(jié)果的頁(yè)面內(nèi)容  },});


SCW28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-101703-0.html直接把任意網(wǎng)站變?yōu)?API 接口?Firecrawl有點(diǎn)牛了!

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 為什么StampedLock會(huì)導(dǎo)致CPU100%?

下一篇: 深入理解 JavaScript 中的 With 語(yǔ)句

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top