AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 軟件

直接把任意網站變為 API 接口?Firecrawl有點牛了!

來源: 責編: 時間:2024-07-19 07:56:08 202觀看
導讀Hello,大家好,我是 Sunday。最近看到了一個爬蟲類框架:firecrawl 號稱 可以抓取任何網站并將其轉換為干凈的 markdown 或結構化數據。并且可以直接通過 Node 進行部署。看這樣的描述有點厲害了,所以,咱們今天就來看看這個

Hello,大家好,我是 Sunday。RHl28資訊網——每日最新資訊28at.com

最近看到了一個爬蟲類框架:firecrawl 號稱 可以抓取任何網站并將其轉換為干凈的 markdown 或結構化數據。并且可以直接通過 Node 進行部署。RHl28資訊網——每日最新資訊28at.com

看這樣的描述有點厲害了,所以,咱們今天就來看看這個 firecrawlRHl28資訊網——每日最新資訊28at.com

01:什么是 firecrawl

firecrawl 是一種 API 服務,它獲取 URL、對其進行抓取并將其轉換為干凈的 markdown 或結構化數據。我們會抓取所有可訪問的子頁面并為您提供每個子頁面的干凈數據。無需站點地圖。RHl28資訊網——每日最新資訊28at.com

目前 Firecrawl 開源 3周 的時間,已經有了 7.9K 的 star 數,可以說是一個優秀的項目了RHl28資訊網——每日最新資訊28at.com

圖片圖片RHl28資訊網——每日最新資訊28at.com

獲取秘鑰在這里注冊并獲取:https://www.firecrawl.dev/pricingRHl28資訊網——每日最新資訊28at.com

有了秘鑰之后,可以直接基于 Node 包創建項目即可:RHl28資訊網——每日最新資訊28at.com

  1. 安裝依賴包 npm install @mendable/firecrawl-js
  2. 將 API 密鑰設置為命名的環境變量FIRECRAWL_API_KEY或將其作為參數傳遞給FirecrawlApp類
  3. 如要抓取單個 URL ,可直接通過 scrapeUrl 方法
try {  const url = "https://example.com";  const scrapedData = await app.scrapeUrl(url);  console.log(scrapedData);} catch (error) {  console.error("Error occurred while scraping:", error.message);}
  1. 如要爬取網站信息,可以直接通過 crawlUrl 方法。該方法以起始 URL 和可選參數作為參數。該params參數允許您為抓取作業指定其他選項,例如要抓取的最大頁面數、允許的域和輸出格式。
const crawlUrl = "https://example.com";const params = {  crawlerOptions: {    excludes: ["blog/"],    includes: [], // leave empty for all pages    limit: 1000,  },  pageOptions: {    onlyMainContent: true,  },};const waitUntilDone = true;const timeout = 5;const crawlResult = await app.crawlUrl(  crawlUrl,  params,  waitUntilDone,  timeout);
  1. 可以通過 checkCrawlStatus 方法檢查爬取狀態
const status = await app.checkCrawlStatus(jobId);console.log(status);
  1. 使用 LLM 可自動格式化所有數據
import FirecrawlApp from "@mendable/firecrawl-js";import { z } from "zod";const app = new FirecrawlApp({  apiKey: "fc-YOUR_API_KEY",});// Define schema to extract contents intoconst schema = z.object({  top: z    .array(      z.object({        title: z.string(),        points: z.number(),        by: z.string(),        commentsURL: z.string(),      })    )    .length(5)    .describe("Top 5 stories on Hacker News"),});const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {  extractorOptions: { extractionSchema: schema },});console.log(scrapeResult.data["llm_extraction"]);
  1. 使用該 search 方法,您可以在搜索引擎中搜索查詢并獲取排名靠前的結果以及每個結果的頁面內容。該方法將查詢作為參數并返回搜索結果。
const query = "what is mendable?";const searchResults = await app.search(query, {  pageOptions: {    fetchPageContent: true, // 獲取每個搜索結果的頁面內容  },});


RHl28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-101703-0.html直接把任意網站變為 API 接口?Firecrawl有點牛了!

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 為什么StampedLock會導致CPU100%?

下一篇: 深入理解 JavaScript 中的 With 語句

標簽:
  • 熱門焦點
  • 5月安卓手機好評榜:魅族20 Pro奪冠

    性能榜和性價比榜之后,我們來看最后的安卓手機好評榜,數據來源安兔兔評測,收集時間2023年5月1日至5月31日,僅限國內市場。第一名:魅族20 Pro好評率:97.50%不得不感慨魅族老品牌還
  • Raft算法:保障分布式系統共識的穩健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可復制、可冗余、可容錯”)的首字母縮寫。Raft算法是一種用于在分布式系統
  • 使用LLM插件從命令行訪問Llama 2

    最近的一個大新聞是Meta AI推出了新的開源授權的大型語言模型Llama 2。這是一項非常重要的進展:Llama 2可免費用于研究和商業用途。(幾小時前,swyy發現它已從LLaMA 2更名為Lla
  • 這款新興工具平臺,讓你的電腦效率翻倍

    隨著信息技術的發展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應運而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
  • 三分鐘白話RocketMQ系列—— 如何發送消息

    我們知道RocketMQ主要分為消息 生產、存儲(消息堆積)、消費 三大塊領域。那接下來,我們白話一下,RocketMQ是如何發送消息的,揭秘消息生產全過程。注意,如果白話中不小心提到相關代
  • 猿輔導與新東方的兩種“歸途”

    作者|卓心月 出品|零態LT(ID:LingTai_LT)如何成為一家偉大企業?答案一定是對“勢”的把握,這其中最關鍵的當屬對企業戰略的制定,且能夠站在未來看現在,即使這其中的
  • 小米公益基金會捐贈2500萬元馳援北京、河北暴雨救災

    8月2日消息,今日小米科技創始人雷軍在其微博上發布消息稱,小米公益基金會宣布捐贈2500萬元馳援北京、河北暴雨救災。攜手抗災,京冀安康!以下為公告原文
  • 上海舉辦人工智能大會活動,建設人工智能新高地

    人工智能大會在上海浦江兩岸隆重拉開帷幕,人工智能新技術、新產品、新應用、新理念集中亮相。8月30日晚,作為大會的特色活動之一的上海人工智能發展盛典人工
  • 利用職權私自解除被封帳號 Meta開除20多名員工

    11月18日消息,據外媒援引知情人士表示,過去一年時間內,Facebook母公司Meta解雇或處罰了20多名員工以及合同工,指控這些人通過內部系統以不當方式重置用戶帳號,其
Top