Header image

How-To

Tech news

Trending

Crawl Website Đơn Giản Với Postman

20/12/2022

457

Mở đầu

Trong kiểm thử API, chúng ta không xa lạ gì với Postman, một tool kiểm thử API rất phổ biến và được sử dụng trong nhiều trường hợp khác nhau. Nếu như bạn chưa rõ API là gì, có thể tham khảo lại bài viết giới thiệu về API cơ bản của mình tại ĐÂY.

Trong bài viết này, mình sẽ hướng dẫn các bạn cách crawl đơn giản một website bằng Postman nhằm kiểm tra xem các link hay hình ảnh có trong website đó có bị die hay lỗi gì không? 

Crawl Website là việc lấy thông tin từ website , trích xuất ra những thông tin người sử dụng cần, đồng thời cũng tìm những link có trong trang web đó và tự động truy cập vào những link đó. Quá trình đó sẽ lặp đi lặp lại đến khi thu thập đủ thông tin người dùng cần. 

Ví dụ dự án của bạn có một website như Landing Page hoặc trang chủ chẳng hạn, và trong trang lại có các hình ảnh, các hyperlink dẫn tới các trang con hoặc các website khác. Sau một thời gian bạn cần kiểm tra lại xem những hyperlink đó có còn hoạt động hay không. Thay vì phải click thủ công từng link một thì Postman có thể giúp bạn đơn giản hoá và tiết kiệm thời gian hơn cho việc này rất nhiều. Trước khi đi sâu vào bài viết, bạn cần có một số kiến thức về các khái niệm dưới đây:

  • Script trong Postman
  • Runner trong Postman
  • Có một ít kiến thức cơ bản về Javascript

Khâu chuẩn bị

Để bắt đầu, máy tính của bạn cần cài đặt Postman, tất nhiên rồi. Sau đó chúng ta sẽ tạo một Collection chứa hai Request với tên bất kỳ và hai biến collection. Trong ví dụ dưới đây, mình sẽ tạo Collection tên Crawl Website cùng 2 request:

  • Input check: Request này dùng để kiểm tra đầu vào trước khi crawl.
  • URL check: Request chính dùng để crawl website.
  • 2 biến collection gồm có: 
    • rootUrl: URL gốc của trang cần check
    • startUrl: URL bắt đầu khi chạy test, ở đây mình sẽ để rootUrl và startUrl chung 1 URL

Input check

Input check

Giờ chúng ta cùng thiết lập cho request đầu tiên. Ở request này, mình sẽ code tại phần Pre-request nhằm kiểm tra các đầu vào trong quá trình crawl website. Dưới đây là danh sách các function mình cần tạo trong request này

  • Kiểm tra danh sách biến có trong collection
  • Kiểm tra giá trị URL gán vào biến có định dạng hợp lệ
  • Tạo biến Global để sử dụng cho request tiếp theo

Như mình đã nói ở phần mở đầu, các bạn cần có kiến thức cơ bản về javascript để có thể hiểu hơn và tuỳ biến lại code phù hợp với nhu cầu của dự án. Mình sẽ có gắng giải thích đơn giản để những bạn ít biết về code vẫn có thể sử dụng được.

Ở request này, URL của request chúng ta sẽ để biến {{startUrl}} với phương thức là GET.

Input check

Kiểm tra danh sách biến có trong collection

Trước khi kiểm tra được danh sách các biến có trong collection, ta sẽ chuyển các biến đó thành object và gán vào biến postmanVariables

<strong>const</strong> postmanVariables = pm.collectionVariables.toObject();

Sau đó ta kiểm tra các biến cần sử dụng đã có trong collection hay chưa

pm.expect(postmanVariables).to.have.all.keys("startUrl", "rootUrl");

Kiểm tra giá trị URL gán vào biến có định dạng hợp lệ

Để kiểm tra giá trị URL gán vào biến có định dạng hợp lệ, ta sẽ sử dụng Regex. Đầu tiên ta sẽ gán định dạng URL viết dưới dạng regex vào biến urlRegex và so sánh các giá trị URL trong 2 biến collection là startURL và rootURL có giống với urlRegex hay không.

const urlRegex = /^https?:\/\//;
pm.expect(postmanVariables.startUrl, 'startUrl does not match URL pattern').to.match(urlRegex);
pm.expect(postmanVariables.rootUrl, 'rootUrl does not match URL pattern').to.match(urlRegex);

Tạo biến Global để sử dụng cho request tiếp theo

Kết thúc script mình sẽ tạo biến 3 biến là link, url, index cho request tiếp theo. Ở đây mình sử dụng biến Global để cho dễ truy cập và lấy giá trị giữa các request, tuỳ thuộc vào tính chất dự án, bạn có thể sửa lại thành biến cho 1 environment cũng không có vấn đề gì nhé. 

  • links: Mảng các link ta lấy được khi crawl một trang
pm.globals.set("links", "[]");
  • url: URL đang test
pm.globals.set("url", postmanVariables.startUrl);
  • index: Số thứ tự của URL cần test trong mảng links ta crawl được
pm.globals.set("index", -1);

URL check

URL check

Sau khi thiết lập xong request Pre-check, ta chuyển sang request URL check, đây sẽ là request chạy chính của mình. 

Ở request này, URL của request chúng ta sẽ để biến {{url}} với phương thức là GET.

URL check

Dưới đây là danh sách các function sẽ sử dụng trong request này:

  • Kiểm tra link lỗi
  • Lấy các hyperlink có trong website
  • Lọc các link không liên và lặp crawl
  • Kết thúc vòng lặp

Trước khi bắt đầu thì ta sẽ gán giá trị URL của 2 biến collection và 3 biến Global thành các biến Local cho dễ sử dụng

const startUrl = pm.collectionVariables.get("startUrl");
const rootUrl = pm.collectionVariables.get("rootUrl");
const links = JSON.parse(pm.globals.get("links"));
const currentUrl = pm.globals.get("url");
const currentIndex = parseInt(pm.globals.get("index"));

Kiểm tra link lỗi

Giờ ta sẽ tạo 1 hàm để kiểm tra xem link mình lấy về có bị lỗi hay không. Hiện tại thì link chúng ta test ban đầu chính là URL bạn gán vào biến startUrl.

pm.test(`Link to "${currentUrl}" works`, function () {
    try {
        pm.response.to.not.be.error;
    }
    catch (error) {
        console.log(`FAILED :: ${currentUrl}`);
        console.log(`FAILED :: status code is ${pm.response.code}`);
        
        throw error;
    }
});

Trong đó hàm try để kiểm tra xem link đó có trả về response lỗi hay không và hàm catch dùng để log lại thông tin lỗi. Tuỳ vào nhu cầu bạn có thể log thêm những thông tin khác bạn muốn kiểm tra nhé.

Lấy các hyperlink có trong webiste

Sau khi ta đã kiểm tra link ban đầu không bị lỗi, ta sẽ chạy hàm lấy các hyperlink có trong URL đó như sau:

if (currentUrl.includes(startUrl)) {
    const $ = cheerio.load(pm.response.text());
    
    $("a").each(function () {
        const newLink = $(this).attr("href");
        
        if (!links.includes(newLink)) {
            links.push(newLink);
        }
    });

    $("img").each(function () {
        const newLink = $(this).attr("src");
        
        if (!links.includes(newLink)) {
            links.push(newLink);
        }
    });
}

Để lấy dữ liệu từ trang web, ta sẽ crawl HTML của web đó và tìm kiếm thông tin ta cần từ các tag có trong HTML lấy về. Trong bài viết này mình sẽ thư viện Cheerio để lấy HTML của website cần test và gán nó vào biến $. Sau khi có được HTML rồi, ta sẽ tạo vòng lặp each để tìm các tag <a> và tag <img>, sau đó  lấy các URL trong attribute “href” ở trong <a> và “src” ở trong <img>. Tiếp đến ta sẽ gán nó vào biến newLink. Ngoài ra tuỳ thuộc vào nhu cầu và tính chất của trang web, các bạn có thể bổ sung thêm các thẻ và attribute có chứa URL cần test như <link> chẳng hạn.

Vì ta chỉ cần check mỗi link 1 lần nên mình sẽ viết thêm 1 hàm if để kiểm tra xem URL lấy được đã được lấy trước đó hay chưa, nếu chưa thì sẽ bỏ link đó vào mảng links. Ở bước này bạn cũng có thể bổ sung thêm các điều kiện khác để check link lấy được tuỳ thuộc vào nhu cầu của bạn như không lấy link ads hay action link,…

Lọc các link không liên quan và lặp crawl

Chúng ta đã đi được hơn nữa quãng đường rồi. Sau khi lấy được các link có trong web và bỏ vào mảng links, giờ ta sẽ viết 1 function để trích xuất các link đó và chạy tiếp cũng như lọc những link không liên quan.

const [nextUrl, nextIndex] = getNextUrlAndIndex(links, currentIndex);
function getNextUrlAndIndex (links = [], index = 0) {
    const nextIndex = index + 1;
    
    if (links.length - 1 === nextIndex) {
        return [];
    }
    
    const linkUrl = links[nextIndex];
    
    if (!linkUrl) {
        // Skip null links
        console.log('Encountered a null link.');
        
        // Try to get the next link
        return getNextUrlAndIndex(links, nextIndex);
    }
    
    if (/^https?:\/\//.test(linkUrl)) {
        // Return if not a relative link
        return [linkUrl, nextIndex];
    }
    
    // If the link is relative, prepend with rootUrl
    const cleanedRoot = rootUrl.replace(/\/$/, '');
    const cleanedPath = linkUrl.replace(/^[\.\/]+/, '');
    
    return [[cleanedRoot, cleanedPath].join('/'), nextIndex];
}

Function này ta sẽ sử dụng biến links chứa mảng link đã lấy và biến index nhằm trích xuất vị trí link ta muốn chạy tiếp.

Hàm if đầu tiên sẽ check nếu như ta chạy xong hết mảng link thì sẽ trả về mảng rỗng.

Hàm if thứ 2 sẽ kiểm tra loại trừ các loại link mà bạn không muốn test, ở đây mình sẽ loại trừ null link, ngoài ra bạn có thể bổ sung thêm các loại link khác như link download chẳng hạn.

Hàm if tiếp theo sẽ dùng regex để kiểm tra xem link đó có nằm trong các trang con của mình hay không. Mình sẽ check bằng logic nếu như đầu URL đó giống với biến rootUrl thì sẽ truy cập tiếp vào trang đó và lấy tiếp các URL có trong trang con và lặp lại đến khi nào không còn tìm thấy nữa thì thôi.

Kết thúc vòng lặp

Cuối cùng chúng ta sẽ chạy 1 hàm if để kết thúc vòng lặp crawl này

if (nextUrl) {
    // Update global variables
    pm.globals.set("links", JSON.stringify(links));
    pm.globals.set("url", nextUrl);
    pm.globals.set("index", nextIndex);

    postman.setNextRequest("Check URL");
}
else {
    console.log("No more links to check!");
    
    // Clear global variables
    pm.globals.clear("links");
    pm.globals.clear("url");
    pm.globals.clear("index");
    
    // End the loop
    postman.setNextRequest(null);
}

Trong hàm if này nếu như vẫn còn get được link từ website thì sẽ tiếp tục gán vào biến Local để chạy tiếp bằng hàm postman.setNextRequest(“Check URL”);. Nếu như hết link thì mình sẽ đặt lệnh clear biến global để cho gọn phần biến tránh ảnh hưởng cho những lần chạy sau và set Next Request về null để kết thúc vòng lặp.

Kết

Vậy là chúng ta đã hoàn thành một collection crawl website đơn giản bằng Postman. Hi vọng các bạn có thể áp dụng được vào trong dự án của mình và hẹn gặp các bạn ở những bài viết tiếp theo.

Reference

Crawl Website

Regex

Postman Collection

Related Blog

is react native good for mobile app development

Knowledge

+0

    Is React Native Good for Mobile App Development? A Simple Guide

    Mobile app development has evolved rapidly, and developers often find themselves faced with the decision of choosing the right framework for their projects. Among the various options available, React Native has gained significant popularity. But is React Native really a good choice for mobile app development? Let's break it down in simple terms. Understanding React Native React Native 101: React Native is an open-source framework developed by Facebook that allows developers to build mobile applications using the familiar syntax of React, a popular JavaScript library for building user interfaces. The key advantage? You can write your code once and run it on both iOS and Android platforms, saving time and effort. Find out more about the general pros and cons of using React Native for web app development. When to Choose React Native 1. Prototyping and MVPs: If you're in the early stages of app development and need to quickly validate your ideas, React Native is a solid choice. Its rapid development capabilities make it ideal for creating prototypes and minimum viable products (MVPs) that can be tested on both iOS and Android platforms. 2. Limited Development Resources: For teams with developers skilled in JavaScript, React Native provides a familiar environment. This is particularly advantageous if you have a smaller team or a tight budget, as it allows you to leverage existing skills rather than investing in learning platform-specific languages. 3. Content-Driven Apps: Apps that heavily rely on displaying content, such as news apps or social media platforms, can benefit from React Native's efficiency. The framework's ability to handle complex UIs and its performance optimization make it suitable for content-centric applications. 4. Apps Requiring Regular Updates: React Native's hot reloading feature makes it an excellent choice for apps that require frequent updates. Developers can make changes on the fly without disrupting the user experience, making it easier to implement improvements and fix bugs promptly. 5. Small to Medium-Sized Apps: While React Native can handle large-scale applications, it truly shines in the development of small to medium-sized apps. Its simplicity and efficiency make it an excellent fit for projects where a lightweight framework is preferred. Considerations and Limitations 1. Complex Animations and Graphics: While React Native is excellent for most UI interactions, highly complex animations and graphics might benefit from a more native approach. In such cases, a blend of React Native and native modules might be necessary. 2. Platform-Specific Requirements: If your app heavily relies on platform-specific features, you might find yourself writing native modules or components. While React Native tries to be a one-size-fits-all solution, there are instances where platform-specific code is unavoidable. 3. Learning Curve for Native Modules: When dealing with complex functionalities or integrations, you might need to dip into native modules. This could require knowledge of Swift or Java, adding a bit of a learning curve for developers primarily familiar with JavaScript. Conclusion In the ever-expanding landscape of mobile app development, React Native stands out as a versatile and efficient framework. Its cross-platform capabilities, along with a plethora of benefits, make it a compelling choice for many projects. However, like any tool, it's crucial to understand its strengths and limitations. So, is React Native good for mobile app development? Absolutely, especially when it aligns with your project requirements and development goals. For rapid prototyping, cross-platform compatibility, and content-centric applications, React Native proves to be an excellent companion. As with any development decision, it's about finding the right tool for the job, and React Native certainly deserves a spot in the toolbox.

    15/01/2024

    337

    Knowledge

    +0

      15/01/2024

      337

      Is React Native Good for Mobile App Development? A Simple Guide

      pros and cons of using react native in web app development

      Knowledge

      +0

        Pros and Cons of Using React Native in Web App Development

        As a seasoned React developer navigating the dynamic landscape of web app development, the choice of frameworks can significantly impact project outcomes. React Native, originally designed for mobile app development, has increasingly found its way into the realm of web applications. Let's dissect the pros and cons of employing React Native in web app development with a straightforward lens. Pros of using React Native **1. Cross-Platform Development:** React Native's hallmark is its ability to facilitate cross-platform development. This is a game-changer for web apps seeking a unified codebase for both desktop and mobile experiences. The advantages are evident in projects like Facebook's own Ads Manager, where a shared codebase expedites development and maintenance. **2. Reusable Components:** The component-based architecture of React Native isn't just for show. It promotes code reusability and consistency across different parts of your web app. For instance, a custom UI component developed for a specific feature can seamlessly find its way into other sections, ensuring a uniform look and feel. **3. Familiarity with React:** For developers well-versed in React, the transition to React Native for web app development is remarkably smooth. The ability to leverage existing knowledge and skills in JavaScript and React principles expedites the learning curve, fostering a more efficient development process. **4. Community Support:** The React Native community is robust, offering a plethora of resources, libraries, and third-party tools. For web app developers, this translates into an abundance of solutions and best practices readily available. A supportive community ensures that challenges are met with collective knowledge and innovation. Cons of using React Native **1. Limited Access to Native Modules:** While React Native provides access to a wide array of native modules, it may lack support for certain platform-specific features. For example, if your web app requires intricate functionalities deeply rooted in native capabilities, relying solely on React Native might present limitations. **2. Web-Specific Performance Challenges:** React Native, initially designed for mobile environments, may not seamlessly translate to optimal performance in web browsers. Rendering complex UIs and handling animations can pose challenges, as the framework's strengths lie more in the mobile app domain. **3. Learning Curve for React Native Web:** Despite React Native's familiarity for React developers, adapting it for web app development involves a learning curve. Navigating the nuances of React Native Web, the library extension for web applications, might require additional effort. This could potentially impact development timelines. **4. Limited Ecosystem for Web:** While React Native boasts a mature ecosystem for mobile development, its offerings for web app development are relatively nascent. Developers might encounter scenarios where specific web-related functionalities are not as well-supported or documented as their mobile counterparts. Navigating the Decision Scenario 1: Building a Cross-Platform App with Unified Codebase Consider React Native for a project where a cross-platform web app with a unified codebase is a priority. For instance, an e-commerce platform aiming for consistency across desktop and mobile interfaces could benefit significantly from React Native. Scenario 2: High Dependency on Platform-Specific Features If your web app heavily relies on platform-specific features or demands high-performance graphics, consider evaluating alternatives. Directly using native frameworks or exploring hybrid solutions tailored for web might be more suitable. Scenario 3: Leveraging Existing React Skills for Web Development If your team is well-versed in React and wishes to leverage existing skills for web app development, React Native becomes a pragmatic choice. This is particularly relevant for projects where a rapid development cycle is crucial. Conclusion: In the nuanced landscape of web app development, React Native brings both advantages and challenges. Its cross-platform capabilities and code-sharing benefits can be instrumental in specific scenarios, while considerations such as performance optimization and access to native features must be weighed. Ultimately, the decision to use React Native for web app development hinges on project requirements, development goals, and the unique characteristics of the application. A pragmatic approach involves assessing the strengths and limitations outlined here, aligning them with the project's needs, and making an informed decision that best serves the development objectives.

        14/01/2024

        361

        Knowledge

        +0

          14/01/2024

          361

          Pros and Cons of Using React Native in Web App Development

          flutter for cross platform app development

          How-To

          Knowledge

          +0

            Optimizing Flutter for Seamless Cross Platform App Development

            Flutter, the dynamic cross-platform app development framework from Google, offers a plethora of features that simplify the development process. However, to truly harness its potential, optimization is key. In this article, we'll explore how you can optimize Flutter for cross platform app development in a simple and easy-to-understand manner. 1. Efficient Widget Management: Keep it Neat and Tidy Widgets are the building blocks of Flutter apps. To optimize your cross-platform development, organize your widgets efficiently. Consider breaking down complex UIs into smaller, reusable widgets. This not only enhances code readability but also makes maintenance and updates a breeze. Think of widgets as Lego pieces; the more organized they are, the easier it is to construct your app. 2. Leverage Flutter's Hot Reload: Instant Gratification, Real-time Results Flutter's Hot Reload feature is a developer's best friend. Use it liberally! Hot Reload allows you to see immediate results as you make changes to your code. This not only speeds up the development process but also facilitates quick iterations and experimentation. It's like having a superpower – changes take effect on the spot without the need for a full app restart. 3. Optimize Images and Assets: Trim the Digital Fat Images and assets play a crucial role in app development, but they can also contribute to increased app size. Optimize your images by compressing them without compromising quality. Consider using tools like ImageOptim or TinyPNG to reduce file sizes. This not only improves app performance but also ensures faster download times for users. 4. Mindful Memory Management: Keep it Light Efficient memory management is essential for a smooth app experience. Flutter helps in this regard, but developers should still be mindful. Avoid unnecessary memory allocations, release resources when they're no longer needed, and keep an eye on memory leaks. By keeping your app's memory footprint in check, you ensure that it runs smoothly across various devices. 5. Use Platform Channels Wisely: Bridging the Gap Flutter's platform channels enable communication between Dart (Flutter's programming language) and native code. While powerful, use them judiciously. Excessive use of platform channels can lead to increased complexity and potential performance bottlenecks. Prioritize Flutter's built-in capabilities, and only resort to platform channels when necessary for accessing native features. 6. Adopt Code Splitting: Divide and Conquer for Faster Loading Code splitting is a nifty technique that involves breaking down your app's code into smaller, manageable chunks. This can significantly reduce initial load times, especially for large applications. By loading only the code necessary for the current screen, you ensure a faster and more responsive user experience. 7. Responsive Design for Varying Screen Sizes: One Size Does Not Fit All Optimize your app's user interface for different screen sizes and orientations. Flutter provides responsive design features that allow your app to adapt gracefully to various devices. Utilize flexible layouts and test your app on different screen sizes to ensure a consistent and user-friendly experience for all users. 8. Update to the Latest Flutter Version: Stay on the Cutting Edge Flutter is an ever-evolving framework, and staying up-to-date with the latest releases is crucial. Each new version comes with performance improvements, bug fixes, and new features. Regularly updating your Flutter framework ensures that you benefit from optimizations made by the Flutter team, keeping your app in top-notch condition. In conclusion, optimizing Flutter for cross-platform app development is all about efficient coding practices, resource management, and staying attuned to the framework's evolving capabilities. By organizing your code, leveraging hot reload, optimizing assets, and adopting responsive design, you can ensure that your Flutter app delivers a seamless experience across various platforms. So, dive into the world of Flutter with these optimization tips, and watch your cross-platform app development journey flourish. Happy coding! Check out a case study which SupremeTech apply Flutter to build cross platform app for a blockchain product.

            13/01/2024

            248

            How-To

            +1

            • Knowledge

            13/01/2024

            248

            Optimizing Flutter for Seamless Cross Platform App Development

            react components and architecture in reactjs development services

            Knowledge

            +0

              Understanding React Components and Architecture in ReactJS Development Services

              React has emerged as a powerhouse, thanks to its component-based architecture. If you're a newcomer or someone looking to deepen your understanding of React components, you're in the right place. Let's break down the fundamentals of React's component-based architecture in plain and simple terms. What Are React Components? At its core, React is all about components. But what exactly is a component? Well, think of a component as a reusable building block for your user interface. It's like LEGO bricks for web development. Each component represents a specific part of your application's UI, encapsulating its functionality and appearance. Read more about React Component Lifecycle phases. There are two main types of components in React: Functional Components and Class Components. Functional components are concise and focused solely on rendering UI, while class components have additional features like state and lifecycle methods. In recent versions of React, the introduction of Hooks has made functional components the preferred choice for many developers. The Component-Based Architecture Now, let's dive into the heart of React's magic—its component-based architecture. Unlike traditional frameworks, where you build pages, React encourages you to break down your UI into small, reusable components. This modular approach brings several advantages to the table. 1. Reusability: Components are like building blocks that you can use and reuse across your application. Need a button? Create a button component. Want to display a user profile? Craft a profile component. This reusability not only saves time but also promotes a consistent and maintainable codebase. 2. Maintainability: Since each component is responsible for a specific part of the UI, making changes or fixing issues becomes a breeze. You don't have to scour through a massive codebase to find what you're looking for. Just locate the relevant component, make your adjustments, and you're done. 3. Scalability: As your application grows, the component-based architecture scales effortlessly. New features can be implemented by adding new components without disrupting existing functionality. It's like adding more LEGO pieces to your creation—your structure remains stable, and you can keep expanding. 4. Collaboration: Component-based development is a dream for collaborative projects. Different team members can work on different components simultaneously without stepping on each other's toes. This division of labor enhances productivity and fosters a smoother development process. 5. Testing and Debugging: With components, testing becomes more granular and focused. You can isolate and test each component independently, ensuring that it behaves as expected. If an issue arises, pinpointing the problem is more straightforward, making debugging less of a headache. Anatomy of a React Component Let's break down the basic structure of a React component: In this simple example, we have a functional component (MyComponent) and a class component (MyClassComponent). Both achieve the same result—a heading inside a div. The difference lies in their syntax and additional features offered by class components. Conclusion In a nutshell, React's component-based architecture is a game-changer in the world of web development. By breaking down your UI into modular, reusable components, you gain advantages in terms of reusability, maintainability, scalability, collaboration, and testing. Whether you're a beginner or a seasoned developer, understanding and embracing this approach can elevate your React game. So, the next time you're building a web application with React, think of it as assembling a digital LEGO masterpiece—one component at a time. Happy coding!

              12/01/2024

              231

              Knowledge

              +0

                12/01/2024

                231

                Understanding React Components and Architecture in ReactJS Development Services

                Post banner imagePost banner image
                Customize software background

                Want to customize a software for your business?