翼度科技»论坛 编程开发 .net 查看内容

一个超级大的文件如何更快读

8

主题

8

帖子

24

积分

新手上路

Rank: 1

积分
24
一个超级大的文件如何更快读

问题起因

一个有千万的数据的txt文件如何发挥IO的全部性能更快的读和写。
方案一

使用ChatGPT4的方案
在C#中,我们可以使用多线程来处理大量的数据并将其写入数据库。在处理大数据时,我们需要将任务分解为多个子任务,这样我们可以在不同的线程中并行执行它们以提高性能。
这里是一种可能的解决方案,使用了Task Parallel Library (TPL)来实现多线程。假设我们使用的是SQL Server数据库,并且我们正在处理的文件是TSV(Tab-Separated Values)文件。
  1. using System;
  2. using System.IO;
  3. using System.Threading.Tasks;
  4. using System.Data.SqlClient;
  5. using System.Collections.Concurrent;
  6. class Program
  7. {
  8.     static void Main()
  9.     {
  10.         string path = "yourFile.tsv";
  11.         ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>();
  12.         var producer = Task.Run(() =>
  13.         {
  14.             using (var reader = new StreamReader(path))
  15.             {
  16.                 string line;
  17.                 while ((line = reader.ReadLine()) != null)
  18.                 {
  19.                     var fields = line.Split('\t');
  20.                     queue.Enqueue(fields);
  21.                 }
  22.             }
  23.         });
  24.         var consumers = new Task[4];
  25.         for (int i = 0; i < consumers.Length; i++)
  26.         {
  27.             consumers[i] = Task.Run(() =>
  28.             {
  29.                 string connString = "Your connection string";
  30.                 using (var conn = new SqlConnection(connString))
  31.                 {
  32.                     conn.Open();
  33.                     while (true)
  34.                     {
  35.                         if (queue.TryDequeue(out string[] fields))
  36.                         {
  37.                             using (var cmd = new SqlCommand("Your insert command", conn))
  38.                             {
  39.                                 // Update parameters in cmd using fields
  40.                                 cmd.ExecuteNonQuery();
  41.                             }
  42.                         }
  43.                         else if (producer.IsCompleted)
  44.                         {
  45.                             break;
  46.                         }
  47.                     }
  48.                 }
  49.             });
  50.         }
  51.         Task.WaitAll(consumers);
  52.     }
  53. }
复制代码
在上面的代码中,我们首先创建了一个生产者任务,该任务从TSV文件中读取每一行,然后将每一行分割为字段,并将结果存入队列。然后我们创建了4个消费者任务,每个消费者任务都从队列中
题外话题

如果这个文件是按照行去分割数据如何利用多线程去发挥更高性能?
讨论 采用偏移值去分多个任务读,并且需要解决偏移值不一定还在每一行中的位置,使用需要设计好如何解决偏移值的位置问题。
首先规定任务的偏移值提供案例:
  1. [
  2.         {
  3.         "start":0,
  4.         "end":10000
  5.         },
  6.         {
  7.         "start":10001,
  8.         "end":20000
  9.         },
  10.         {
  11.         "start":20001,
  12.         "end":30000
  13.         },
  14.         {
  15.         "start":30000,
  16.         "end":40000
  17.         }
  18. ]
复制代码
在这里提供了四个任务,每一个任务的偏移值都是固定的,请注意,我们的文件的数据是按照每个换行符去分割数据,如果使用了偏移值,我们无法保证偏移值的位置一定是每一行的开头,这个时候需要注意如何处理偏移值的问题,下面我提供一个简单的解决方法,采用伪代码
  1. var data = new object []{
  2.    
  3.         {
  4.         "start":0,
  5.         "end":10000
  6.         },
  7.         {
  8.         "start":10001,
  9.         "end":20000
  10.         },
  11.         {
  12.         "start":20001,
  13.         "end":30000
  14.         },
  15.         {
  16.         "start":30000,
  17.         "end":40000
  18.         }
  19. }
  20. // 处理偏移值的方法
  21. // 提供多个线程任务去并发执行读
复制代码
通过伪代码我们可以看到,解决偏移值的问题是由先提供一个方法,将每一个偏移值去先处理一边在去执行任务。这样就可以解决问题。
这个属于题外话题。如果大佬们有其他想法也可以讨论,话题不在意IO的瓶颈,如何更快的读

来源:https://www.cnblogs.com/hejiale010426/archive/2023/06/08/17465628.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具